tirsdag den 1. marts 2011

Hvad er det egentlig for nogle sprog, der er på Google Translate?

Kom til at undre mig lidt over, hvad der ligger til grund for valget af sprog til Google Translate? Min umiddelbare tanke var at se på, hvor mange der taler de forskellige sprog.

Jeg her vil lave lister og sammenligne, men jeg vil se på de afvigelser og uregelmæssigheder ift. antallet af talere.

Hvis man kikker på nogle af de mest talte sprog, så er der allerede flere i top 20, som GT ikke kan. Bengali (modersmål for ca. 181 mio.) ligger lige efter top 5, og indenfor top 20 ligger også andre indiske sprog som punjabisk (ca. 88 mio.), telugu (ca. 70 mio.), marathi (ca. 68 mio.) og tamil (ca. 65 mio.), altså flere af Indiens største sprog. Derudover er der javanesisk (ca. 80 mio.) og Wu-kinesisk. Andre former for kinesisk figurerer ikke langt længere nede.

På den anden side er der også sprog med, som ligger i den anden ende af listen. Det er måske en smule begrænset, hvor meget jiddisch og haitisk kreol, man finder på internettet. Estisk, irsk og lettisk har faktisk kun mellem 1-2 mio. talere, mens walisisk, maltesisk og islandsk har under 1 mio. Og latin har jo ingen!

Men valget af disse sprog er nok påvirket af deres landes position og måske også muligheden for at skaffe materiale, som Google Translate kan bruge.

Ingen kommentarer:

Send en kommentar