Hjem meninger Den hellige gral for stemmevisning, nå på skype | john c. dvorak

Den hellige gral for stemmevisning, nå på skype | john c. dvorak

Video: Realtime English - German voice translation with Skype (Oktober 2024)

Video: Realtime English - German voice translation with Skype (Oktober 2024)
Anonim

Hvis du fulgte datamaskinrevolusjonen fra starten av mikroprosessoren, ville du vite at det er en rekke tidlige løfter som ennå ikke er oppfylt.

En av disse er direkte oversatt tale, der du sier noe på engelsk, og det gjentas på et annet språk, som spansk, i nær sanntid. Selv om det fremdeles er et arbeid, er Microsoft nå et skritt nærmere med Skype Translator, hvor den første fasen gikk live denne uken.

Hvis dette kommer i nærheten av å fungere og ikke er en vits, er det tiårets produkt. Akkurat nå støtter Skype Translator spansk-til-engelsk og engelsk-til-spansk oversettelser, men flere språk er satt til å følge.

Det typiske problemet med slike ting er det skandaløse vanskelighetsnivået. Jeg har ennå ikke sett en anstendig oversettelsespakke som gjør tekst-til-tekst-oversettelser som fungerer bra. Taleoversettelse har et helt annet vanskelighetsnivå, spesielt i sanntid.

Microsoft har en film som viser to barn som snakker på spansk og engelsk, slik at det ser ut som om det fungerer bra. Men jeg så et lignende system demonstrert av IBM for nesten 20 år siden som aldri så dagens lys. IBMs versjon ble utviklet på 1990-tallet, da det var en tale-anerkjennelsesmani ledet av Lernout & Hauspie, et selskap som gikk for blakk - før de gikk over en svindelskandale i 2001. Før det kjøpte den imidlertid all tale-teknologi selskapet det kunne, inkludert Dragon Systems, Berkeley Speech Technologies, Fonix, Dictaphone og andre. Microsoft hadde en eierandel på 8 prosent i L&H og endte opp med noen av teknologiene som en konkursavskjedsgave.

Nå dukker plutselig Skype Translator opp. Tilfeldighet? Uansett hva, så har hele teknologien tatt for lang tid å komme til dette punktet.

Se på de elendige tekst-til-tekst datamaskinoversettelsene gjort av Google og andre. Tekst unngår og kan ikke unngå det mest åpenbare av feil. Ingen av dette nærmer seg kompleksiteten i taleoversettelse, som innebærer tung signalbehandling.

Jeg er vinsamler og besøker ofte franske vingårdsnettsteder. Min fransk er bare greit, så jeg slår ofte på oversettelsen for å fremskynde å lese nettstedet. Her er vi i 2014 og ingen av oversetterne kan finne ut at oversettelsen av Château Margaux er Château Margaux, ikke Castle Margaux. Hvor vanskelig er det å avstå og ikke oversette et ofte brukt ord som brukes i et riktig navn, for eksempel château, som vanligvis refererer til en bestemt vingård, til ordet slott? Tilsynelatende er det umulig. De gjør det alle sammen.

Hvor vanskelig er det å skrive noe unntak i koden som forteller oversetteren at den ligger på en webside om Bordeaux-vin? Selv om ordet château på det nettstedet ikke betyr slott. Ofte vil oversetteren prøve å avkode resten av slottnavnet også, med latterlige resultater. Det beste du vanligvis kan gjøre med tekstoversettelse, er å få en oversikt over hva nettstedet sier.

Spør deg selv: hvis tekst er så vanskelig, hvordan vil Microsoft administrere tale?

Det er nesten umulig, selv på samme språk. Ta Google Voice-telefontjenesten. Den har en tale-til-tekstmeldingsfunksjon. Jeg har aldri mottatt en tale-til-tekstmelding som til og med kommer i nærheten av det personen faktisk sa. Ikke en gang.

Jeg skal innrømme at i et stille rom når du snakker utpreget og tydelig, gjør stemmegjenkjenning det bra. Jeg bruker den til tekstmeldinger på Android-telefonen min. Men i en skikkelig samtale er det ingen som snakker slik. Jeg beundrer Microsoft for å ha rullet ut dette. Men det vil ikke fungere som annonsert.

Når det er sagt, er det i det minste noe å leke med. Det kan til og med utløse en ny generasjon forskning. Så jeg klager ikke for mye.

Alle vil ha dette. La oss komme tilbake til å jobbe med det.

Den hellige gral for stemmevisning, nå på skype | john c. dvorak