Hjem Fremover tenking Intelligente assistenter: hva kommer etter siri?

Intelligente assistenter: hva kommer etter siri?

2024

Video: Learn To Setup Siri | Apple's Intelligent Personal Assistant (Oktober 2024)

Intelligente assistenter - Siri, Google Now, Cortana og lignende - har gått fra nysgjerrighet og salongtriks for bare noen få år siden til viktige verktøy som mange bruker i hverdagen. Forrige uke droppet jeg innom Intelligent Assistants Conference i New York, presentert av Opus Research, og ble imponert over fremgangen programvaren gjør i en rekke bransjer, inkludert fremskritt for finansielle, forsikrings- og medisinske selskaper med å bygge spesifikke agenter.

Opus Research-grunnlegger Dan Miller forklarte at mange av kjerneteknologiene, for eksempel talegjenkjenning, har eksistert i mer enn 20 år. Selv om han nylig har sett noen store forbedringer, snarere enn en revolusjon, sa han "vi er på en evolusjonær vei", med mange produkter på et kontinuum med forskjellige evner. Han bemerket at det er hundrevis av intelligente bedriftsassistenter som kan brukes til en enkel tekstbasert samtale på vanlig engelsk ved hjelp av et fast datasett, og for ting som å navigere på et nettsted eller en vanlige spørsmål. I den andre enden av spekteret er det sannsynligvis bare noen få dusin "dynamiske, menneskelige følelser-apper" som er mer samtale- og kontekstbevisste.

Miller pekte på søknader som vant priser på konferansen. Amtrak's Julie startet som en interaktiv telefonserviceagent for mange år siden, men har nå utviklet seg til en agent som jobber på nettstedet for å veilede reisende gjennom Amtrak.com, basert på en agent fra Next IT. Telefonica Mexico har en agent som heter Nico som har en avatar og gir også støtte via Twitter og Facebook, basert på AgentBots plattform. ING Netherlands har Inge, en app som lar deg sjekke bankkontosaldoen din eller overføre penger via tale, ved hjelp av stemmebiometrisk teknologi fra Nuance, for å autentisere identiteten din.

Hederlige omtaler inkluderer helsetjenester, for eksempel en app som hjelper deg å velge en helseplan. Andre applikasjoner jeg hørte om på showet inkluderer Domino's Pizza, som har en app som heter Dom som lar deg bruke stemme til å bestille pizza; og BMW, som har en virtuell agent som en del av sin Up2drive autofinansieringsarm.

Brance Beraneck fra Nuance snakket om hvordan fremskrittene i nevrale nettverk med dyp læring har forbedret ting som naturlig språkforståelse så vel som stemmegjenkjenning, og hvordan dette nå går sammen for å muliggjøre mye mer interesse for feltet. Nuances Nina-assistent var et tidlig eksempel, og siden har det vokst til mange spesifikke applikasjoner, alt fra interaktive stemmesvarssystemer hos forsikringsselskaper til shoppingapper. Hver av disse applikasjonene har en annen personlighet, avhengig av hva den prøver å hjelpe deg.

En stor ny funksjon han diskuterte var stemmebiometri, der stemmen din erstatter et passord. Han snakket om hvordan selskaper som ING i Europa utvikler agenter som ikke bare bruker stemmegjenkjenning og naturlig språkbehandling, men også begynner å bruke stemme for å gjenkjenne personen som ringer. Han sa at dette var både tryggere og mer naturlig enn et tradisjonelt passord.

Mens nyere studier har bekymret seg for at taleopptak kan lure slike systemer, bemerket Nuance at dagens teknologi inkluderer funksjoner som tar sikte på å plukke opp anomalier fra spilt inn tale og pekte på andre studier som tok et annet synspunkt. Dessuten, sa han, kan designere bruke forskjellige nivåer av stemmebiometri for forskjellige funksjoner, for eksempel å bruke enkel gjenkjennelse for å kontrollere en kontosaldo, eller be deg om å gjenta en tilfeldig ordrekkefølge for betydelige pengeoverføringer.

Stemmebiometri ser absolutt ut til å få litt trekkraft. På forrige ukes Gartner-symposium inkluderte en sesjon om "kule kundesaker" i finansielle tjenester en Citibank-app som brukte denne funksjonen.

MyWave har en assistent kalt Frank som er ment å være aktivert av flere virksomheter slik at du kan samhandle med dem på en mer samtale måte, i stedet for å få hver virksomhet til å utvikle sin egen. De første bruksområdene inkluderer en bank fra New Zealand og en app kalt Saveawatt designet for å hjelpe deg med å velge strømleverandøren din.

Administrerende direktør Geraldine McBride forklarte at selskapet prøver å skape assistenter som overbryter gapet mellom kunder og service-apper, med det det kaller "kundestyrte forhold" eller CMR, et snurr på tradisjonelle CRM-applikasjoner. En stor forskjell, sa hun, er at kunden er ansvarlig for alle dataene hans, heller enn virksomheten.

Et annet relativt nytt selskap, Expect Labs, har et produkt kalt MindMeld som fungerer som en backend til en rekke selskaper som ønsker å tilby et stemmegrensesnitt for å erstatte tradisjonelle grensesnitt og håndtere spørsmål og svar. Dette kan brukes til en rekke bruksområder, for eksempel å se på TV-serier ved bare å stille navnet og ha systemspørringen om flere systemer. (Amazons Fire TV har noen av disse funksjonene, men er ikke integrert med kabel-set-top-boksen, mens en av investorene i Expect Labs er kabelselskapet Liberty Global.)

Administrerende direktør Tim Tuttle forklarte at MindMeld har en tendens til å bruke talegjenkjenningen som allerede er tilgjengelig på de fleste enheter, og i stedet fokuserer på naturlig språkforståelse og å bygge en kunnskapsgraf av tilgjengelig informasjon. Han sa at firmaet prøver å skalere systemet slik at det inkluderer mer informasjon fra flere kilder, og for å bryte ned hierarkiene for forskjellige kategorier av informasjon som er en del av de fleste slike systemer. Å virkelig forstå spørsmål betyr å kunne forstå intensjon på tvers av en rekke kategorier, sa han.

En ting jeg hørte fra en rekke deltagere var statistikk som antydet at omtrent 10 prosent av alle websøk nå gjøres via etterretningsagenter. (AI-pioneren Andrew Ng sa at dette stemte for stemmesøk hos Baidu i fjor, og flere sa at dette nå var sant hos Google, men jeg har ikke hørt noen førstehåndsbekreftelse.)

Ser fremover, sa Opus Researchs Miller at det fortsatt var mye arbeid som skulle gjøres. Systemenes grunnleggende nøyaktighet har god plass til forbedring, spesielt når du går fra det du sier til det du mener hva du skal gjøre som et resultat. Han nevnte en tale fra Xerox PARC-administrerende direktør Stephen Hoover på konferansen, som sa at systemene i dag nå er opptil 90 prosent nøyaktige når de skal forstå hva vi mener, men at 10 prosent fremdeles er et problem fordi det er det folk flest husker når de arbeider med et system. Og Miller sa at det er rom for bedre personalisering, for hvis systemet vet hvem det snakker med, kan det gi bedre resultater. For eksempel bemerket han at Facebook vet hvem som bruker systemet fordi du er logget inn; og sa at sømløst å gjøre dette med flere agenter vil bli viktigere.

Det er absolutt en fascinerende kategori, og jeg regner med at vi alle vil bruke mye mer tid på å snakke med telefonene og datamaskinene våre, og samhandle med agenter som ikke er helt menneskelige. Jeg synes dette er en av de mest spennende trendene innen databehandling i disse dager.