Hjem Virksomhet 7 tips for suksess for maskinlæring

7 tips for suksess for maskinlæring

Innholdsfortegnelse:

Video: Phone Interview in English [7 Tips for Success] (Oktober 2024)

Video: Phone Interview in English [7 Tips for Success] (Oktober 2024)
Anonim

Den første delen av vår Business Guide to Machine Learning (ML) brøt sammen hvordan paraplykonseptet til ML er langt mer nyansert i et forretningsmiljø. De mest effektive strategiene ser på ML i praktisk forstand, og benytter både kompleks dyp læring og mindre intensive "billig læring" teknikker for å optimalisere bedriftsprosesser og få konkret forretningsinnsikt (BI) -innsikt.

Målet med å distribuere ML i forretningsapplikasjonene dine er å forbedre bunnlinjen eller presse bedriftens konkurransefortrinn. Men i det større opplegget for organisasjonen din, utnytter tiden og ressursene du investerer i denne prosessen langt utover algoritmene. IT-beslutningstakerne i virksomheten din må sørge for at alt som er involvert i ML-implementeringen - fra data og logistikk til hvordan du jobber med brukere - fungerer sammen for å maksimere effektiviteten.

Ted Dunning, Ph.D., er Chief Application Architect hos MapR, et bedriftsprogramvareselskap som tilbyr forskjellige Big Data-distribusjoner og datahåndteringsverktøy. Dunning har også medforfatter av to bøker om det han omtaler som "Praktisk maskinlæring" og utviklet ML-teknologier for en rekke selskaper gjennom tidene, inkludert ID Analytics-svindeloppdagelsessystemet (kjøpt av LifeLock) og Musicmatch Jukebox-programvaren, som senere ble Yahoo Music. Han tjenestegjør i dag som visepresident for inkubasjon for Apache Software Foundation.

Dunning har sett ML-plassen utvikle seg gjennom flere tiår, og lært mye om hva som fungerer og hva som ikke fungerer i et praktisk forretningsmiljø. Nedenfor legger Dunning ut syv beste fremgangsmåter som skal følges når de utvikler forretningsløsninger forankret i ML.

1. Ikke glem logistikk

Vellykket ML handler ikke bare om å velge riktig verktøy eller algoritme. Dunning sa at du også må finne ut hvilken tilnærming som passer godt og utforme den for den aktuelle situasjonen du adresserer. For eksempel snakket Dunning om ML i en online markedsføringskampanje i motsetning til langt mer kompliserte scenarier som algoritmer som styrer en autonom bil. Å bruke ressursene dine for en gradvis forbedring av algoritmer er verdt bryet for bilen, men i markedsføringsscenariet vil du se en langt bedre avkastning fra å optimalisere all logistikken rundt den.

"Ofte, for bedrifter er det logistikken, ikke læringen, som gir deg verdien. Det er den delen du bør bruke tiden og ressursene dine på, " sa Dunning. "Å justere algoritmen vil gi deg en liten forbedring. Men å justere data, GUI og hvordan du lytter til og samarbeide med brukerne dine kan lett gi deg en forbedring på 100 prosent. Å bruke tid på å finpusse algoritmen er verdt en brøkdel som mye for bedrifter som lytter til brukerne dine."

For å illustrere dette poenget, forklarte Dunning hvordan han en gang bygde en modell for å identifisere applikasjonssvindel (å åpne falske kontoer med stjålne identiteter) i et selskaps kundedatabase. Modellen han bygde fikk gode resultater, men Dunning la merke til at den vektet kjønnet til søkeren veldig tungt.

Det viste seg at logistikken var av. Måten søknadsprosessen fungerte, fylte søkeren bare ut kjønn etter at de allerede hadde blitt kunde og hadde bestått en rekke screeningstrinn for å filtrere ut svindlere. Så ved å bruke kjønnsfeltet, lurte ML-modellen logistikken for hele svindelprosessen. Det har ingenting å gjøre med algoritmen, og alt å gjøre med hvordan selskapet fikk dataene sine i utgangspunktet.

2. Husk dataene dine

Dunning er full av fengende smått av visdom. Etter å ha startet med "det er logistikken, ikke læringen, " sa han den andre halvparten av den ideen er "det er dataene, ikke algoritmene." En stor del av å sikre at ML-algoritmene gir verdifull innsikt, er å sørge for at du mater de riktige dataene. Dunning sa, hvis du ikke får resultatet du ser etter, så er det oftere fordi du ikke bruker riktig data.

"Folk blir alle avviklet og ego-bundet til bestemte algoritmer, men nå til dags, på grunn av verktøyene der ute, kan og alle deres mor og alle mulige nye algoritmer, " sa Dunning. "Dataene er langt viktigere, og vil gi deg langt mer løft enn uendelig å finjustere algoritmene dine. Hvis du jobber med et hardt problem som talegjenkjenning eller datasyn, er det en ting. Men dette er et datadrevet felt. I de fleste scenarier vil du ha mye mer nytte av å justere hvilke data du får og endre spørsmålet."

Det var det Dunning gjorde på midten av 2000-tallet da han bygde en videoanbefalingsmotor hos et selskap som het Veoh Networks. Teamet arbeidet med å identifisere par brukergenererte videoer som folk klikket på mer enn forventet, men algoritmen fungerte ikke. De tenkte når det gjaldt musikk, der brukerne kjenner deres favorittartister og sanger med navn. Så de endret spørsmålet ved å finpusse brukergrensesnittet uten å berøre selve algoritmen.

"I brukergenererte videoer var det ingen som kjenner artistene, og mange videoer hadde virkelig spammy titler for å få flere visninger. Å sykle på algoritmeavstemninger ville aldri gitt oss gode resultater, " sa Dunning. "Det vi gjorde, ble endret brukergrensesnittet til å avgi et fyrsignal hvert 10. sekund. Vi fant ut at hvis vi brukte fyret i stedet for klikk for rå data fra anbefaleren, fikk vi fantastiske resultater. Heisen for denne endringen var flere hundre prosent forbedring i engasjement på grunn av anbefalinger, uten algoritmiske endringer."

3. Algoritmer er ikke magiske kuler

ML-implementeringer trives med kontinuerlig prøving og feiling. Uansett hvor gode algoritmene dine er, hvis systemet ditt samhandler med mennesker, så må det justeres over tid. Dunning understreket at virksomheter hele tiden skulle måle den generelle effektiviteten av implementeringen og identifisere endringene og variablene som gjør det bedre og gjør det verre. Dette kan høres ut som en platitude, men Dunning sa, til tross for hvor åpenbart det høres ut, er det veldig få som gjør dette eller gjør det bra.

"Mange mennesker ønsker å distribuere et system eller iverksette tiltak, og de vil at algoritmen deres skal fungere perfekt for alltid, " sa Dunning. "Ingen algoritme kommer til å bli en magisk kule. Ingen design av brukergrensesnittet vil feste seg for alltid. Ingen datainnsamlingsmetode vil aldri bli erstattet. Alt dette kan og vil skje, og virksomheter må måle, evaluere og revurdere hvordan deres systemet fungerer."

4. Bruk et mangfoldig verktøysett

Det er dusinvis av ML-verktøy tilgjengelig, hvorav mange du kan bruke gratis. Du har populære åpen kildekode-biblioteker som Caffe, H20, Shogun, TensorFlow og Torch, og ML-biblioteker i en rekke Apache Software Foundation (ASF) -prosjekter, inkludert Mahout, Singa og Spark. Så er det abonnementsbaserte alternativer, inkludert Amazon Machine Learning, BigML og Microsoft Azure Machine Learning Studio. Microsoft har også et gratis kognitivt verktøysett.

Det er utallige ressurser tilgjengelig. Dunning har snakket med mange bedrifter, dataforskere og ML-utøvere, og spør dem alltid hvor mange forskjellige rammer og verktøy de bruker. I gjennomsnitt sa Dunning at de fleste sa at de bruker minimum 5-7 verktøy og ofte langt mer.

"Du kan ikke bli limt på ett verktøy. Du må bruke flere, og som sådan bør du bygge systemet ditt på en måte som det er agnostisk, " sa Dunning. "Den som prøver å overbevise deg om at dette verktøyet er det eneste du noen gang trenger, selger en vareseddel.

"Noe kan skje i løpet av neste uke som opprører eplevogna, og med den innovasjonshastigheten vi ser, vil det fortsatt skje i ytterligere fem til ti år, " fortsatte Dunning. "Se på et billig læringseksempel der du kanskje bruker en eksisterende bildeklassifiserer på nytt for å analysere bilder i en katalog. Det er dyp læring med datasyn kastet i. Men det er verktøy der ute som har pakket det hele opp. Du trenger å måle, evaluere og oppveie mellom forskjellige verktøy, og infrastrukturen din må være velkommen til det."

5. Eksperimenter med hybrid læring

Dunning sa at du også kan blande billig og dyp læring sammen til noe av en hybrid. Hvis du for eksempel tar en eksisterende datamaskinvisjonsmodell og konstruerer de øverste lagene der en beslutning blir tatt, kan du velge en eksisterende ramme for en helt ny brukssak. Dunning pekte på en Kaggle-konkurranse der deltakerne gjorde nettopp det; de tok et datasett og skrev en ny algoritme på toppen for å hjelpe en datamaskin med å skille katter fra hunder.

"Å skille ut katter og hunder er en veldig subtil ting for en ML-algoritme. Tenk på logikken: Katter har spisse ører, men det gjør også tyske hyrder. Hunder har ikke flekker, bortsett fra dalmatiere, etc. Det kan være ganske vanskelig å gjenkjenne i og for seg selv, "sa Dunning. "Fyren som vant utviklet et system som gjorde dette med 99 prosent nøyaktighet. Men jeg ble mer imponert av personen som kom på tredje plass. I stedet for å bygge fra bunnen av, tok han et eksisterende bildegjenkjenningsprogram fra en annen oppgave, tok av toppsjiktet, og la en enkel klassifisering der inne. Han ga det noen eksempler, og snart var det 98 prosent nøyaktig når det gjaldt å skille katter fra hunder. Hele prosessen tok fyren tre timer."

6. Billig betyr ikke dårlig

Til tross for den åpenlyse konnotasjonen, sa Dunning at billig læring ikke betyr dårlig læring. Mengden tid du bruker på en ML-implementering, korrelerer ikke direkte med forretningsverdien. Den viktigere kvaliteten, sa han, er å sørge for at prosessen er repeterbar og pålitelig. Hvis virksomheten er i stand til å oppnå det uten å investere en unødig mengde ressurser, er det desto bedre.

"Billig betyr ikke dårlig. Hvis det fungerer, fungerer det. Hvis det er billig, og det fungerer, er det storslått. Men innsatsen du legger ned for å bygge det, definerer ikke verdien. Det er en sum-pris feil, " sa Dunning. "Det som definerer verdien er hvordan det forbedrer virksomheten. Hvis de forbedrer fortjenesten eller reduserer kostnadene eller forbedrer konkurransesituasjonen. Det er effekten, ikke innsatsen."

7. Ikke kall det AI

Dunning understreket at når de snakker om disse teknikkene, bør virksomheter bruke den presise terminologien: ML, datamaskinvisjon eller dyp læring. Alt dette har en tendens til å falle under paraplybegrepet "kunstig intelligens", men for Dunning er definisjonen av AI ganske enkelt "ting som ikke fungerer ennå."

"Den beste definisjonen jeg noen gang har hørt for AI, er at det er tingene vi ikke kan forklare ennå. De tingene vi ikke har funnet ut av, " sa Dunning. "Hver gang vi får noe til å jobbe, sier folk 'Å, det er ikke AI, det er bare programvare. Det er bare en reglermotor. Det er egentlig bare logistikkrepresjon.' Før vi finner ut noe, kaller vi det AI. I etterkant kaller vi det alltid for noe annet. På mange måter er AI bedre brukt som et ord for neste grense, og i AI vil det alltid være en neste grense. hvor vi skal, ikke dit vi allerede har nådd."

7 tips for suksess for maskinlæring