Hjem Virksomhet Ai-databaser: hva de er og hvorfor bedriften din skal bry seg

Ai-databaser: hva de er og hvorfor bedriften din skal bry seg

2024

Innholdsfortegnelse:

Hva er AI-databaser?
Slik fungerer en AI-database
Hype eller virkelighet?

Video: Ulike måter å bruke film på - webinar med Oda Bøthun (Oktober 2024)

Data og forretningsinformasjon (BI) er to sider av den samme mynten. Fremskritt innen lagring, prosessering og analyse har demokratisert data til et punkt der du ikke trenger å være databaseprofesjonell eller dataforsker for å jobbe med enorme datasett og utlede innsikt. Det er fremdeles en læringskurve, men verktøy for selvbetjening, BI og datavisualisering, omdefinerer hvordan bedrifter utnytter alle dataene de samler inn til brukbar analyse. Imidlertid er det en forskjell mellom et BI- eller databaseselskap som hekker avansert analyse og en kunstig intelligens (AI) -database som er spesialbygget for opplæring av maskinlæring (ML) og modeller for dyp læring.

ML-algoritmer blir vevd inn i stoffet til mye av dagens programvare. Forbrukeropplevelser smelter med AI gjennom virtuelle assistenter, og innen forretningsprogramvare er det eksempler som Salesforce Einstein som fungerer som et intelligent lag under selskapets hele CRM-portefølje. Teknologigiganter, inkludert Google og Microsoft, presser vår intelligente fremtid enda lenger, ikke bare med forskning, men ved å omskrive hvordan teknologien deres fungerer fra grunnen av med AI.

En av utfordringene med treningsmaskiner og modeller for dyp læring er det rene datavolumet og prosessorkraften du trenger for å trene et nevralt nettverk, for eksempel på kompleks mønstergjenkjenning i felt som bildeklassifisering eller naturlig språkbehandling (NLP). Derfor begynner AI-databaser å dukke opp i markedet som en måte å optimalisere AIs lærings- og opplæringsprosess for bedrifter. Vi snakket med GPU-akselerert relasjonsdatabaseleverandør Kinetica, som har bygget en egen AI-database, og PCMags bosatte BI- og databaseekspert Pam Baker for å avmystifisere hva en AI-database er og hvordan den fungerer sammenlignet med tradisjonelle databaser. Enda viktigere, vi ba om deres hjelp til å sortere gjennom hypen og markedsføringsprat for å avgjøre om denne nye teknologien har reell forretningsverdi eller ikke.

Hva er AI-databaser?

AI-romets raskt skiftende natur kan gjøre det vanskelig å etablere terminologi. Du hører ofte begreper som ML, dyp læring og AI brukt om hverandre, når de faktisk utvikler teknikker under den større paraplyen til AI. Som sådan sa Baker at det er to vidt forskjellige definisjoner av hva en AI-database er avhengig av hvem du snakker med: den ene praktiske og den andre mer kake-i-himmelen.

"Det er en slags løs konsensus i bransjen om at en AI-database vil være en som vil fungere fullstendig av naturlige spørsmål. Brukergrensesnittet vil være slik at du ikke trenger å stole på søkeord og nøkkelord for å finne informasjon du trenger, slik at brukeren kan innkalle datasett med NLP, "sa Baker. "Du kan komme med et veldig begrenset argument om at IBM Watson kan stille spørsmål om naturlige språk til systemet, men du må være koblet til dataene allerede og velge dataene selv. Så akkurat nå er denne definisjonen en strekning."

Den mer praktiske definisjonen, og emnet for denne forklareren, er egentlig å bruke en spesialbygget database for å fremskynde opplæring i ML-modeller. Flere teknologiselskaper utvikler allerede dedikerte AI-brikker for å lindre den tunge prosessbelastningen i nye maskinvareprodukter når leverandører utruller flere AI-baserte funksjoner som krever betydelig beregningskraft. På datasiden kan bruk av en AI-database hjelpe deg med å krangle volum, hastighet og komplekse utfordringer med styring og styring av data knyttet til trening av ML og dype læringsmodeller for å spare tid og optimalisere ressursene.

Bildekreditt: Todd Jaquith på Futurism.com. Klikk for å utvide hele infografien

"Akkurat nå er det mye arbeid for å få fart på ML-trening gjennom flere forskjellige taktikker, " forklarte Baker. "Det ene er å skille infrastrukturen fra AI-forskerne som gjør kodingen, slik at automatiserte funksjoner håndterer infrastrukturen og trener ML-modellen. Så i stedet for å bruke noe som tre måneder, kan det hende du ser på 30 dager eller 30 minutter."

Kinetica deler den ideen ned til en integrert databaseplattform som er optimalisert for ML og dyp læringsmodellering. AI-databasen kombinerer datalagring, avansert analyse og visualiseringer i en database i minnet. Mate Radalj, visepresident og rektor for programvareingeniør for Kineticas avanserte teknologigruppe, forklarte at en AI-database skal kunne innta, utforske, analysere og visualisere raskt bevegelige, komplekse data i løpet av millisekunder. Målet er å senke kostnadene, generere nye inntekter og integrere ML-modeller slik at virksomheter kan ta mer effektive, datadrevne beslutninger.

"En AI-database er en delmengde av en generell database, " sa Radalj. "Akkurat nå er AI-databaser veldig populære. Men mange løsninger bruker distribuerte komponenter. Gnist, MapReduce og HDFS snurrer alltid frem og tilbake i stedet for i minnet. De har ikke sammenløpet av faktorer som databasen vår, som ble bygd fra grunnen av med tett integrerte CPUer og GPUer på en enkelt plattform. Fordelen på høyt nivå for oss er raskere levering og et lavere maskinvarefotavtrykk av modellbasert opplæring, med en rask snuoperasjon og analyse integrert i samme plattform."

Slik fungerer en AI-database

Det er en rekke eksempler på AI-databaser i praksis. Microsoft Batch AI tilbyr skybasert infrastruktur for opplæring av dyp læring og ML-modeller som kjører på Microsoft Azure GPUer. Selskapet har også sitt Azure Data Lake-produkt for å gjøre det lettere for bedrifter og dataforskere å behandle og analysere data på tvers av en distribuert arkitektur.

Et annet eksempel er Googles AutoML-tilnærming, som grunnleggende omarbeider måten ML-modeller blir opplært. Google AutoML automatiserer ML-modelldesign for å generere nye nevrale nettverksarkitekturer basert på bestemte datasett, og deretter teste og itere på disse tusenvis av ganger for å kode bedre systemer. Faktisk kan Googles AI nå lage bedre modeller enn menneskelige forskere.

"Se på Google AutoML: ML som skriver ML-kode, slik at du ikke engang trenger folk, " sa Baker. "Dette gir deg en ide om hvilken ekstrem forskjell det er i hva leverandører gjør. Noen prøver å gi avansert analyse som ML - og det er det ikke. Og andre gjør ML på et så avansert nivå som er utenfor det som mest bedrifter kan forstå for øyeblikket."

Så er det Kinetica. Den San Francisco-baserte oppstarten, som har samlet inn 63 millioner dollar i risikokapitalfinansiering (VC), gir en høy ytelse SQL-database optimalisert for rask inntak av data og analyse. Kinetica er det Radalj beskrev som en massivt parallell prosessering (MPP) distribuert database og databehandlingsplattform der hver node har samlokalisert data i minnet, CPU og GPU.

Det som gjør en AI-database forskjellig fra en tradisjonell database, forklarte Radalj, kommer til tre kjerneelementer:

Akselerert inntak av data,
Samlokalisering av data i minnet (parallell behandling på tvers av databasenoder), og
En vanlig plattform for dataforskere, programvareingeniører og databaseadministratorer for å iterere og teste modeller raskere og anvende resultater direkte på analyser.

For alle ikke-database- og AI-modellopplæringseksperter som leste dette, brøt Radalj hvert av disse tre kjerneelementene ned og forklarte hvordan AI-databasen knytter seg til konkret forretningsverdi. Datatilgjengelighet og inntak av data er sentralt, sa han, fordi muligheten til å behandle streaming-data i sanntid lar bedrifter ta hurtig handling på AI-drevet innsikt.

"Vi har en privatkunde ønsket å spore salgspriser per butikk hvert femte minutt, " sa Radalj. "Vi ønsket å bruke AI til å forutse, basert på de siste timene med historiske data, om de skulle fylle på inventar og optimalisere prosessen. Men for å gjøre det maskindrevet inventarpåfylling krever det å støtte 600-1200 spørsmål per sekund. Vi er en SQL-database og en AI-database, slik at vi kan innta data med den hastigheten. Oss som møtte det forretningsoppgaven resulterte i en applikasjon som drev mer avkastning."

Baker var enig i at ML krever en enorm mengde data, så inntak av det raskt ville være veldig viktig for en AI-database. Den andre faktoren, begrepet "samlokalisering av data i minnet", tar litt mer forklaring. En database i minnet lagrer data i hovedminnet i stedet for i separat lagringsplass. Det gjør det for å behandle spørsmål raskere, spesielt i analyser og BI-databaser. Ved samlokalisering forklarte Radalj at Kinetica ikke skiller CPU- og GPU-beregningsnoder kontra lagringsnoder.

Som et resultat støtter AI-databasen parallell prosessering - som etterligner menneskets hjerne evne til å behandle flere stimuli - samtidig som den forblir distribuert over en skalerbar databaseinfrastruktur. Dette forhindrer større maskinvarefotavtrykk, som et resultat av det Radalj kalte "dataforsendelse" eller behovet for å sende data frem og tilbake mellom forskjellige databasekomponenter.

"Noen løsninger bruker en orkestrator som IBM Symphony for å planlegge arbeid på tvers av ulike komponenter, mens Kinetica understreker fraktfunksjon mot samlokaliserte ressurser, med avansert optimalisering for å minimere dataforsendelse, " sa Radalj. "Den samlokaliseringen gir seg til overlegen ytelse og gjennomstrømning, spesielt for svært samtidig tung spørring på store datasett."

Når det gjelder den faktiske database-maskinvaren, er Kinetica samarbeidet med Nvidia, som har en utvidet serie av AI GPU-er og utforsker muligheter med Intel. Radalj sa også at selskapet holder et øye med nye AI-maskinvare og skybasert infrastruktur som Googles Tensor Processing Units (TPUs).

Endelig er ideen om en enhetlig modellopplæringsprosess. En AI-database er bare effektiv hvis fordelene ved raskere svelging og prosessering tjener større, forretningsorienterte mål for et virksomhets ML og dype læringsinnsats. Radalj refererer til Kineticas AI-database som en "model pipeline platform" som utfører datavitenskapelig drevet modellhotell.

Alt dette gir seg til raskere testing og iterasjon for å utvikle mer nøyaktige ML-modeller. På dette punktet sa Baker at samarbeid på en enhetlig måte kan hjelpe alle ingeniører og forskere som jobber med å trene en ML eller dyp læringsmodell, iterere raskere ved å kombinere det som fungerer, i motsetning til kontinuerlig å oppfinne alle trinnene i treningsprosessen. Radalj sa at målet er å lage en arbeidsflyt der raskere inntak, strømming og spørring av batch genererer modellresultater som umiddelbart kan brukes på BI.

"Datavitere, programvareingeniører og databaseadministratorer har en enkelt plattform hvor arbeidet kan avgrenses rent på selve datamaterialet, skriving av programvare og SQL-datamodeller og spørsmål, " sa Radalj. "Folk jobber mer rent sammen i de forskjellige domenene når det er en vanlig plattform. Målet oftere enn ikke med å drive ML og dyp læring er at du vil bruke resultatene av det - sameffektiviteten og variablene - sammen med analyser, og bruk output for ting som å score eller for å forutsi noe nyttig."

Hype eller virkelighet?

Verdien av en AI-database, i det minste slik Kinetica definerer den, er å optimalisere beregnings- og databaseressurser. Dette lar deg igjen lage bedre ML- og dype læringsmodeller, trene dem raskere og mer effektivt og opprettholde en gjennomgangslinje for hvordan AI vil bli anvendt på virksomheten din.

Radalj ga eksemplet med en flåteledelse eller lastebilbedrift. I dette tilfellet kan en AI-database behandle massive strømmer av sanntidsinformasjon fra en bilpark. Ved å modellere de geospatiale dataene og kombinere dem med analyser, kunne databasen dynamisk omdirigere lastebiler og optimalisere ruter.

"Det er lettere å raskt tilby, prototype og teste. Ordet 'modellering' kastes rundt i AI, men det handler om å sykle gjennom forskjellige tilnærminger - jo mer data, desto bedre - å kjøre dem igjen og igjen, teste, sammenligne og kommer med de beste modellene, "sa Radalj. "Nevrale nettverk har fått liv fordi det er mer data enn noen gang før. Og vi lærer å kunne beregne gjennom det."

Til syvende og sist er Kineticas samlokaliserte database og modellrørledningsplattform bare en tilnærming i et rom som kan bety mye forskjellig, avhengig av hvem du spør. Baker sa at utfordringen for kjøperen i et marked som fremdeles utvikler seg og er eksperimentelt, er å finne ut nøyaktig hva en AI-databaseleverandør lager.

"Som et forretningskonsept er dyp læring, ML, og alt dette et solid konsept. Det vi jobber ut er tekniske problemer som kan løses, selv om vi ikke har løst dem ennå, " sa Baker. "Det er ikke til å si at dette er et modent rom, fordi det absolutt ikke er det. Jeg vil si 'kjøper pass deg' fordi noe slås som ML kan være eller ikke. Det kan bare være avansert analyse i hagen."

Baker sa at det er litt av begge deler om AI-databaser er alle hype akkurat nå eller om de representerer en viktig trend for hvor virksomheten skal. Hun sa at Big Data, som et markedsføringsbegrep, er utenfor gunstig nå. Baker sa at det nå er noe markedskonflikt mellom avansert, datadrevet analyse og ekte ML og dyp læringsalgoritmer. Uansett, om du snakker om en database for ML-modellering eller de selvbevisste AI-ene som drømmes opp av popkultur, begynner det og slutter med data.

"Data vil bli brukt i virksomheten til tiden er slutt; det er bare så sentralt for å drive forretning, " sa Baker. "Når du snakker i form av science fiction, er AI en selvrealisert intelligens. Det er når du begynner å snakke om singulariteter og roboter som overtar verden. Enten det skjer eller ikke, vet jeg ikke. Jeg vil forlate det til Stephen Hawking."