Hjem Fremover tenking Big data: en utfordrende 'billion billion dollar'

Big data: en utfordrende 'billion billion dollar'

Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Oktober 2024)

Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Oktober 2024)
Anonim

En ting som imponerte meg på gårsdagens Bloomberg Enterprise Technology Summit var fokuset på å håndtere data på nye måter - med andre ord å håndtere det som ofte kalles "big data."

Noen av samtalene omhandlet verdien av big data, og om det virkelig var en "billion billion dollar", mens andre tok for seg de spesifikke utfordringene individuelle organisasjoner og industrien som helhet står overfor i mer utbredelse av disse nye teknikkene.

Gerard Francis, global sjef for Bloomberg Enterprise Solutions, Bloomberg LP startet dagen med å antyde at det viktigste selskapene kan gjøre er å "utnytte verdien av data ved å bruke dem, " og fokusere på tilgang, kvalitet og flyt av data i en organisasjon. I påfølgende paneler var det mye snakk om nye verktøy som omhandler data, samt spesifikke problemer med å lagre, administrere og finne personene som skal håndtere dataene.

I et generelt panel om foretakstrender sa Dwight Merriman, styreleder og medstifter av MongoDB, at datasjiktet i applikasjonssporet har "den største forstyrrelsen og endringen vi har sett på 25 år." Han sa at selskaper har brukt relasjonsdatabaser i 25 år eller mer, noe som gjør den til den eldste teknologien i stabelen. Men nå skjer det ting med filbasert lagring som Hadoop og nye databaseteknologier, ofte gruppert som "NoSQL." Han gjorde poenget med at Big Data ikke handler om "big", men snarere om dataformen, datatypene og farten mot å håndtere sanntidsdata.

Googles informasjonssjef Benjamin Fried var enig i at de fleste bedrifter ikke har "big data" -problemer. Mange av datasettene - med ting som HR-data og økonomiske data - er ikke så store, sa han. Det som er viktig er fleksibiliteten du trenger for å håndtere dataene ordentlig.

Hva er Big Data uansett?

MarkLogics Gary Bloom, Neustars Mark Bregman, Streambase's Mark Palmer og Vipul Nagrath of Bloomberg

Dette konseptet - at fleksibilitet er like viktig som størrelsen på dataene - ble gjentatt i et annet panel senere på dagen. Der var deltakerne enige om at selskaper har jobbet med datatunge applikasjoner i lang tid, men omfanget har endret seg den siste tiden. For eksempel bemerket Mark F. Bregman, seniordirektør og teknologisjef i Neustar at noen selskaper nå "lagrer alt" i håp om at det vil vise seg verdifullt.

"Big er bedre definert som kompleksitet, " ifølge Gary Bloom, administrerende direktør og president i MarkLogic. Han bemerket at mange såkalte "big data" -applikasjoner innebærer mange forskjellige typer data, men ikke den typen volum du normalt hører om i "big data" -applikasjoner.

Han siterte et eksempel på flytrafikk som kombinerer værdata, flyplassdata, geospatiale data, flydata, flyreservasjonsdata og sosiale data. Han bemerket at det var veldig vanskelig å håndtere heterogene data med tradisjonelle relasjonsdatabaser, og gjengjorde tidligere kommentarer fra MongoDBs Merriman om at dette var det "første generasjonsskiftet i databasen på 25 år" siden vi flyttet fra mainframe til tiden med relasjonsdatabaser.

Han bemerket at mange snakker om sosiale mediedata, men det må virkelig kombineres med andre data for å virkelig ha noe du kan utnytte. Å kombinere disse dataene er "den virkelige verdien."

Noen applikasjoner innebærer selvfølgelig mye informasjon, og Bregman sier at heterogenitet bare er én faktor. Han siterte DNS-data, som lett kan generere 8 TB informasjon om dagen, og behovet for å lagre slike ting i Hadoop. Bregman og de andre bemerket at når det gjelder "datakapitalisering", er ikke den virkelige verdien i rå data, men er i stedet i analysen når det blir noe du kan bruke. De andre i panelet var enige.

Streambase-konsernsjef Mark Palmer sa at det var viktig å kombinere store datamengder med streaminganalyse i mange applikasjoner; og snakket om den ekstra verdien som kunne skapes ved å kombinere tradisjonell og sanntidsanalyse.

Men han var enig i at kompleksiteten av data er et problem. Han siterte hvordan Vivek Ranadivé, som driver Tibco (som nå eier Streambase), delvis kjøpte et basketball-lag for å finne ut hvordan teknologi kan forbedre opplevelsen til fansen. Han snakket igjen om å "mase opp forskjellige typer data", fra en Twitter-stream, men også om å utnytte andre typer data.

Bloom bemerket at det hele avhenger av applikasjonen, og sier at "latenstid er i øynene til betrakteren." Noen applikasjoner må analysere dataene på ledningen før de til og med treffer databasen, mens andre ikke gjør det.

Bregman tok opp saken om at i stedet for at det er vanskelig å flytte beregningsressurser, nå blir det mye vanskeligere å flytte dataene. Han bemerket at for mange applikasjoner er "lock-in" plasseringen av dataene. Når du lagrer dataene dine i en offentlig sky, er det veldig vanskelig å flytte dem. Som et resultat, sa han, er det mange organisasjoner som ønsker å lagre enorme datamengder på sine egne lokasjoner, for deretter å kunne flytte til forskjellige leverandører for beregningsfunksjonalitet. Lån av et begrep fra MarkLogics Bloom, snakket han om hvordan organisasjoner kan trenge et "datasentrert datasenter" som et sted hvor du oppbevarer enorme datamengder.

Er Big Data en 'billion billion dollar?'

Porter Bibb fra MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogics Gaurav Dhillon og Bloomberg Links Jason Kelly

Et annet panel diskuterte mulighetene og utfordringene med store data, og reflekterte over en kommentar fra Porter Bibb, Managing Partner hos MediaTech Capital Partners. Bibb sa at det faktisk er mer enn en billion dollar fordeler for selskaper som bruker de nye teknikkene. Til dags dato, sa han, har vi "ikke en gang begynt å utnytte potensialet denne teknologien gir."

Bibb snakket om hvordan det var viktig for organisasjoner å samkjøre datastrategien deres med forretningsstrategi, og var bekymret for at de fleste bedrifts- og regjeringssystemer er feiljustert.

I den første økten sa Scott Weiss fra Andreessen Horowitz at "Hadoop er som kryogen lagring, " så moderator Jason Kelly fra Bloomberg Link spurte Cloudera Chief Architect Doug Cutting, som var en av skaperne av Hadoop i utgangspunktet, hvordan han så på at.

Skjæring sa at Hadoop lar folk jobbe med mer data. Han sa at organisasjoner henter data fra båndet, i stedet gjør det online og brukbart. Kundene flytter fra å jobbe med 90 dager med data til fem eller 10 år med data i et "aktivt arkiv."

En rekke av de spesifikke problemene med å håndtere alle disse dataene kom opp igjen i dette panelet. Snaplogic-administrerende direktør Gaurav Dhillon snakket om "data gravity", og sa at det ikke er fornuftig å ta data som er lokale i Hadoop og flytte det til skyen. Men på samme tid, hvis det er data i skyen, for eksempel klikkstrømanalyse, er det ingen mening å flytte den lokale. Som et resultat, sa han, så han veldig få "muligheter over landegrensene" med å flytte dataene.

Cutting sa at han ikke trodde det virkelig var mangel på dataforskere. I stedet sa han at det er mange mennesker som forstår matte og bedrift, men at de bare ikke har verktøyene. Du kan lære det grunnleggende om verktøyene og hva de gjør i løpet av et par uker, sa han, men å forstå bedriften din tar år. Likevel er det mange mennesker som forstår det.

Dhillon reflekterte også bekymring for lovgivning som omhandler hvilken informasjon som kan lagres der. Han sa at noen vertikale markeder krever at informasjon lagres på stedet, men var bekymret for ting som krav for ikke å flytte data ut av sitt opprinnelsesland. Mye av dette er en overreaksjon på ting som Snowden-avsløringer og datainnbrudd, sa han, og bemerker at "en hastverk med å lovfeste er aldri bra."

På spørsmål om han var bekymret for at bruddene på Snowden og Target gjorde kundene redde for data, sa Cutting at han var bekymret for at så mange mennesker er bekymret. Mange mennesker er redde for teknologi, sa han, og det var en svikt i bransjen å gjøre kundene komfortable i forestillingen om at dataene deres ikke ble brukt. "Du trenger ikke å være skummel, " sa han.

På slutten var det mye diskusjon om verdivurderinger, med Bibb som antydet at den nylige Intel-investeringen i Cloudera var en "stor avtale", ettersom den validerer hva selskapet gjør. Han sa at andre store selskaper som Oracle, IBM, Microsoft og Amazon svevde rundt prediktive analyseselskaper. "Gullrushet er bare begynt."

Dhillon sa at verdivurderingene gjenspeiler hva rørleggerbedriftene bringer til big data-markedet. Han sa at han var glad for å se slike "pick and shovel" -gutta få gode verdivurderinger, men sa at han hadde litt frykt for at verdivurderingene kommer foran markedet.

Bibb sa at han trodde at store data kan bli overeksponert i medier, men de er undereksponert i "c-suite" (som betyr administrerende direktører, finansdirektører og andre toppledere.) Han sa at den har et "enormt økonomisk potensial som ennå ikke er oppdaget."

Big data: en utfordrende 'billion billion dollar'