Hjem Virksomhet Datasjøer, forklart

Datasjøer, forklart

2024

Big Data-revolusjonen har omdefinert måten virksomheter jobber på; data underbygger alt. Ikke bare har åpen kildekodeverktøy som Apache Hadoop og Spark gjort enorme mengder data lettere å samle inn, behandle og lagre i sanntid, men forretningsintelligens (BI) og datavisualiseringsverktøy har begynt å hjelpe oss med å skrape overflaten av analysen og transformere disse dataene for å informere om kjernevirksomhetsvedtak.

Selv om vi til tross for hvor mye Big Data- og BI-teknologi har utviklet seg, har vi fremdeles å gjøre med så enorme mengder med kontinuerlig sammensetting av data at det å finne de riktige punktene for å analysere fremdeles føles som å dykke etter nåler i en aldri så liten høstak. Løsningen? Gjør rede på høystakken.

Gå inn i innsjøer, en ny type skybasert bedriftsarkitektur som strukturerer data på en mer skalerbar måte som gjør det lettere å eksperimentere med; gjør det mer åpent for utforskning og manipulasjon i stedet for å være innelåst i stive skjemaer og siloer. Nasry Angel, en Enterprise Architecture Researcher ved Forrester Research, forklarte hvorfor bedrifter omfavner arkitektur fra data lake.

"Det høres klisjé ut, men når du tenker på et effektivt moderne datamiljø, er det mye mer eksperimentelt, " sa Angel. "Du må kunne lære raskt og mislykkes raskt. I det siste handlet data, spesielt på et lager, om kvalitet, helt ned til desimalet; sørg for at alt var helt nøyaktig og sant. Det kalles å jage en enkelt sannhetens versjon. Så generer du en pixel-perfekt rapport og sprengte den til 5000 brukere.

"Nå for tiden er det en mer vitenskapelig prosess. Du går inn med en hypotese om dataene du vil teste, og du vil kunne leke med dataene, mikse og matche, prøve ut forskjellige ting før du går og produserer noe."

Hva er i en datasjø?

En datasjø er et lagringssted. Skjønt, i motsetning til et datavarehus eller "datamart, " forklarte Angel at datasjøer er fordelt over flere noder i stedet for i det faste, strukturerte miljøet i et datavarehus som er avhengig av skjemaer (se infographic nedenfor).

"En datasjø lar deg bruke et skjema når du skriver data kontra et datavarehus som krever at du gjør et skjema når du leser det. Så, egentlig krever et datavarehus å modellere dataene før du forstår konteksten, som ikke det er virkelig ikke fornuftig, "sa Angel.

Kilde: JustOne Database, Inc. (Klikk på grafikken over for å se full oversikt.)

"I et lager har du IT-fagfolk vanligvis det de mener er de beste datamodellene, og de er ikke en eventuell bruker av dataene. Du kan raskt se hvordan det hindrer produktivitet og forretningsverdi, " la han til. "Til syvende og sist må du og forretningsbrukerne være de som tar beslutninger om datastrukturen, og i en datasjø kan du først utforske og finne ut hva som er der, og deretter finne ut et skjema for å organisere det best."

Datasjøer er vanligvis bygget på Hadoop, og enterprise Hadoop-distribusjoner som Hortonworks og MapR tilbyr data innsjøarkitekturer. Bedrifter kan også bygge datasjøer ved å bruke Infrastructure-as-a-Service (IaaS) skyer inkludert Amazon Web Services (AWS) og Microsoft Azure. Amazons Elastic Compute Cloud (EC2) støtter datasjøer mens Microsoft har en dedikert Azure Data Lake-plattform for å lagre og analysere sanntidsdata. Angel sa at innsjøene modnes til det punktet innenfor Big Data-rommet hvor bedrifter kan begynne å investere i dem med rimelig selvtillit.

"For noen år tilbake var Hadoop veldig rasende. Nå kommer vi til et punkt hvor Hadoop er kommodisert, " sa Angel. "Spørsmålet er ikke om Hadoop, men når, og hva du skal gjøre med det. Hvilke typer applikasjoner skal du bygge oppå Hadoop når du har fått dataene til et vanlig sted som en datasjø? På dette tidspunktet handler det om å bruke dataene til å utvikle applikasjoner som dekker dine spesifikke forretningsbehov."

Bygge på toppen av et datareservoar

Den mest spennende delen om Big Data er muligheten for at den låser opp. Når du har satt opp en datasjø hvor du kan spille og eksperimentere med forskjellige datakombinasjoner og forretningsresultater, kan du begynne å legge nyskapende analyseteknikker på toppen.

Maskinlæringsalgoritmer er allerede i ferd med å bli en del av stoffet i skyinfrastruktur, og forskere forbedrer kontinuerlig dyp læringsteknikker og nevrale nettverk for å trene maskiner og datasystemer for å gjenkjenne komplekse mønstre. Prediktiv analyse blir også bakt inn i flere og flere dataverktøy og bedriftsplattformer, og brukes til alt fra prediktiv poengsum og automatisert segmentering for styring av kundeforhold (CRM) til å identifisere trender i finansmarkedene og forebygge mekaniske feil i maskiner.

Alt dette skjer på toppen av hvilken datalager virksomheten din mater og skalerer i henhold til dens behov. Angel snakket om noen av de virkelige brukssakene der han har sett datahavene endre måten organisasjoner fungerer på.

"Jeg jobbet med et forlag som har en portefølje av forskjellige magasiner - de har en publikasjon for advokater, en annen for regnskapsførere, en annen for konsulenter, etc. - og hver publikasjon hadde sitt eget datavarehus. Effektivt hadde hver publikasjon sitt eget silo, "forklarte Angel.

"Så vi hentet ut alle dataene fra et lager og la dem inn i en datasjø, og datasjøen lot dem se på tvers av siloer. De var i stand til å utforske dataene og gjøre dataoppdagelse, og innså at i alle disse forskjellige publikasjonene, kunder fra hvert blad var interessert i cybersecurity. Leserskare for cybersecurity var sterkt på tvers av alle disse forskjellige rollene. Så hva gjorde de? De gjorde cybersecurity til temaet for den årlige konferansen."

Et annet eksempel Angel snakket om er e-handel. En annen kunde, en online kunstforhandler, dumpet massevis av informasjon i en datasjø og brukte den ikke bare som et arkiv, men som et lerret av slags for å sette sammen forretningsinnsikt. Forhandleren hadde med seg transaksjonsdata (bestillinger, fakturaer, betalinger osv.), Clickstream-data (hvert nettsteds besøkende besøk av rekkefølgen av klikk og sider), og data fra detaljistens datavarehus alle inn i sjøen, og brukte det i konsert for å bekjempe handlekurv forlatelse og konverteringer.

"Du vil bygge oppå en datasjø og bruke den til å formulere kompleks forretningsinnsikt, " sa Angel. "Kunstforhandleren var i stand til å se på kundens clickstream-data og matche klikk med kundeprofiler, deretter bruke transaksjonsdata for å se hva kunden kjøpte i fortiden og bruke disse innsiktene til å kjøre veldig spesifikke e-postkampanjer. Så hvis en kunde forlot i handlekurven sin, kunne forhandleren følge opp to timer senere og si: 'Vi så at du sjekket ut denne Picasso; her er lenken hvis du vil se på den igjen.'"

Datasjøer er universelt anvendelige i alle slags saker om forretningsbruk. Men for en Chief Technical Officer (CTO) eller Chief Information Security Officer (CISO) som vurderer å migrere til arkitekturen, understreket Angel at datavarehus ennå ikke er foreldet, ikke på noen måte. For de fleste bedriftsorganisasjoner, enten du bruker en skyleverandør eller en tilpasset Hadoop-distribusjon, trenger virksomheter fortsatt begge deler.

Datasjøer gir deg tilgang til enestående innsikt ved å fjerne grensene for å overholde data til et bestemt skjema, og har en mye lavere totalkostnad gitt bruk av billig, fleksibel skylagring som AWS for å skalere opp og ned - mens bare betale for prosessorkraften du faktisk bruker. Å drive et datavarehus er dyrere og gjør følgelig IT-fagfolk mer selektive når det gjelder data som kommer inn og ut. Men for en virksomhets mest misjonskritiske data, er det ikke en dårlig ting.

"Datavarehuset har fordeler når det gjelder sikkerhet og er et veldig enkelt verktøy for å kontrollere datastyring, " sa Angel. "Så du vil fremdeles oppbevare den mest sensitive informasjonen din på lageret, de oppgavekritiske tingene. Men når det kommer til nye forretningsmuligheter og oppdage skjult innsikt, vil du utnytte en datasjø."