Hjem anmeldelser Hvordan bedrifter kan forstå det store datamarkedet

Hvordan bedrifter kan forstå det store datamarkedet

2024

Video: Is Big Data Killing Creativity? | Michael Smith | TEDxHarvardCollege (Oktober 2024)

Bedrifter får ikke poeng for hvor effektivt infrastrukturen deres løper eller hvor høy de kan stable alle Big Data de samler inn. Det som teller er kvaliteten på analysen og intelligensen som data produserer.

I løpet av de siste årene er Hadoop det ordet som har blitt mest synonymt med inntak, behandling og transformering av data. Dette open-source rammeverket for distribuert lagring og prosessering av data har gitt sin egen virksomhetsplass og integrert veien i alle de store skyplattformene. Hadoop er langt fra den eneste Big Data-teknologien som er verdt å snakke om, men det er blitt den som mange andre er bygd på.

Problemet for bedrifter er at Hadoop-plassen er full av distribusjoner og verktøyalternativer, og som Gartner forskningssjef Nick Heudecker forklarte, ser mange av dem like ut. Heudecker, hvis forskning dekker informasjonshåndtering inkludert Big Data og NoSQL-mellomrommene, sa at hvis du ser på de generelle databehandlingsalternativene, tilbyr mange leverandører veldig like funksjoner.

Å bryte ned markedet

Det er tre viktigste opprinnelige Hadoop-oppstarter - Cloudera, Hortonworks og MapR - og de har alle vokst jevnt og trutt i 2015. I følge Gartner har hver cirka 700 kunder, gir eller tar 10 prosent, og setter verdensmarkedet mellom 2.100-2.400 Hadoop-kunder over hele verden. Alle tre tilbyr både en gratis lagring og en bedriftsnivå for deres Hadoop-distribusjon, og hver gir betydelige åpen kildekode-bidrag til prosjekter under Apache Software Foundation (ASF) -banen.

"Dataene våre indikerer at 44 prosent av bruken av Hadoop foreløpig er ubetalt, " sa Heudecker. "Er det en klar leder? Jeg tror ikke det. De griper alle markedsandeler fordi det er en veldig ny plass."

I løpet av de siste månedene har mye av konkurransen mellom de tre kommet til konkurranse om dataanalysemuligheter og kreative måter å integrere Apache Spark, en åpen kildekode Big Data-prosessor med bruk av saker fra sanntids datastrømmer til maskinlæring. MapR kunngjorde nylig MapR Streams som en del av en "konvergert dataplattform" som integrerer Hadoop, gnistbasert strømbehandling og analyse. Hortonworks lanserte en oppdatering til Hortonworks Data Platform (HDP) med Spark-analyse i minnet, og Cloudera tilbyr en rekke åpen kildekode-integrasjoner gjennom One Platform Initiative, sammen med å tilby Spark-treningsklasser.

"Det skjer mye i informasjonshåndteringen og informasjonsinfrastrukturområdene, og det er ikke alt Hadoop, " forklarte Heudecker. "Det er et enormt momentum bak Sparks hastighets- og minnesentriske databehandlingsmodell, selv om Sparks utvikling fortsatt er i sine tidlige stadier. Spark vil være en annen lingua franca i databehandling, omtrent som SQL i dag, og viser definitivt tegn til at den har noen ben ettersom flere og flere selskaper investerer i det."

Heudecker fremhevet også viktigheten av skyspillerne i Big Data; tech-gigantene som har integrert Hadoop og andre Big Data-teknologier i deres eksisterende infrastruktur-som-en-tjeneste (IaaS) -tilbud.

Amazon Web Services (AWS) bruker sin Amazon Elastic MapReduce (EMR) -tjeneste for skybasert Hadoop-orkestrering. Microsoft tilbyr en hel rekke Big Data-tjenester innenfor sin Azure skyplattform, og samarbeider med Hortonworks om sin HDInsight-tjeneste for administrasjon av Apache Hadoop, Spark, HBase og Storm, sammen med sin SQL-baserte Azure Data Lake og Azure Data Analytics. IBM har både sitt lokale IBM Open Platform-tilbud for Hadoop og IBM BigInsights, en analysepakke som skal kjøres på toppen av det, sammen med administrerte Hadoop og Apache Spark-as-a-service i sin Bluemix-sky. Listen fortsetter, og bedrifter finner de mer aktuelle brukssakene i skyen.

"Vi anslår at AWS alene har rundt 5000 kunder, så det er over det dobbelte av kundegrunnlaget for pure-playene, " sa Heudecker. "En av fordelene med å flytte inn i skyen er at du får et økosystem. Du kan få pure-play Hadoop-distribusjoner på noe av IaaS-tilbudene. MapR er tilgjengelig i alle skyene du kan tenke på, annet enn IBMs; samme for Cloudera og Hortonworks. Vi har ikke sett at tilgjengeligheten av skyer blir for mye av en faktor når vi velger mellom en leverandør og en annen."

Velge en Enterprise Data Strategi

For både små til mellomstore bedrifter (SMB) og voksende bedriftsbedrifter, når de investerer i databehandlings- og analyseløsninger, sa Heudecker den avgjørende faktoren er hvilken plattform som kan tilby det høyeste servicenivået. Ifølge Gartner er den største utfordringen kompetansegapet - å finne ut hvem som skal administrere plattformen når den først er installert og distribuert.

"Hvis selskaper leter etter en dataplattformpartner, hvem skal hjelpe dem med inntak av data? Hvem kommer til å hjelpe dem med å bygge den analytiske applikasjonen? Så langt som de tre pure-spill Hadoop-ers, evalueringskriteriene pleier å være rundt løpetid for styringsverktøyene og konsollene, verktøyene for styring av data og ytelsen."

Det andre interessante aspektet ved å velge en Hadoop-plattform er mangel på lojalitet. Bedrifter evaluerer Hadoop-plattformen sin så ofte som hver 6.-12. Måned for å se om databehandlingskomponentene fremdeles er riktig passform, på grunn av hvor raskt plassen endrer seg og hvor lite de store aktørene har differensiert seg. Heudecker sa at 20 prosent av selskapene han har snakket med har flere Hadoop-distribusjoner som kjører i datasentrene eller skyen, enten å la forskjellige team velge sin plattform eller velge å diversifisere med vilje for å unngå å sitte fast med bare en Hadoop-distribusjon.

Denne typen diversifiserte plattformsporteføljer strømmer inn i det Frank Buytendijk, en Gartner Research Vice President og Distinguished Analyst med fokus på digital strategi, kaller "informasjon som et aktivum." Som at du ikke kan drive en virksomhet uten kapital, arbeidskraft, materiell og verken fysiske eller virtuelle fasiliteter, sa Buytendijk at du ikke kan drive en virksomhet uten informasjon.

"Vi pleide å se på virksomhet med tanke på de tre strømningene: den primære flyten var varer, den sekundære strømmen var penger og tertiær flyt var informasjon for å sikre at varene og pengene ble justert. Nå i de fleste virksomheter er det omvendt.. Den primære flyten er informasjon, fra identifikasjon og konfigurasjon til innholdsmarkedsføring, etc. Enten du kaller Big Data eller ikke, betyr det ikke noe."

"Big Data" er utdatert

Buytendjik sa at han ikke ser Big Data som en egen teknologi for bedrifter, men som ett tema eller tankesett innenfor din overordnede digitale strategi.

"Jeg tror ikke på å ha en Big Data-strategi, " sa Buytendjik. "Det er knapt en forretningsstrategi lenger uten digitale komponenter, så jeg tror på å ha en digital strategi der alle slags teknologier leverer kritiske evner. Dette inkluderer mobile, sosiale, sky, IoT, smarte maskiner og Big Data."

Heudecker mener vi vil begynne å snakke om "Big Data" mindre og mindre, for nå er det bare data. Det er slik virksomheten gjøres. Massive volumer og høy hastighet på data er ikke lenger like avskrekkende.

"Big Data blir undertrykt igjen av informasjon og analyse, " sa Heudecker. "Big Data-kategorien skiller ikke ærlig ut. Vi blir alltid spurt om størrelsen på Big Data-markedet, men hva betyr det selv? Big Data er egentlig ikke et marked, det er et konsept. For en bedrift som tenker på Big Data som noe unikt og spesielt som er radikalt annerledes enn det du har gjort før, er en feil. På dette tidspunktet er data bare normale."