Hjem Virksomhet Grunnleggende data: hvordan lage en plan for styring av data

Grunnleggende data: hvordan lage en plan for styring av data

Video: Universell grunnleggende inntekt (borgerlønn) forklart. Gratis penger til alle? (Oktober 2024)

Video: Universell grunnleggende inntekt (borgerlønn) forklart. Gratis penger til alle? (Oktober 2024)
Anonim

Vi har skrevet mye om dataanes rolle i moderne virksomheter. Fra oppstart og små til mellomstore bedrifter (SMB) til store bedrifter, datainnsikt og analyse er mer tilgjengelig for bedrifter i alle størrelser enn noen gang før. Dette er delvis takket være fremveksten av self-service business intelligence (BI) og datavisualiseringsverktøy.

Men før du kan bruke BI-verktøy eller kjøre prediktiv analyse på et datasett, er det en rekke faktorer å kvadratere unna. Det starter med ganske enkelt å forstå hva Big Data er, hva det ikke er (hint: ikke en krystallkule), og hvordan du kan administrere datalagring, organisering, tillatelser og sikkerhet innenfor bedriftens dataarkitektur. Det er her datastyring kommer inn. Prosessene der du sikrer styring i en virksomhet, varierer avhengig av hvem du snakker med. Men i kjernen handler datastyring om tillit og ansvarlighet for data, gift med omfattende datasikkerhetspraksis.

Jeg snakket med Hortonworks og MapR, to av de største Hadoop-leverandørene i markedet. Scott Gnau, teknologisjef i Hortonworks, og Jack Norris, seniordirektør for data og applikasjoner ved MapR, forklarte hver enkelt hva styring av data betyr for sine organisasjoner. De diskuterte hvordan de skal takle den komplekse utfordringen med å sikre datastyring i komplekse dataarkitekturer og organisasjonshierarkier i et stort foretak.

Hva nøyaktig er Datastyring og hvorfor trenger vi det?

Styring betyr å sørge for at bedriftsdata er autorisert, organisert og tillatt i en database med så få feil som mulig, samtidig som både personvern og sikkerhet opprettholdes. Det er ikke en lett balanse å slå, særlig ikke når realiteten til hvor og hvordan data blir lagret og behandlet stadig er i flyt. MapRs Norris forklarte hvorfor virksomheter trenger å se på styring av data fra et høyere nivå og fokusere på den større datapipeline.

"Når du begynner å skalere variasjonen og hastigheten til Big Data vi har å gjøre med, må du ha datastyring, men det er i denne bredere sammenhengen. Hva er dataene du har, hvem som har tilgang til den, og hvordan har du det administrere avstamningen til disse dataene over tid? " sa Norris. "Fra et datastyringssynspunkt kan du ha forskjellige stadier av dataene som finnes i et system som kan stillbilder, slik at du kan komme tilbake når som helst i rørledningen. Det handler om å bygge revisjonsbarhet og tilgangskontroll til dataplattformen for å lage at dataoppdagelse og analyse er gjennomsiktige, enten du er en virksomhetsleder som ser på økonomiske datasett eller en dataforsker som jobber med rå oppstrømsdata."

Kilde: Rimes. Klikk på bildet for full visning.

Hortonworks 'Gnau tastet inn på et lignende punkt. Enten du arbeider med et datavarehus eller en datasjøarkitektur, handler datastyring om å balansere motstridende krefter. Det handler om ufrie datatilgang for å drive innovasjon og utlede innsikt, og detaljerte tillatelser og personvern for å samtidig beskytte disse dataene fra ende til annen.

"Sammenlign og kontrast den gamle verdenen av tradisjonell styring på datarommet. Det var litt enklere, " sa Gnau. "Data pleide å være godt definert av jobbrolle eller applikasjon. I den nye verdenen får du mest mulig verdi når dataforskere har tilgang til så mye data som mulig, og å finne det lykkelige mediet er veldig viktig.

"Det driver et helt nytt paradigme i hvordan du trenger å nærme deg styresett, " la Gnau til. "I denne nye verden vurderer jeg styrings- og sikkerhetsemner som må dekkes sammen. Mange selskaper sliter fremdeles med å gå gjennom det for å gjøre det mulig for dataforskerne sine å være effektive i å finne de nye tilfellene om bruk mens de samtidig, forstå hvordan du håndterer sikkerhet, personvern, styring - alt det som er viktig fra et bunnlinjeperspektiv og også fra et selskapets omdømmeperspektiv."

Hvordan skal en virksomhetsstyringsplan omfatte og tilfredsstille alle de motstridende kreftene? Ved å takle hvert krav metodisk, ett trinn av gangen.

Slik bygger du en datastyringsplan

Hortonworks, MapR og Cloudera er de tre største uavhengige aktørene på Hadoop-plassen. Selskapene har sine egne innflytelsessfærer når det gjelder styring av data. MapR har gitt ut en rekke meldinger om emnet og bygget datastyring gjennom hele sin konvergerte dataplattform, mens Hortonworks har sin egen datasikkerhets- og styringsløsning og medstiftet Data Governance Initiative (DGI) i 2015. Dette førte til det åpne -kilde Apache Atlas-prosjekt som gir et åpent rammeverk for datastyring for Hadoop.

Men når det gjelder hvordan hver enkelt leverandør håndterer omfattende styring av data og sikkerhetsstrategier, snakket begge Gnau og Norris på samme måte. Følgende er de kombinerte trinnene som Hortonworks og MapR anbefaler bedrifter å huske på når de bygger en datastyringsplan.

The Big One: Granular Data Access and Authorization

Begge selskapene er enige om at du ikke kan ha effektiv styring av data uten granulære kontroller. MapR oppnår dette først og fremst gjennom Access Control Expressions (ACE). Som Norris forklarte, bruker ACEs gruppering og boolsk logikk for å kontrollere fleksibel datatilgang og autorisasjon, med rollebaserte tillatelser og synlighetsinnstillinger.

Han sa å tenke på det som en Gartner-modell. På Y-aksen i nedre ende er streng styring og lav smidighet, og på X-aksen i øverste ende er høyere smidighet og mindre styring.

"På det lave nivået beskytter du sensitive data ved å tilsløre dem. På toppen har du konfidensielle kontrakter for dataforskere og BI-analytikere, " sa Norris. "Vi har en tendens til å gjøre dette med maskeringsfunksjoner og forskjellige visninger der du låser inn rå data i bunnen så mye som mulig og gradvis gir mer tilgang til du i øvre ende gir administratorer større synlighet. Men hvordan gir du tilgang til de rette menneskene?

"Hvis du ser på en tilgangskontrolliste i dag, vil den si noe som" alle i ingeniørfag kan få tilgang til dette, "la Norris til. "Men hvis du vil at noen få utvalgte regissører på et prosjekt innen IT skal ha tilgang eller at alle unntatt personer, må du opprette en spesiell gruppe. Det er en altfor komplisert og innviklet måte å se på tilgang på."

Det er der innrømmelse av tilgangsrettigheter til forskjellige nivåer og grupper kommer inn, ifølge Norris. "Vi har kombinert ACEer med de forskjellige måtene du kan få tilgang til data - gjennom filer, tabeller, strømmer osv. - og implementerte visninger uten separate kopier av dataene. Så vi gir visninger på de samme rå dataene og visningene kan ha forskjellige tilgangsnivåer. Dette gir deg mer integrert sikkerhet som er mer direkte."

Hortonworks håndterer granulær tilgang på lignende måte. Ved å integrere Apache Atlas for styring og Apache Ranger, sa Gnau at selskapet håndterer autorisasjon på bedriftsnivå gjennom en enkelt rute med glass. Nøkkelen, sa han, er muligheten til kontekstuelt å gi tilgang til databasen og på spesifikke metadatatagger ved å bruke tagbaserte retningslinjer.

"Når noen er i databasen, handler det om å lede dem gjennom dataene de skal ha relevant tilgang til, " sa Gnau. "Rangers sikkerhetspolitikk på objektnivå, finkornet, og overalt i mellom takler det. Å knytte den sikkerheten til styring er der ting blir veldig interessant.

"For å skalere i store organisasjoner, må du integrere disse rollene med styring og metadatatagging, " la Gnau til. "Hvis jeg logger på fra Singapore, er det kanskje forskjellige regler basert på lokale personvernlover eller selskapsstrategi. Når et selskap først definerer, setter og forstår disse reglene fra et helhetlig perspektiv ovenfra og ned, kan du dele av tilgangen basert på spesifikke regelsett mens du kjører alt inne i kjerneplattformen."

Kilde: IBM Big Data & Analytics Hub. Klikk på bildet for full visning.

2. Omkretssikkerhet, databeskyttelse og integrert autentisering

Styring skjer ikke uten endepunktsikkerhet. Gnau sa at det er viktig å bygge en god omkrets og brannmur rundt dataene som integreres med eksisterende godkjenningssystemer og standarder. Norris var enig i at når det gjelder autentisering, er det viktig for bedrifter å synkronisere med velprøvde systemer.

"Under godkjenning handler det om hvordan du integrerer deg med LDAP, Active Directory og tredjeparts katalogtjenester, " sa Norris. "Vi støtter også Kerberos brukernavn og passord. Det viktige er ikke å lage en hel egen infrastruktur, men det er hvordan du integrerer med den eksisterende strukturen og utnyttelsessystemene som Kerberos."

3. Datakryptering og tokenisering

Neste trinn etter å ha sikret din omkrets og autentisert all den granulære datatilgangen du gir: Forsikre deg om at filer og personlig identifiserbar informasjon (PII) er kryptert og tokenisert fra ende til ende gjennom datapipeline. Gnau diskuterte hvordan Hortonworks sikrer PII-data.

"Når du kommer forbi omkretsen og har tilgang til systemet, er det ekstremt viktig å kunne beskytte PII-data, " sa Gnau. "Du må kryptere og markere disse dataene, så uansett hvem som har tilgang til dem, kan de kjøre analysene de trenger uten å avsløre noen av de PII-dataene langs linjen."

Når det gjelder hvordan du trygt får tilgang til krypterte data både i bevegelse og i ro, forklarte MapRs Norris at det er viktig å huske på bruk av tilfeller som sikkerhetskopi og katastrofegjenoppretting (DR) også. Han diskuterte et konsept av MapRs kalt logiske volumer, som kan anvende styringspolitikk på en voksende klynge av filer og kataloger.

"På det laveste nivået har MapR arkivert WAN-replikering for DR, og tidskonsistente stillbilder over alle dataene som kan settes opp på forskjellige frekvenser etter katalog eller volum, " sa Norris. "Det er bredere enn bare datastyring. Du kan ha en fysisk klynge med kataloger, og da er det logiske volumkonseptet en veldig interessant styringsenhet og måte å gruppere ting mens du kontrollerer for databeskyttelse og frekvens. Det er en annen pil i IT-administratorens data styringsråd."

4. Konstant revisjon og analyse

Når vi ser på det bredere styringsbildet, sa både Hortonworks og MapR at strategien ikke fungerer uten revisjon. Dette nivået av ansvarlighet og ansvarlighet i hvert trinn i prosessen er det som gjør at IT faktisk kan "styre" data i motsetning til bare å sette policyer og tilgangskontroller og håpe på det beste. Det er også hvordan bedrifter kan holde strategiene sine oppdatert i et miljø der hvordan vi ser data og teknologiene vi bruker for å administrere og analysere dem endres hver dag.

"Det siste stykket av en moderne styringsstrategi er logging og sporing, " sa Gnau. "Vi er i begynnelsen av Big Data og IoT, og det er avgjørende å kunne spore tilgang og gjenkjenne mønstre i dataene, slik at strategien må oppdateres, vi er foran kurven."

Norris sa at revisjon og analyse kan være så enkel som å spore JSON-filer (JavaScript Object Notation). Ikke hvert stykke data vil være verdt å spore og analysere, men virksomheten din vil aldri vite hvilke - før du identifiserer en innsats som endrer seg i spillet eller det oppstår en krise og du må kjøre en revisjonsspor.

"Hver JSON-loggfil er åpnet for analyse, og vi har Apache Drill for å spørre JSON-filer med skjemaene, så det er ikke et manuelt IT-trinn å sette opp metadata-analyse, " sa Norris. "Når du inkluderer alle datatilgangshendelser og alle administrative handlinger, er det et bredt spekter av analyser mulig."

5. En enhetlig dataarkitektur

Til syvende og sist skal teknologibetjenten eller IT-administratoren som fører tilsyn med en strategi for styring av datadata, tenke på detaljene rundt granulær tilgang, autentisering, sikkerhet, kryptering og revisjon. Men teknologibetjenten eller IT-administratoren skal ikke stoppe der; snarere bør den personen også tenke på hvordan hver av disse komponentene strømmer inn i sin større dataarkitektur. Han eller hun bør også tenke på hvordan den infrastrukturen må være skalerbar og sikker - fra innsamling og lagring av data helt til BI, analyse og tredjeparts tjenester. Gnau sa styring av data handler like mye om å tenke nytt om strategi og utførelse som det handler om teknologien.

" Det går utover en eneste rute med glass eller en samling sikkerhetsregler, " sa Gnau. "Det er en enkelt arkitektur der du oppretter disse rollene, og de synkroniserer over hele plattformen og alle verktøyene du bringer inn i det. Det fine med sikker styrt infrastruktur er smidigheten som nye metoder skapes. På hvert plattformnivå, eller til og med i et hybrid skymiljø, har du et enkelt referansepunkt for å forstå hvordan du har implementert reglene. Alle data går gjennom dette laget av sikkerhet og styring."

Grunnleggende data: hvordan lage en plan for styring av data