Hjem Egenskaper Disse talsmennene vil sørge for at dataene våre ikke forsvinner

Disse talsmennene vil sørge for at dataene våre ikke forsvinner

Innholdsfortegnelse:

Video: How GIW Industries uses Dropbox Business | Dropbox Customer Stories | Dropbox (Oktober 2024)

Video: How GIW Industries uses Dropbox Business | Dropbox Customer Stories | Dropbox (Oktober 2024)
Anonim

I slutten av mai i år, nøyaktig fem måneder fra innvielsen av USAs 45. president, markerte en gruppe mennesker opptatt av den nye administrasjonens holdning til vitenskap og klimaendringer sitt eget spesielle jubileum.

Ikke langt fra campus ved University of North Texas, på slettene nord for Dallas, møtte flere dusin individer på Data Rescue Denton for å identifisere og laste ned kopier av føderale klima- og miljødatasett. Disse samlingene i hackathon-stil fikk stor oppmerksomhet i dagene rett før innvielsen; Denton var det 50. arrangementet siden januar.

Organiserende opprinnelig av bekymring for at den nye administrasjonen kan slette eller skjule klima- og andre miljødata, syntes data redningsmanners verste frykt å gå i oppfyllelse når en av Trump Det hvite hus første handlinger var å slette sider med klimaendringer fra nettstedet. Da har det amerikanske jordbruksdepartementet, etter å ha fjernet inspeksjonsrapporter fra dyrevelferd fra nettstedet, svart på en anmodning fra National Geographic Freedom of Information Act med 1 771 sider med fullstendig redigert materiale.

Hvem som helst kan få tilgang til de mer enn 153 000 føderale datasettene gjennom den sentrale regjeringen åpen dataportal på data.gov. Men det er bare en brøkdel av dataene som finnes i tåken til regjeringsbyråkratiet, ikke husk den enda mindre brøkdelen som er på en server.

"Et sted rundt 20 prosent av regjeringens info er tilgjengelig på nettet, " sa Jim Jacobs, den føderale regjeringsinformasjonsbibliotekaren ved Stanford University Library. "Det er en ganske stor del av ting som ikke er tilgjengelig. Selv om byråer har egne wikier og innholdsstyringssystemer, er den eneste gangen du finner ut om noe av det hvis noen FOIAs det."

For å være sikker, ble mye informasjon faktisk fanget opp og ligger nå på ikke-offentlige servere. Mellom Data Refuge-begivenheter og prosjekter som 2016 End-of-Term Crawl, ble over 200 TB regjeringsnettsteder og data arkivert. Men redningsarrangører begynte å innse at stykkevise anstrengelser for å lage fullstendige kopier av terabyte med vitenskapelige data fra myndighetsorganene ikke realistisk kunne opprettholdes på lang sikt - det ville være som å redde Titanic med en fingerbøl.

Så selv om Data Rescue Denton endte med å bli en av de endelige organiserte begivenhetene i sitt slag, har den kollektive innsatsen ansporet et bredere samfunn til å jobbe sammen for å gjøre mer regjeringsdata synlige, forståelige og brukbare, skrev Jacobs i et blogginnlegg.

Ser til biblioteker

Ved University of Pennsylvania er Bethany Wiggin direktør for Penn-programmet i miljøhistoriske fag, der hun har vært sentral i Data Refuge-bevegelsen, opphavsmannen til Data Rescue-hendelsene. Fokuset har nå forskjøvet seg, sa hun, mot å utnytte nasjonale rammer for langsiktig innsats i stedet for lokalt baserte, periodiske episoder.

"Vi innså ferdighetene som dukket opp på forskjellige steder som gjorde redningsdata-hendelser noe som kunne skaleres, " sa Wiggin, spesielt på tvers av forskningsbiblioteker. "Men denne innsatsen skjedde alle før vi startet. Data Refuge har vært å tykkere disse forbindelsene; katalysere langvarige, sakte-bevegelige prosjekter; og belyse hvor viktige de er."

Wiggin har i det siste hjulpet med å spydspiss Libraries + Network, et voksende partnerskap mellom forskningsbiblioteker, bibliotekorganisasjoner og åpne datagrupper katalysert for å utvide bibliotekenes tradisjonelle rolle i å bevare tilgangen til informasjon. Deltakerne inkluderer forskningsbiblioteket Stanford University, California Digital Library og Mozilla Foundation, med innspill og samarbeid fra enheter som er like brede som National Archive og de viktigste datatjenestemennene i flere føderale byråer.

Et prosjekt, for eksempel, er LOCKSS ("mange eksemplarer holder ting trygt") som Jacobs har koordinert i flere år. Det er basert på samme prinsipp som et 200 år gammelt nettverk av biblioteker kjent som Federal Depository Library Program; disse bibliotekene er offisielle arkiver for publikasjoner fra US Government Printing Office (GPO).

LOCKSS er derimot en privat digital versjon av dette systemet, som foreløpig består av 36 biblioteker som høster publikasjoner fra GPO med sitt samarbeid. Det er en modell for hvordan digital informasjon kan beskyttes mot sletting eller manipulering ved å ha bred fysisk spredning.

"Du kan ikke sikre bevaring med mindre du har kontroll over innholdet, " sa Jacobs. "En del av det som gjorde depotbibliotekene viktige og nyttige i løpet av de siste 200 årene, var at ingen i regjeringen kunne redigere et dokument uten å faktisk gå til 1500 biblioteker og si 'Ja, endre denne ene siden her.'"

Programvaren LOCKSS bruker sjekker hurtigbuffer av innhold på bitnivå og sammenligner det med innholdet som er inneholdt av andre biblioteker, som Jacobs sa hjelper med å sikre langsiktig bevaring gjennom reparasjon av nedbrutte filer.

John Chodacki, en annen samarbeidspartner med Libraries + Network, er kurasjonsdirektør for California Digital Library, et virtuelt informasjonsanlegg som betjener alle 10 campusene i University of California-systemet. Arbeidet med Code for Science and Society-utvikler Max Ogden og Philip Ashlock, sjefsarkitekt på data.gov, sier Chodacki at deres fokus har vært på å bruke data.gov som en toveis gate.

De demonstrerte først at selve redningen av data kunne være langt mer effektiv ved å samle inn en kopi av selve data.gov og plassere den på et utenfor nettstedet, datamirror.org, med overvåkingsskript som ser etter oppdateringer. Da begynte Chodacki og samarbeidspartnere også å se på om bidraget med datasett og metadata til speilet kunne mate inn i byråers eksisterende data.gov-arbeidsflyt gjennom stubbsider i speilet.

I henhold til Obama-utøvende ordre fra 2013 som ga mandat om publisering av maskinlesbare data på data.gov, vil byråer fortsatt være ansvarlig for generering av postene som er oppført på den portalen; Chodacki og Ogdens ide er at masseforsyning foreslåtte datasett ganske enkelt bidrar til å spre arbeidsmengden.

"Vi trenger ikke å gjenskape hele økosystemet, " sa Chodacki. "Den føderale regjeringen og disse byråene har jobbet med data lenger enn det har vært travelt å snakke om big data, på en mye mer robust måte enn noen andre."

Offentlig-private partnerskap

Spørsmålet om kostnader er åpenbart når det gjelder hvordan byråer kan identifisere hvilke datasett som er mest verdifulle for allmennheten, og deretter publisere lenker til metadataene eller faktiske datasett gjennom regjeringsportalen. En rapport fra Kongressens budsjettkontor (CBO) for regningen om ÅPEN regjeringsdatalag som for øyeblikket er i senatet - som ville kodifisere Obamas utøvende ordre i lov - anslår at full implementering vil koste $ 2 millioner mellom 2018 og 2021.

Når det gjelder myndigheters pengemessige forhold, representerer det i hovedsak ingen reelle forbruksøkninger, konkluderte CBO.

Effektivitet er imidlertid et annet spørsmål, som Ed Kearns ved National Oceanic and Atmospheric Administration eksperimenterer med sammen med private partnere inkludert Amazon Web Services og Google. Kearns, NOAAs sjefdateansvarlige, sa at økt offentlig tilgjengelighet og bruk av NOAA-data er et hovedmål for Big Data-prosjektet.

Selskaper identifiserer hvilke datasett de ønsker, og NOAA gir det uten ekstra kostnad for allmennheten. Alt NOAA har er på bordet, sa Kearns, men målet med det fem år lange partnerskapet er ikke å få alle NOAA-data ut på skyen - bare strategiske biter.

Å være vert for slike datasett på private selskapers skytjenester gir flere fordeler til 80-talls-FTP-tilgangen som fremdeles er standard for overføring av store datasett fra føderale byråer. Til å begynne med har NOAAs datasett en tendens til å være enorme - byrået overvåker jordas hav, atmosfære, sol og værvær - og krever noen ganger uker eller måneder for offentlig levering.

Et eksempel er byråets høyoppløselige NEXRAD Level-II Doppler radararkiv. Ifølge en studie publisert i mai av American Meteorological Society, ville det ta 540 dager til en kostnad på $ 203, 310 til å overføre hele NEXRAD-arkivet til 270 terabyte til en enkelt kunde. En full kopi av arkivet hadde aldri vært tilgjengelig for ekstern analyse før NOAA jobbet med Amazon og Google for å sette en på skyen.

Eksperimentet har også hatt noen interessante tidlige resultater med økning i bruken. NOAAs websider for vær og prognoser mottar allerede noe av det høyeste nivået av trafikk blant myndighetsnettsteder, men etter at Google nylig har integrert ett klima- og værdatasett, omtrent en spillejobb i størrelse, i sin BigQuery-database, rapporterte selskapet at de leverte 1, 2 petabyte av dette datasettet fra 1. januar til og med 30. april - langt mer enn noen gang hadde blitt oppnådd i en lignende tidsramme fra NOAA-servere.

"Google var i stand til å åpne det for et helt nytt publikum, " sa Kearns.

Det er ikke bare regn og sesongmessige temperaturer. Datasett som nå er tilgjengelige gjennom Big Data-partnerne inkluderer fiskeinformasjon, havvær og en katalog som er vert av IBM som viser gjeldende, prognoser, historiske og geospatiale datasett fra NOAA-sentre. Fremtidige datasett kan til og med inkludere informasjon om økosystemer og fiskeri genomikk.

Men ved design lar partnerskapet kolleger velge det de vil ha mest, noe som bærer risikoen for at uklar, men potensielt datasett med høy verdi, ikke vil se mye dagslys. Kearns sier det er for tidlig å si hva som etter hvert kan bli identifisert som verdifullt.

"Omfanget og rekkevidden til hva som kan gjøre med disse dataene er svimlende for oss, " la han til. "Vi kan ikke forestille oss alle mulige bruksområder."

I mindre målestokk har City of Philadelphia også jobbet med en privat enhet for å publisere datasett som publikum har sagt at de vil finne mest nyttig. Selv om en bystørrelse gir den mer daglige driftsmanøvrerbarheter enn en føderal enhet, representerer Phillys modell en tilnærming for å strategisere utgivelser av ennå upubliserte datasett.

Azavea, et Philly-basert programvarefirma som spesialiserer seg på datavisualisering, samarbeidet med byens viktigste informasjonsansvarlige, Tim Wisniewski, for å utvikle en liste med upubliserte datasett som ideelle organisasjoner i byen kan ha en interesse i å bruke. Wisniewski og Azavea brukte både byens online metadatakatalog og innspill fra byavdelinger for å utvikle listen. Azavea og andre partnere handlet deretter listen ut til ideelle organisasjoner i Philadelphia og lanserte OpenDataVote, en konkurranse for publikum om å stemme på prosjekter som de nonprofits har fremmet for hvordan de ville bruke sine foretrukne datasett.

En nylig vinner var et forslag fremsatt av utdanning nonprofit MicroSociety om å bruke bydata om givere til Philadelphia School District for å måle virkningen av ideelle organisasjoner i skolene.

"Vi kan si at denne byen nonprofit er interessert i et bestemt datasett fordi de kan gjøre noe med det, og at dette mange stemte for å støtte dem, " sa Wisniewski. "Det lar oss gå til avdelingene med en solid brukssak i hånden i stedet for å si, hei, slipp disse dataene bare fordi."

Gamle data og det nye

Men hva skjer selv når det er rikelig med tilgang til data som allerede er der ute, når nye retningslinjer og finansieringsdirektiver betyr at selve dataene bare ikke blir generert mer? Det er en virkelig bekymring, sa Ann Dunkin, som fungerte som informasjonssjef i miljøvernbyrået under president Obama og nå leder IT for Californias Santa Clara County.

"Folk er bekymret for de gamle dataene, men det som bekymrer meg mest er at nye data ikke blir gjort tilgjengelig i samme takt som før, eller ikke generert i det hele tatt, " sa Dunkin.

I en analyse av det foreslåtte føderale budsjettet for 2018 av magasinet Science, ville mange offentlige etater realisere betydelige reduksjoner i forskningsbudsjettene hvis budsjettet blir vedtatt som foreslått. Et kutt på omtrent 22 prosent ved National Institutes of Health ville skje i utbetalinger til forskningsuniversiteter; NASA-budsjettforespørselen ville eliminere initiativer for å overvåke klimagassutslipp og andre jordvitenskapelige programmer. Klimaprogrammer ved NOAA kan også bli skodd med lignende nivåer av kutt.

I løpet av hennes ansettelsesperiode hadde EPA jobbet for å lage sin innsamling av data til et verktøy som alle kan bruke for å forstå helsen til omgivelsene, og hvordan de skulle reagere på det. Dårlig luftdag? Ikke gå utenfor. Vil du strømme ned forurenset? Hold barna borte.

"Min forventning er at det vil bevege seg bakover, " la Dunkin til. "Jeg kan ta feil, men hvis du sier at vi ikke kommer til å gjøre data tilgjengelig, er den logiske konklusjonen datasett som kan hjelpe offentlige medlemmer heller ikke å være tilgjengelige eller ikke genereres i utgangspunktet."

Data Refuge's Wiggin jobber med et historiefortidsprosjekt relatert til dette problemet som hun håper vil katalysere flere til å kreve løpende utgivelser av data, og skape et grunnlag for støtte for å fortsette eksisterende datainnsamlingsprogrammer i hele den føderale regjeringen. "Three Stories in Our Town" -fortellinger vil skildre de ofte skjulte virkningene føderale data har på uventede steder, først fra Philadelphia, deretter andre steder i hele landet.

"En viktig del av Data Refuge-bevegelsen, når vi går til neste fase, er å hjelpe folk til å forstå hvor mye brukt føderalt produsert data som er i deres liv, " sa Wiggin. "Enten du kaller det klima eller helse eller offentlig sikkerhet, det er fremdeles føderale data. Det er i lokalsamfunn, i rådhus, i politiarbeid, i militæret. Vi må fortsette å huske hvor viktig disse dataene er."

ressurser:

  • EPA Environmental Dataset Gateway: Environmental Protection Agency's metadata portal.
  • Open Data @ DOE: Department of Energy's open data portal.
  • Dataportal for USDA Economic Research Service
  • NOAA Big Data Resources: Koblinger til Big Data-partneres plattformsider som er vert for data generert av NOAA.
  • University of North Texas: Cyber ​​Cemetery: Et arkiv med nedlagte, utdaterte eller skodde regjeringsnettsteder.
  • Prosjektside for arkivprosjekt for miljødata og styringsinitiativ: Verktøy, kode og apper relatert til å oppdage og arkivere regjeringsdata.
  • Internet Archive Wayback Machine
  • Internet Archive: Hvordan lagre sider i Wayback-maskinen: Seks måter å nominere sider for arkivering.
  • California Digital Library: End of Term Web Archive: En samling av amerikanske myndigheters nettsteder lagret fra slutten av terminalen, fra 2008 til i dag.
  • FreeGovInfo.info: Bredt innhold med informasjon om dataportaler på statlig og føderalt nivå, og arkiver med nyheter om åpne dataspørsmål.
  • Klimatspeil: En samling av klimadatabaser fra frivillige.

Denne historien dukket først opp i PC Magazine Digital Edition. Abonner i dag for mer originale spillehistorier, nyheter, anmeldelser og hvordan du kan!

Disse talsmennene vil sørge for at dataene våre ikke forsvinner