Zuhause Eigenschaften Diese Befürworter möchten sicherstellen, dass unsere Daten nicht verschwinden

Diese Befürworter möchten sicherstellen, dass unsere Daten nicht verschwinden

2024

Inhaltsverzeichnis:

Mit Blick auf Bibliotheken
Öffentlich Private Partnerschaft
Alte und neue Daten
Ressourcen:

Video: Hilfe! - MEINE DATEN sind WEG! -- WAS TUN? (November 2024)

Ende Mai dieses Jahres, genau fünf Monate nach der Amtseinführung des 45. Präsidenten der Vereinigten Staaten, feierte eine Gruppe von Menschen, die sich mit der Haltung der neuen Regierung gegenüber Wissenschaft und Klimawandel befassten, ihr besonderes Jubiläum.

Unweit des Campus der University of North Texas, in der Ebene nördlich von Dallas, trafen sich mehrere Dutzend Personen bei Data Rescue Denton, um Kopien von Klima- und Umweltdatensätzen des Bundes zu identifizieren und herunterzuladen. Diese Treffen im Hackathon-Stil fanden in den Tagen unmittelbar vor der Amtseinführung große Beachtung. Denton war das 50. derartige Ereignis seit Januar.

Die schlimmsten Befürchtungen der Datenretter, die anfänglich aus der Sorge heraus organisiert wurden, dass die neue Regierung Klima- und andere Umweltdaten löschen oder verdecken könnte, schienen sich zu erfüllen, als eine der ersten Maßnahmen des Trump White House darin bestand, Seiten zum Klimawandel von seiner Website zu löschen. Dann antwortete das US-Landwirtschaftsministerium nach dem Entfernen von Berichten über Tierschutzinspektionen von seiner Website auf eine Anfrage des National Geographic Freedom of Information Act mit 1.771 Seiten vollständig redigiertem Material.

Jeder kann über das Open-Data-Portal der Zentralregierung unter data.gov auf die mehr als 153.000 Bundesdatensätze zugreifen. Aber das ist nur ein Bruchteil der Daten, die im Nebel der Regierungsbürokratie existieren, ganz zu schweigen von dem noch kleineren Bruchteil, der sich auf einem Server befindet.

"Etwa 20 Prozent der Regierungsinformationen sind über das Internet zugänglich", sagte Jim Jacobs, Informationsbibliothekar der Bundesregierung an der Stanford University Library. "Das ist ein ziemlich großer Teil der Dinge, die nicht verfügbar sind. Obwohl die Agenturen ihre eigenen Wikis und Content-Management-Systeme haben, ist das einzige Mal, wenn Sie davon erfahren, ob jemand FOIAs hat."

Gewiss, viele Informationen wurden tatsächlich erfasst und befinden sich jetzt auf nichtstaatlichen Servern. Zwischen Data Refuge-Ereignissen und -Projekten wie dem End-of-Term-Crawl 2016 wurden über 200 TB Regierungswebsites und -daten archiviert. Die Rettungsorganisatoren begannen jedoch zu begreifen, dass die schrittweisen Bemühungen, vollständige Kopien von Terabytes der wissenschaftlichen Daten der Regierungsbehörden anzufertigen, auf lange Sicht nicht realistisch sein konnten - es wäre, als würde man die Titanic mit einem Fingerhut retten.

Obwohl Data Rescue Denton eine der am Ende organisierten Veranstaltungen dieser Art war, haben die gemeinsamen Bemühungen eine breitere Community dazu veranlasst, gemeinsam darauf hinzuarbeiten, dass mehr Regierungsdaten auffindbar, verständlich und verwendbar sind, schrieb Jacobs in einem Blogbeitrag.

Mit Blick auf Bibliotheken

Bethany Wiggin ist die Direktorin des Penn-Programms für Umweltwissenschaften an der Universität von Pennsylvania, wo sie für die Data Refuge-Bewegung, die Urheberin der Data Rescue-Veranstaltungen, von zentraler Bedeutung war. Der Fokus habe sich jetzt darauf verlagert, die nationalen Rahmenbedingungen für langfristige Bemühungen zu nutzen, anstatt auf lokaler Ebene periodische Episoden.

"Wir haben festgestellt, dass die Fähigkeiten, die sich an verschiedenen Orten bei Rettungsdatenereignissen abzeichneten, skalierbar sind", sagte Wiggin, insbesondere in Forschungsbibliotheken. "Aber diese Bemühungen haben alle stattgefunden, bevor wir gestartet sind. Die Stärke von Data Refuge bestand darin, diese Verbindungen zu vertiefen, langjährige, langsame Projekte zu katalysieren und zu beleuchten, wie wichtig sie sind."

Wiggin war in letzter Zeit an der Spitze von Libraries + Network beteiligt, einer aufstrebenden Partnerschaft von Forschungsbibliotheken, Bibliotheksorganisationen und Open-Data-Gruppen, die dazu beigetragen hat, die traditionelle Rolle der Bibliotheken bei der Wahrung des Zugangs zu Informationen auszubauen. Zu den Teilnehmern zählen die Forschungsbibliothek der Stanford University, die California Digital Library und die Mozilla Foundation, die Beiträge und die Zusammenarbeit von Einrichtungen wie dem National Archives und den Chief Data Officers mehrerer Bundesämter leisten.

Ein Projekt ist beispielsweise LOCKSS ("Viele Kopien bewahren die Sicherheit"), das Jacobs seit mehreren Jahren koordiniert. Es basiert auf demselben Prinzip wie ein 200 Jahre altes Bibliotheksnetz, das als Federal Depository Library Program bekannt ist. Diese Bibliotheken sind offizielle Aufbewahrungsorte für Veröffentlichungen des US Government Printing Office (GPO).

LOCKSS hingegen ist eine private digitale Version dieses Systems, das bislang aus 36 Bibliotheken besteht, die in Zusammenarbeit Publikationen aus dem Gruppenrichtlinienobjekt entnehmen. Es ist ein Modell dafür, wie digitale Informationen vor Löschen oder Manipulationen geschützt werden können, indem sie physisch weit verbreitet werden.

"Sie können die Aufbewahrung nur sicherstellen, wenn Sie die Kontrolle über den Inhalt haben", sagte Jacobs. "Ein Teil dessen, was die Verwahrungsbibliotheken in den letzten 200 Jahren wichtig und nützlich gemacht hat, war, dass niemand in der Regierung ein Dokument bearbeiten konnte, ohne tatsächlich zu 1.500 Bibliotheken zu gehen und zu sagen: 'Ja, ändern Sie diese eine Seite hier.'"

Die Software LOCKSS prüft Inhalte auf Bit-Ebene und vergleicht sie mit den Inhalten anderer Bibliotheken, die laut Jacobs langfristig erhalten bleiben, indem beschädigte Dateien repariert werden.

John Chodacki, ein weiterer Mitarbeiter des Libraries + Network, ist Kurator der California Digital Library, einer virtuellen Informationseinrichtung, die alle 10 Campus der University of California bedient. In Zusammenarbeit mit dem Entwickler von Code für Wissenschaft und Gesellschaft, Max Ogden, und Philip Ashlock, Chefarchitekt bei data.gov, sagte Chodacki, dass ihr Fokus auf der Nutzung von data.gov als Einbahnstraße lag.

Zunächst wurde gezeigt, dass die Datenrettung selbst wesentlich effizienter sein kann, indem eine Kopie von data.gov selbst abgerufen und auf einer externen Site, datamirror.org, mit Überwachungsskripten abgelegt wird, die nach Aktualisierungen suchen. Dann begannen Chodacki und Mitarbeiter auch zu untersuchen, ob die in den Spiegel eingebrachten Datensätze und Metadaten in die bestehenden data.gov-Workflows der Agenturen über Stubseiten im Spiegel eingehen könnten.

Gemäß der 2013 von Obama erlassenen Verordnung, wonach maschinenlesbare Daten auf data.gov veröffentlicht werden müssen, sind die Behörden weiterhin für die Erstellung der Aufzeichnungen verantwortlich, die auf diesem Portal aufgeführt sind. Die Idee von Chodacki und Ogden ist, dass das Crowdsourcing von vorgeschlagenen Datensätzen lediglich dazu beiträgt, die Arbeitslast zu verteilen.

"Wir müssen nicht das gesamte Ökosystem replizieren", sagte Chodacki. "Die Bundesregierung und diese Behörden beschäftigen sich schon viel länger als üblich mit Daten, um über Big Data auf eine viel robustere Weise als alle anderen zu sprechen."

Öffentlich Private Partnerschaft

Die Kostenfrage ist offensichtlich, wenn es darum geht, wie die Behörden ermitteln können, welche Datensätze für die Öffentlichkeit am wertvollsten sind, und dann über das Regierungsportal Links zu ihren Metadaten oder tatsächlichen Datensätzen veröffentlichen. Ein Bericht des Congressional Budget Office (CBO) zum Gesetzentwurf zum Open Government Data Act, der derzeit im Senat vorliegt und die Exekutive von Obama in ein Gesetz umwandeln würde, schätzt, dass seine vollständige Umsetzung zwischen 2018 und 2021 2 Millionen US-Dollar kosten würde.

In Staatsgeldern ausgedrückt bedeutet dies im Wesentlichen keine realen Ausgabensteigerungen, schloss CBO.

Effizienz ist jedoch eine andere Frage, mit der Ed Kearns von der National Oceanic and Atmospheric Administration zusammen mit privaten Partnern wie Amazon Web Services und Google experimentiert. Kearns, Chief Data Officer von NOAA, sagte, die Erhöhung der öffentlichen Verfügbarkeit und Nutzung von NOAA-Daten sei ein Hauptziel des Big Data-Projekts.

Unternehmen ermitteln, welche Datensätze sie benötigen, und NOAA gibt sie ohne zusätzliche Kosten an die Öffentlichkeit weiter. Alles, was NOAA hat, ist auf dem Tisch, sagte Kearns, aber das Ziel der fünfjährigen Partnerschaft ist nicht, alle NOAA-Daten in die Cloud zu bringen - nur strategische Teile.

Das Hosten solcher Datensätze in den Cloud-Diensten privater Unternehmen bietet mehrere Vorteile für den FTP-Zugang im Stil der 80er Jahre, der immer noch Standard für die Übertragung großer Datensätze von Bundesbehörden ist. Zu Beginn sind die NOAA-Datensätze in der Regel sehr umfangreich - die Agentur überwacht die Ozeane, die Atmosphäre, die Sonne und das Weltraumwetter der Erde - und benötigt manchmal Wochen oder Monate für die öffentliche Zustellung.

Ein Beispiel ist das hochauflösende NEXRAD Level-II-Doppler-Radararchiv der Agentur. Laut einer im Mai von der American Meteorological Society veröffentlichten Studie hätte die Übertragung des gesamten 270-Terabyte-NEXRAD-Archivs an einen einzelnen Kunden im Oktober 2015 540 Tage in Anspruch genommen, was 203.310 US-Dollar gekostet hätte. Eine vollständige Kopie des Archivs war noch nie für externe Analysen verfügbar gewesen, bevor NOAA mit Amazon und Google zusammengearbeitet hatte, um ein Exemplar in die Cloud zu stellen.

Das Experiment hatte auch einige interessante frühe Ergebnisse mit zunehmender Nutzung. Die Wetter- und Prognosewebseiten von NOAA verzeichnen bereits einige der höchsten Zugriffe auf Regierungswebsites. Nachdem Google kürzlich einen Klima- und Wetterdatensatz von etwa einem Gig in seine BigQuery-Datenbank integriert hatte, meldete das Unternehmen die Bereitstellung von 1, 2 Petabyte dieses Datensatzes vom 1. Januar bis 30. April - von NOAA-Servern wurde in einem ähnlichen Zeitraum weit mehr als jemals zuvor darauf zugegriffen.

"Google konnte es für ein ganz neues Publikum öffnen", sagte Kearns.

Es ist nicht nur Regen und saisonale Temperaturen. Zu den jetzt über die Big Data-Partner verfügbaren Datensätzen gehören Fischereidaten, Meereswetter und ein von IBM gehosteter Katalog, in dem aktuelle, prognostizierte, historische und geografische Datensätze von NOAA-Zentren aufgeführt sind. Zukünftige Datensätze könnten sogar Informationen über Ökosysteme und Fischereigenomik enthalten.

Dank der Partnerschaft können die Mitarbeiter jedoch gezielt auswählen, was sie am meisten möchten. Dies birgt das Risiko, dass undurchsichtige und dennoch potenziell wertvolle Datensätze nicht viel Tageslicht sehen. Kearns sagt, es sei zu früh, um zu sagen, was letztendlich als wertvoll eingestuft werden könnte.

"Der Umfang und die Reichweite dessen, was mit diesen Daten geschehen kann, sind für uns erstaunlich", fügte er hinzu. "Wir können uns nicht alle Einsatzmöglichkeiten vorstellen."

In kleinerem Maßstab hat die Stadt Philadelphia auch mit einer privaten Einrichtung zusammengearbeitet, um Datensätze zu veröffentlichen, die die Öffentlichkeit für am nützlichsten hielt. Obwohl die Größe einer Stadt die alltägliche Manövrierfähigkeit erhöht als die einer Bundesbehörde, stellt Phillys Modell einen Ansatz für die Strategie zur Veröffentlichung von noch nicht veröffentlichten Datensätzen dar.

Azavea, eine auf Datenvisualisierung spezialisierte Softwarefirma mit Sitz in Philadelphia, arbeitete mit dem leitenden Informationsbeauftragten der Stadt, Tim Wisniewski, zusammen, um eine Liste unveröffentlichter Datensätze zu erstellen, an deren Verwendung gemeinnützige Organisationen in der Stadt interessiert sein könnten. Wisniewski und Azavea verwendeten sowohl den Online-Metadatenkatalog der Stadt als auch Eingaben der städtischen Abteilungen, um die Liste zu erstellen. Azavea und andere Partner verteilten die Liste dann an gemeinnützige Organisationen in Philadelphia und starteten OpenDataVote, einen Wettbewerb, bei dem die Öffentlichkeit über Projekte abstimmen konnte, die von diesen gemeinnützigen Organisationen vorgeschlagen wurden, um herauszufinden, wie sie ihre bevorzugten Datensätze verwenden würden.

Ein jüngster Gewinner war ein Vorschlag der gemeinnützigen MicroSociety für Bildung, anhand von Stadtdaten über Spender des Philadelphia School District die Auswirkungen von gemeinnützigen Programmen an Schulen zu messen.

"Wir können sagen, dass diese gemeinnützige Stadt an einem bestimmten Datensatz interessiert ist, weil sie etwas damit anfangen kann, und dass so viele Menschen dafür gestimmt haben, sie zu unterstützen", sagte Wisniewski. "So können wir mit einem soliden Anwendungsfall zu den Abteilungen gehen, anstatt zu sagen, hey, geben Sie diese Daten nur deshalb frei."

Alte und neue Daten

Aber was passiert, selbst wenn es genügend Zugriff auf Daten gibt, die bereits zur Verfügung stehen, und wenn neue Richtlinien und Finanzierungsrichtlinien dazu führen, dass die Daten selbst nicht mehr generiert werden? Das ist ein echtes Problem, sagte Ann Dunkin, die unter Präsident Obama als Chief Information Officer bei der Environmental Protection Agency tätig war und jetzt die IT für den kalifornischen Santa Clara County leitet.

"Die Leute sind besorgt über die alten Daten, aber was mich am meisten beunruhigt, ist, dass neue Daten nicht mit der gleichen Geschwindigkeit wie zuvor verfügbar gemacht oder überhaupt nicht generiert werden", sagte Dunkin.

In einer Analyse des von der Zeitschrift Science vorgeschlagenen Bundeshaushalts für 2018 würden viele Regierungsbehörden ihre Forschungsbudgets erheblich kürzen, wenn das Budget wie vorgeschlagen verabschiedet würde. Etwa 22 Prozent Kürzung an den National Institutes of Health würden Zahlungen an Forschungsuniversitäten bedeuten. Mit der NASA-Haushaltsanfrage würden Initiativen zur Überwachung der Treibhausgasemissionen und anderer geowissenschaftlicher Programme gestrichen. Auch die Klimaprogramme der NOAA könnten mit ähnlichen Kürzungen geschlossen werden.

Während ihrer Amtszeit hatte die EPA daran gearbeitet, ihre Datensammlung zu einem Werkzeug zu machen, mit dem jeder die Gesundheit seiner Umgebung verstehen und darauf reagieren konnte. Schlechter Lufttag? Geh nicht nach draußen. Den verschmutzten Weg runterströmen? Halten Sie die Kinder fern.

"Ich gehe davon aus, dass es rückwärts geht", fügte Dunkin hinzu. "Ich könnte mich irren, aber wenn Sie sagen, wir werden keine Daten zur Verfügung stellen, ist die logische Schlussfolgerung, dass Datensätze, die Mitgliedern der Öffentlichkeit helfen könnten, auch nicht verfügbar sind oder gar nicht erst generiert werden."

Wiggin von Data Refuge arbeitet an einem Storytelling-Projekt zu diesem Thema. Sie hofft, dass dadurch mehr Menschen dazu gebracht werden, fortlaufende Datenfreigaben anzufordern, und eine breite Unterstützung für die Fortführung bestehender Datenerfassungsprogramme in der gesamten Bundesregierung geschaffen wird. "Three Stories in Our Town" -Narrative zeigen die oft verborgenen Auswirkungen von Bundesdaten an unerwarteten Orten, angefangen in Philadelphia, bis hin zu anderen Orten im ganzen Land.

"Ein entscheidendes Element der Data Refuge-Bewegung beim Übergang in die nächste Phase ist es, den Menschen zu zeigen, wie weit verbreitet die vom Bund produzierten Daten in ihrem Leben sind", sagte Wiggin. "Egal, ob Sie es als Klima, Gesundheit oder öffentliche Sicherheit bezeichnen, es handelt sich immer noch um Bundesdaten. Es handelt sich um Daten in Gemeinden, im Rathaus, bei Polizeieinsätzen und beim Militär. Wir müssen uns immer daran erinnern, wie wichtig diese Daten sind."

Ressourcen:

EPA Environmental Dataset Gateway: Das Metadatenportal der Environmental Protection Agency.
Open Data @ DOE: Das offene Datenportal des Energieministeriums.
USDA Economic Research Service Datenportal
NOAA-Big-Data-Ressourcen: Links zu den Plattformseiten der Big-Data-Partner, auf denen von NOAA generierte Daten gehostet werden.
University of North Texas: Cyber Cemetery: Ein Archiv nicht mehr existierender, veralteter oder geschlossener Regierungswebsites.
Archivierungsprojektseite der Environmental Data & Governance Initiative: Tools, Code und Apps zur Ermittlung und Archivierung von Regierungsdaten.
Internet Archive Wayback Machine
Internetarchiv: So speichern Sie Seiten auf dem Wayback-Computer: Sechs Möglichkeiten, um Seiten für die Archivierung zu nominieren.
California Digital Library: Webarchiv zum Ende der Laufzeit: Eine Sammlung von Websites der US-Regierung, die von 2008 bis heute vor dem Ende der Laufzeit gespeichert wurden.
FreeGovInfo.info: Umfangreicher Inhalt mit Informationen zu Datenportalen auf Landes- und Bundesebene sowie Archiv von Nachrichten zu offenen Datenfragen.
Climate Mirror: Eine Sammlung freiwillig gesammelter Klimadatensätze.

Diese Geschichte erschien zum ersten Mal in der PC Magazine Digital Edition. Abonnieren Sie noch heute weitere originelle Artikel, Neuigkeiten, Rezensionen und Anleitungen!