Technologie

Richtiger Umgang mit Daten

Um den Entwicklungsstand zu erfassen und Fortschritt voranzutreiben, sind belastbare Zahlen und Informationen unerlässlich. Es gibt verschiedene Methoden der Datenerhebung. Die traditionelle Methode ist, Daten aktiv abzufragen und zu sammeln. Durch die neuen Medien stehen aber auch eine Menge automatisch generierter Daten zur Verfügung. Wegen ihrer Größe und Komplexität werden sie als Big Data bezeichnet. Die Frage ist, ob und wie man diese nutzen kann und sollte.

von Tobias Knobloch

von Julia Manske

11.01.2017

Koene/Lineair

Bei der Nutzung von Mobiltelefonen und sozialen Medien werden große Mengen von Daten generiert: Handynutzer vom Samburu-Volk in Nord-Kenia.

Für Entwicklungsprogramme spielen Daten eine wichtige Rolle. In der Landwirtschaft etwa können stabile Datensätze dabei helfen, Vorhersagen über Ernteerträge zu treffen. Das International Center for Tropical Agriculture (CIAT) hat zusammen mit der Colombian Rice Growers Association ein Computersystem entwickelt, das die Vorhersage von Trockenperioden ermöglicht. Ausgehend von Wetterdaten der vergangenen zehn Jahre, analysiert das System die Reaktionen von Pflanzen auf Boden- und Wetterbedingungen. Ertraglose Aussaaten können somit vermieden werden. Züchter konnten 2013 auf diese Weise fast 3,8 Millionen US-Dollar sparen.

In vielen Ländern sind Daten, etwa über den sozio-ökonomischen Status oder die Bevölkerungsstatistik, aber schlecht gepflegt, lückenhaft und bieten nur sehr begrenzt Informationen über regionale Entwicklung. Deshalb birgt die weite Verbreitung digitaler Technologien heute die Hoffnung, dass sich auf andere Art Daten erschließen lassen und potenziell bessere Einblicke bieten als traditionelle, statistische Quellen. Im Gegensatz zu statistischen Erhebungen entstehen beispielsweise sogenannte nutzergenerierte Daten dadurch, dass Nutzer diese aktiv auf Internet-Plattformen zur Verfügung stellen (siehe Hintergrund-Informationen).

2014 hat die Forschungsstelle des US-amerikanischen IT-Unternehmens IBM die Verbreitung von Ebola in Westafrika untersucht. Gemeinsam mit der Open-Data-Initiative in Sierra Leone und der University of Cambridge hat IBM eine Big-Data-Analyse durchgeführt (siehe hierzu auch Anne Jung in E+Z/D+C e-Paper 2016/08, S. 23). Nutzergenerierte Daten sollten helfen, die Verbreitung der Krankheitserreger nachzuvollziehen. IBM hat außerdem ein System für die Bürger von Sierra Leone installiert, mit dem sie Ebola-Infektionsfälle mit einer gebührenfreien SMS oder einem Mailbox-Anruf an die Regierung melden konnten. Diese Daten haben IBM schließlich dabei geholfen, lebensrettende Gesundheits-Dienstleitungen zu mobilisieren und wichtige Ressourcen zu liefern, wie zum Beispiel Medikamente oder Hygieneprodukte.

Weitere praktische Beispiele

Ein recht bekannter Fall nutzergenerierter Daten ist die kenianische Ushahidi-Plattform. Sie wurde zum ersten Mal während der politischen Unruhen in Nairobi 2008 genutzt. Auf der Plattform melden Privatleute gewalttätige Zusammenstöße per SMS oder Online, die so generierten Daten über Ausschreitungen konnten so auf einer virtuellen Karte dargestellt werden. Seitdem wurde die Plattform in verschiedenen Situationen genutzt, zum Beispiel, um die Koordination von humanitärer Hilfe nach Erdbeben zu verbessern.

Neben nutzergenerierten Daten gibt es auch noch Massendaten, die durch automatische Analysen großer und zum Teil unstrukturierter Datenvolumina in hoher Geschwindigkeit generiert werden. Technologieunternehmen wie Facebook und Google nutzen diese Daten, um ein genaues Wissen über das persönliche Verhalten und die Vorlieben ihrer Kunden zu sammeln. Diese technischen Möglichkeiten lassen bei vielen die Hoffnung aufkeimen, dass sich neue Datenquellen gewissermaßen von selbst erschließen und potenziell bessere Ergebnisse liefern als traditionelle Quellen.

Viele internationale Organisationen wie die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) und die Weltbank haben aufgrund solcher Beispiele begonnen, Pilotprojekte zu initiieren und in die Forschung von Datenprogrammen zu investieren. Die Partnership in Statistics for Development in the 21st Century (Paris 21) wurde von der OECD, der Weltbank und anderen internationalen Organisationen eingerichtet und unterstützt Partnerländer dabei, ihre Statistiksysteme zu verbessern und neue Datenquellen zu nutzen. Die UN-Organisation Global Pulse macht Ergebnisse aus Big-Data-Analysen für Entwicklungsprojekte zugänglich. Die Global Partnership for Sustainable Development Data ist ein Konsortium von Organisationen, die sich der Verbesserung von Daten für die Messung der SDGs verpflichtet haben. Oft ist die Rede von der Notwendigkeit einer „Datenrevolution“.

Grenzen und Risiken

Viele dieser Daten sind jedoch nicht öffentlich zugänglich. Während der Ebola-Krise versuchten zivilgesellschaftliche Organisationen ohne Erfolg, Unternehmen dazu zu bewegen, ihnen Zugang beispielsweise zu Mobilfunkdaten zu gewähren. Rechtliche Unklarheiten und Profitinteressen führten dazu, dass die Unternehmen dies verweigerten.

Es gibt Initiativen von Mobilfunkanbietern wie Telefónica und Orange mit dem Ziel, Mobilfunkdaten (sogenannte Call Detail Records) für die Forschung freizugeben. Doch auch dies ist problematisch. Denn Unternehmen treten dabei als rechtmäßige Eigentümer der Daten auf – nicht jedoch die Menschen, die die Daten generieren. Daher machen solche Initiativen Entwicklungsorganisationen vom guten Willen der Unternehmen abhängig. Das führt zu einer immer größeren Machtasymmetrie zwischen der Privatwirtschaft und dem Entwicklungssektor.

Auch der Schutz der Privatsphäre stellt eine enorme Herausforderung dar (siehe hierzu auch Nanjira Sambuli in E+Z/D+C e-Paper 2016/06, S. 34). Viele Länder haben mangelhafte oder gar keine Datenschutzgesetze. So werden in vielen Fällen Daten ohne vorherige Zustimmung der Nutzer ausgewertet, was in Deutschland illegal ist. Darüber hinaus kann eine sichere Anonymisierung von Daten in Zeiten großer Datenmengen und der automatisierten Verschneidung von Daten kaum gewährleistet werden. Individuen können so in eigentlich anonymisierten Datensätzen wieder identifiziert werden.

Auch die Qualität und Aussagekraft von Daten sind unabhängig von ihrer Menge nicht gegeben. Die Menge der Daten sagt noch nichts über ihre Repräsentativität aus. Wie viele Studien zeigen, geben gerade Big Data ein verzerrtes Bild der Wirklichkeit wider. Rohdaten lassen sich ferner manipulieren, sodass sich vermeintliche Erkenntnisse herbeiführen lassen und Entscheidungen entsprechend beeinflusst werden können.

Verantwortungslose Algorithmen stellen ein weiteres Risiko dar. Algorithmen sind, vereinfacht gesagt, Berechnungen, die Rohdaten in nutzbare Informationen umwandeln. Sie sind keinesfalls objektiv, sondern hängen von gesellschaftlichen Verhältnissen ab. So wissen wir etwa, dass Massendaten dazu führen können, bestehende Formen von Diskriminierung abzubilden oder sogar zu verstärken. Ein Programm der Polizei in Florida, das auf Basis von Daten die weitere Gefährdung von Straftätern berechnete und damit über ihre Entlassung aus dem Gefängnis bestimmte, prognostizierte Afroamerikanern unberechtigterweise eine doppelt so hohe Wahrscheinlichkeit einer Rückfälligkeit wie weißen Amerikanern. Das Programm wurde als besonders neutral angepriesen. Da jedoch die Algorithmen mit Daten von früheren Entscheidungen und damit jahrhundertelanger Diskriminierung gegenüber Afroamerikanern gefüttert wurden, verstärkte sich die Diskriminierung. Auch solche Problemfelder muss die internationale Zusammenarbeit im Blick behalten.

Die Nutzung von Daten bietet große Chancen. Entwicklungsorganisationen sind jedoch dazu aufgerufen, die skizzierten Risiken abzuwägen, damit sich die Datenrevolution nicht als Trojanisches Pferd erweist. Voraussetzung hierfür ist eine informierte Diskussion über eine verantwortungsvolle Datennutzung weltweit, die Nichtregierungsorganisation und Bürger in den Partnerländern aktiv einbezieht.

Tobias Knobloch leitet das Projekt „Open Data and Privacy“ bei der Berliner Denkfabrik Stiftung Neue Verantwortung (SNV).
tknobloch@stiftung-nv.de

Julia Manske leitet ebenfalls das Projekt „Open Data and Privacy“ bei der SNV.
jmanske@stiftung-nv.de

Literatur

De Montjoye, Y.-A., C.A. Hidalgo, M. Verleysen and V.D. Blondel, 2013: Unique in the crowd: The privacy bounds of human mobility.
http://www.chidalgo.com/Papers/2013/Unique_in_the_Crowd_srep.pdf

Nyirenda-Jere, T. and T. Biru, 2015: Internet development and internet governance in Africa.
http://www.internetsociety.org/sites/default/files/Internet%20development%20and%20Internet%20governance%20in%20Africa.pdf

Open Definition 2.1:
http://opendefinition.org/od/

Oxfam, 2015: A rights based approach to responsible data.
http://policy-practice.oxfam.org.uk/blog/2015/08/a-rights-based-approach-to-treating-data-responsibly

Pasquale, F., 2015: Digital star chamber. Aeon Essays.
https://aeon.co/essays/judge-jury-and-executioner-the-unaccountable-algorithm

Taylor, L., 2015: In the name of development: power, profit and the datafication of the global South.
http://www.academia.edu/13226191/In_the_name_of_Development_power_profit_and_the_datafication_of_the_global_South

UN, 2014: A world that counts. Mobilising the data revolution for sustainable development. Prepared by The Independent Expert Advisory Group on a Data Revolution for Sustainable Development.
http://www.undatarevolution.org/report/

World Bank, 2014: Open data challenges and opportunities for national statistical offices.
https://openknowledge.worldbank.org/handle/10986/19984/