Qualität von Open Data sicherstellen

Von Smart Data Begleitforschung Vor 1 WocheKeine Kommentare
Home  /  Allgemein  /  Qualität von Open Data sicherstellen

Von Dr. Holmer Hemsen, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH.

Das Potenzial und die Möglichkeiten des innovativen Einsatzes von Open Data hängen stark von der Qualität ab, mit der diese Daten bereitgestellt werden. Die Bedeutung der Qualität von Open Data verstärkt sich sogar noch bei Kombination von verschiedenen Datenquellen (Open Data mit Open Data oder Open Data mit anderen Datenquellen). Durch die Kombination verschiedener Datensätze können Fehler in einem solchen Maße verschleiert werden, dass sie im resultierenden Datensatz nicht mehr entdeckt werden können. Dies kann unabsehbare Konsequenzen haben, insbesondere dann, wenn auf Basis dieser Daten Aussagen oder Entscheidungen getroffen werden. Die Sicherstellung der Qualität von Open Data ist somit essentiell, um einen sinnvollen und verantwortungsvollen Einsatz zu ermöglichen.

Daten-Metriken als Schlüssel, um die Qualität von Open Data zu bewerten

Die Bewertung der Qualität von Daten ist bereits vielfältig diskutiert worden.1 So hat Eurostat die folgenden Metriken für die Beurteilung von statistischen Daten vorgeschlagen: „Relevance, accuracy and reliability, timeliness and punctuality, coherence and comparability, accessibility and clarity.“2 Eurostat nimmt aber auch den statistischen Produktionsprozess, in dem die Daten erzeugt wurden, in den Qualitätskatalog mit auf.3 Zwar hat sich bisher keine allgemeingültige Menge von Beurteilungskriterien herauskristallisiert,4 mit der ISO-8000-Norm („Data quality“) wird jedoch gegenwärtig ein Standard für die Datenqualität entwickelt.5 Daten-Metriken sind dabei wichtige Hilfsmittel, um die relevanten Qualitätsaspekte von Daten zu beschreiben, aber auch um als Datennutzer diese zu beurteilen.6

Bei der Bereitstellung von Daten sind zusätzlich einige Kriterien zu beachten, die dabei helfen, die Qualität von Open Data sicherzustellen:

Erstens muss die Entstehung von Open Data nachvollziehbar sein. Insbesondere wenn Aussagen durch die Verknüpfung von Daten getroffen werden sollen, ist es unerlässlich, detaillierte Informationen über den Ursprung der Daten zu haben. So können beispielsweise Informationen zum Sensortyp, mit dem die bereitgestellten Daten erzeugt wurden, Aufschluss darüber geben, in welcher Genauigkeit diese Daten vorliegen.

Zweitens sind Metadaten unerlässlich. Die Bereitstellung von Datensätzen allein reicht für die Beurteilung der Qualität von Daten nicht aus. Bei der Beurteilung der Relevanz eines Datensatzes spielen viele Faktoren eine Rolle, die aus den reinen Daten nicht ersichtlich sind. So kann zum Beispiel die Lizenz, unter der die Daten veröffentlicht werden, deren Verwendung einschränken oder für den geplanten Zweck vollständig ausschließen. Dies sind somit Informationen, die über Metadaten kommuniziert werden müssen.

Und schließlich sichert die zeitnahe Bereitstellung qualitativ hochwertiger Daten das hohe Innovationspotenzial. Mehrere Qualitätsmanagementmethoden beziehen auch Timeliness7 in die Menge der zu beurteilenden Qualitätskriterien mit ein. Timeliness drückt hierbei mehrere Aspekte aus: zum einen die Aktualität der bereitgestellten Daten, zum anderen die Frequenz, mit der die Daten aktualisiert werden, aber auch den Zeitraum, in dem die Daten Gültigkeit haben. Viele Anwendungen, die Open Data einsetzen, können nur dann ihre innovativen Potenziale freisetzen, wenn die Daten zeitnah bereitgestellt werden und aktuell sind.

Notwendige Etablierung von Qualitätsmanagement- und Qualitätssicherungsprozessen für die Bereitstellung von Open Data

Die Bereitstellung von Open Data ist nur selten ein einmaliges Ereignis. In Fällen wie z. B. der Bereitstellung von Pegelständen von Wasserstraßen werden die Daten regelmäßig aktualisiert, d. h., auch die per Open Data bereitgestellten Daten sind zu aktualisieren. Die Etablierung von geeigneten Qualitätsmanagement- und Qualitätssicherungsprozessen ist daher unerlässlich, um ein effizientes Verfahren zur Bereitstellung von Open Data in hoher Qualität sicherzustellen.

Die Bereitstellung von Open Data in hoher Qualität ist nicht umsonst. Gerade bei öffentlichen Daten, also Daten, die von der öffentlichen Hand gesammelt werden, entsteht vielfach der Eindruck, dass die Bereitstellung dieser Daten keine zusätzlichen Kosten und Aufwände erfordert, da die Daten ja bereits vorhanden sind. In vielen Fällen entspricht dies jedoch nicht der Realität. So sind z. B. Datensätze mittels gezielter Datenbankanfragen zu extrahieren, Metadaten hinzuzufügen oder andere Aufwände zu erbringen, um die Korrektheit und Vollständigkeit von Datensätzen zu überprüfen. Wird jedoch bei der Erhebung der Daten bereits der Tatsache Rechnung getragen, dass Daten als Open Data zur Verfügung gestellt werden sollen, kann durch ein effizientes Datenmanagement der Aufwand bei der Veröffentlichung geringgehalten werden. Zum Beispiel können komplexe Datenbankanfragen gespeichert werden, um den Export relevanter Datensätze aus Datenbanken in regelmäßigen Zeitabständen zu automatisieren und effektiver zu gestalten.

Dass die Bereitstellung von qualitativ hochwertigen offenen Daten aber auch wirtschaftlich einen Mehrwert für die Institutionen oder Unternehmen bieten kann, welche die Daten bereitstellen, zeigt beispielsweise die „Open Data Initiative“ der Deutschen Bahn (DB). Die Deutsche Bahn veranstaltet regelmäßig „Open Data Hackathons“, in denen DB-Daten bereitgestellt werden, um die Entwicklung neuer Anwendungen zu fördern und deren Potenzial auszuloten. Durch die Bereitstellung von Aufzugsdaten der DB ist es beispielsweise im Rahmen eines Freizeitprojekts eines DB-Mitarbeiters gelungen, ein umfassendes System zur Aufzug-Überwachung und Bereitstellung von Status-Informationen zu entwickeln.8

Gerade im Zeitalter von Big Data, in dem die Datenmengen, die erhoben werden, immens sind und eine manuelle Qualitätsprüfung der Daten somit gänzlich ausgeschlossen ist, wird es immer wichtiger werden, automatische Verfahren zur Qualitätssicherung zu etablieren. Statistikprogramme, wie z. B. R9, bieten u. a. die Möglichkeit, Daten in Form von zusammenfassenden Statistiken zu präsentieren. Auch um die Qualität von Open Data sicherzustellen, kann diese Methodik angewendet werden. Durch die Präsentation von MinMax-Werten könnte beispielsweise die Erkennung von außergewöhnlichen Ausreißern im Datensatz vereinfacht oder durch die Präsentation der Dimensionen des Datensatzes die Überprüfung der Vollständigkeit der bereitgestellten Daten erleichtert werden. Auch Nutzern von Open Data können Daten, wie z. B. MinMax-Werte, Standardabweichungen etc., als Hilfsmittel dienen, um einen Datensatz auf die mögliche Verwendbarkeit im gegebenen Szenario zu überprüfen.

Datenportale als Prüfinstanz zur Sicherstellung hoher Qualität bei Open Data

Open-Data-Portale, wie z. B. GovData10, dienen zwar in erster Linie der zentralen Bereitstellung von Open Data, können aber ebenfalls als Prüfinstanz eingesetzt werden. Durch standardisierte Eingabeformulare können z. B. Metadaten auf Vollständigkeit der Angaben überprüft werden. Auch kann die Prüfung auf Einhaltung des Daten-Encodings automatisiert durchgeführt werden oder durch automatisierte Skripte kann überprüft werden, ob die bereitgestellten Daten computerlesbar sind und einem vorgegebenen Datenschema entsprechen.

 

Dieser Beitrag stammt aus der Publikation „Open Data in Deutschland“ der Fachgruppe „Wirtschaftliche Potenziale und gesellschaftliche Akzeptanz“ der Smart-Data-Begleitforschung, die hier als kostenloser Download zur Verfügung steht.

„Die Sicherstellung der Qualität von Open Data ist somit essentiell, um einen sinnvollen und verantwortungsvollen Einsatz zu ermöglichen.“ - Holmer Hemsen #OpenData #BigData https://bit.ly/2D1zuBm Klick um zu Tweeten

 


  1. Vgl. hierzu bspw. L. L. Pipino, Y. W. Lee and R. Y. Wang, „Data Quality Assessment“, Communications of the ACM, vol. 45, no. 4, pp. 211–218, April 2002 sowie C. Batini, C. Cappiello, C. Francalanci und A. Maurino, „Methodologies for Data Quality Assessment and Improvement“, ACM Computing Surveys (CSUR), 52 Seiten, Juli 2009.
  2. Vgl. Eurostat, „Standard Quality Indicators, Working Group “Quality in statistics”“, Luxemburg, 23.–24. Mai 2005.
  3. Vgl. M. Bergdahl, M. Ehling, E. Elvers, E. Földesi, T. Körner, A. Kron, P. Lohauß, K. Mag, V. Morais, A. Nimmergut, H. V. Sæbø, U. Timm und M. J. Zilhão, Handbook on Data Quality Assessment Methods and Tools, M. Ehling und T. Körner (Hrsg.), Wiesbaden: Eurostat, 2007.
  4. C. Batini, C. Cappiello, C. Francalanci und A. Maurino, „Methodologies for Data Quality Assessment and Improvement“, ACM Computing Surveys (CSUR), 52 Seiten, Juli 2009, S. 18.
  5. ISO 8000 (online). Available: https://www.iso.org/search.html?qt=ISO+8000&sort=rel&-type=simple&published=on (Zugriff am 20. September 2016).
  6. C. Batini, C. Cappiello, C. Francalanci und A. Maurino, „Methodologies for Data Quality Assessment and Improvement“, ACM Computing Surveys (CSUR), 52 Seiten, Juli 2009.
  7. Vgl. C. Batini, C. Cappiello, C. Francalanci und A. Maurino: Methodologies for Data Quality Assessment and Improvement, in: ACM Computing Surveys (CSUR), July 2009, S. 18 f.
  8. Vgl. Deutsche Bahn AG, DB Open-Data-Team, „DB Open Data,“ 14.–15. April 2016, http://www1.deutschebahn.com/file/dbs-konzerntreff/11027988/A5JJgX_qH3iQ10y5_JPpyrlaTyI/11120094/data/praesentation_open_data.pdf., S. 18 sowie Aufzugswächter, http://www.aufzugswaechter.org/.
  9. Vgl. M. J. Crawley: The R Book, John Wiley & Sons, 2012.
  10. Vgl. GovData — das Datenportal für Deutschland, https://www.govdata.de/.
Kategorien:
  Allgemein, Begleitforschung, Datenanalyse

Artikel teilen

[easy-social-share buttons="twitter,facebook,google,xing,linkedin,flipboard" counters=0 style="icon" url="http://www.smartdata-blog.de/2018/11/05/qualitaet-von-open-data-sicherstellen/" text="Qualität von Open Data sicherstellen"]
Über

 Smart Data Begleitforschung

  (27 Artikel)

Hinterlassen Sie einen Kommentar

Die E-Mail Adresse wird nicht veröffentlicht.