Eine KI-Revolution ohne offene Daten?

KI befasst sich hauptsächlich mit der Datenanalyse, wofür wiederum analysierbare Daten erforderlich sind. Der Großteil der für die Analyse aufgewendeten Zeit besteht aus der Suche und Verwaltung von Daten. Je mehr Menschen offene Daten veröffentlichen, desto einfacher wird dieser Prozess. Anderenfalls besteht die Gefahr, dass die KI-Entwicklung ins Stocken gerät.

Wenn Sie in letzter Zeit die Nachrichten verfolgt haben, wissen Sie, dass KI ein brandaktuelles Thema ist. KI, Künstliche Intelligenz, ist der Traum, oder für manche auch die Befürchtung, dass Maschinen einen Großteil der Arbeit übernehmen, die heute von Menschen erledigt wird. KI verkörpert auch die Vision, auf neue Lösungen hinarbeiten zu können, die der Mensch allein nicht bedenken kann.

Nun is die Frage, wie weit wir sind mit KI in Schweden gekommen sind. Es handelt sich nicht um ein flächendeckendes Phänomen, sondern es gibt Projekte, von denen einige erfolgreich sind. Gegenwärtig geht es vor allem um die Teildisziplin des maschinellen Lernens (machine learning).

Was ist maschinelles Lernen?

Vielleicht ist „fortgeschrittene Datenanalyse“ ein besserer Begriff als maschinelles Lernen. Dabei handelt es sich um Analysen, die größtenteils nicht intuitiv sind, große Datenmengen umfassen und viel Rechenleistung erfordern.

Eines ist beim maschinellen Lernen offensichtlich: Ohne Zugang zu geeigneten Daten kann keine Analyse durchgeführt werden. Verschiedene Experten schätzen, und verschiedene Umfragen zeigen, dass zwischen 80 und 90 Prozent der Zeit, die bei maschinellem Lernen genutzt wird zum Finden, Organisieren, Qualitätsüberprüfen und anderweitigen Verwalten von Daten verwendet wird.

Die verbleibende Zeit wird für die Entscheidung über die durchzuführenden Analysen, die Formulierung und Implementierung von Algorithmen, die Analysendurchführung und Interpretation der Ergebnisse verwendet.

Maschinelles Lernen wird bereits direkt und indirekt in zahlreichen Bereichen eingesetzt. Zum Beispiel hilft es selbstfahrenden Autos zu erkennen, was ein Fahrrad ist und was nicht. Ein weiteres Beispiel ist die Genehmigung oder Ablehnung von Anträgen verschiedener Art.

Kurzum, alle datenbasierten Einschätzungen und Priorisierungen sind möglich und sehr viele Dinge in der Welt können in Daten umgewandelt werden, z. B. Bilder, Töne, Zahlen, Berechnungen, geschriebene Texte usw.

Die Vorteile des maschinellen Lernens für solche Analysen sind vielfältig, z. B.: die Bewältigung großer Datenmengen, fortgeschrittene und leistungsfähige Analysen sowie eine weitgehende Automatisierung. Insgesamt bedeutet dies, dass weniger menschliches Eingreifen erforderlich wird, weches sowohl die Kosten senkt als auch den Fachkräftemangel behebt.

Fangen wir aber erstmal beim maschinellen Lernen von vorne an: Wie findet man eigentlich geeignete Daten? Hier kommen offene Daten ins Spiel. Der Zugang dazu bietet die Lösung für viele Probleme, die bei der Suche nach Daten auftreten, wie z. B.:

Dass überhaupt geeignete Daten für die zu erstellenden Analysen gefunden werden.
Dass die Menge, die Qualität und nicht zuletzt die Vielfalt der Daten für die Analysen sichergestellt wird.
Dass die für die Analysen zu verwendenden Daten in angemessener Weise strukturiert werden.

Zugang zu offenen verlinkten Daten über öffentliche APIs löst das erste Problem, wenn die Daten in einem angemessenen Umfang veröffentlicht werden. Außerdem erleichtert es die Lösung des dritten Problems und bietet bessere Lösungmöglichkeiten für das zweite. Die Sicherstellung der Quantität, Qualität und der Vielfalt der Daten erfordert natürlich den Einsatz von qualifizierten Menschen. Man kann allerdings davon ausgehen, dass die Wahrscheinlichkeit, dass solche Personen in einer Organisation verfügbar sind, die mit offenen Daten arbeitet, größer ist als bei einer Organisation, die dies nicht tut.

Um Qualitätsmängel in Bezug auf die Genauigkeit und Vielfalt der für die Analyse verwendeten Daten zu veranschaulichen, sollte man sich einige der vermutlich wahren Horrorgeschichten über maschinelles Lernen ansehen. Eines der meistdiskutierten Beispiele ist die automatisierte KI-Lösung für die Personalbeschaffung, wobei Frauen und dunkelhäutige Menschen konsequent benachteiligt werden.

Warum? Weil es sich bei den bereits Erwerbstätigen überwiegend um weiße Männer handelt, welches sich auch in den für die Analyse verwendeten Daten widerspiegelt.

Solche Probleme können umgangen werden, indem Algorithmen formuliert, Ergebnisse interpretiert und endgültige Lösungen auf unterschiedliche Weise entworfen werden. Dies erhöht jedoch den Bedarf an menschlichem Eingriff in den Prozess. Mit besseren Daten ist es möglich, die Arbeit in größerem Umfang zu automatisieren und das Risiko fehlerhafter Analyseergebnisse im Allgemeinen zu verringern.

Die Schlussfolgerung ist, dass die Veröffentlichung offener Daten heute die beste Strategie ist, um Daten für das maschinelle Lernen bereitzustellen. Dies gilt insbesondere für den öffentlichen Sektor, wo es für verschiedene Behörden, Gemeinden, Landkreise, Organisationen und staatliche Unternehmen Anreize geben sollte, gemeinsam zur Veröffentlichung offener Daten beizutragen. Davon profitieren alle.