Blir det någon AI-revolution utan öppna data?

AI handlar oftast om dataanalys och då krävs data att analysera. Det mesta av tiden för analysarbetet går åt till att hitta och hantera data. Ju fler som publicerar öppna data, desto enklare kommer det arbetet att bli för alla. Annars finns risken att AI-utvecklingen avstannar.

Om du har tagit del av nyhetsflödet på senare tid så vet du att AI är ett hett begrepp. AI, eller artificiell intelligens, representerar drömmen, eller farhågan för vissa, om att datorer ska ta över en massa arbete som utförs av människor i dag. AI representerar också visionen om att skapa nya lösningar som människor inte mäktar med på egen hand.

Men hur långt har vi kommit med AI i Sverige? Det handlar inte om en företeelse på bred front, men det finns projekt som är i gång, en del med lyckade resultatet. I dagsläget är det oftast frågan om underdisciplinen maskininlärning (machine learning).

Vad är maskininlärning?

Kanske är ”avancerad dataanalys” en bättre benämning än maskininlärning. Det handlar om analyser som i hög grad inte är intuitiva, som inbegriper stora datavolymer och som kräver rejäl datorkapacitet.

En sak är enkel att förstå med maskininlärning: utan tillgång till lämpliga data blir det inga analyser gjorda. Olika experter brukar bedöma, och olika undersökning brukar visa, att mellan 80 och 90 procent av tiden för att jobba med maskininlärning går åt till att hitta, organisera, kvalitetskontrollera och på andra sätt hantera data.

Den återstående tiden läggs på att bestämma vilka analyser som ska göras, formulera och implementera algoritmer, köra analyserna, samt tolka resultaten av dem.

Maskininlärning används redan direkt och indirekt i ett otal olika tillämpningar. Ett exempel är att körningar blir till underlag för självkörande bilars bedömningar av vad som är en cykel eller inte. Ett annat exempel är bifall eller avslag på ansökningar av olika slag.

I korthet är alla bedömningar och prioriteringar som kan baseras på data tänkbara. Och väldigt många saker som finns i världen kan omvandlas till data, som bilder, ljud, siffror, beräkningar, skriven text, och så vidare.

Poängen med att använda maskininlärning för sådana här analyser är mångfasetterad, till exempel möjligheter att hantera stora datavolymer och avancerade analyser, höga prestanda för analyserna och en hög grad av automatisering. Sammantaget innebär det mindre behov av mänsklig inblandning, vilket både ger lägre kostnader och innebär en lösning på problem med kompetensbrist.

Men låt oss börja från början med maskininlärning: hur hittar man lämpliga data? Det är här öppna data kommer in i bilden. Tillgång till sådana kan bli lösningen på de många problem som infinner sig när man letar efter data, som de följande:

Att överhuvudtaget hitta lämpliga data till analyser som ska göras.
Att säkerställa volymer, kvalitet och, inte minst viktigt, variation för data som ska användas i analyser.
Att strukturera data som ska användas i analyser på lämpliga sätt.

Tillgång till öppna länkade data via publika API:er löser det första problemet, om data publiceras i rimlig omfattning. Tillgången underlättar också att lösa det tredje problemet och ger bättre möjligheter att lösa det andra. Men för att säkerställa volymer, kvalitet och variation för data krävs det förstås insatser av kunniga människor. Man kan dock anta att chansen att sådana finns tillgängliga är större i en organisation som jobbar med öppna data, än i en som inte gör det.

För att belysa problem med kvalitet, till exempel vad gäller korrekthet och variation för data som används i analyser, kan man ta del av några av de förmodligen sanna skräckhistorier som florerar om maskininlärning. En av de mest omtalade är den om den automatiserade AI-lösningen för rekrytering som konsekvent missgynnade kvinnor och personer som inte var vita vid rekryteringar.

Varför? För att de som redan var anställda till största delen var vita män, vilket återspeglades i de data som användas för analyser.

Man kan komma runt sådana här problem genom att formulera algoritmer, tolka resultat och designa slutliga lösningar på olika sätt. Men då ökar behovet av mänskliga insatser i arbetet. Med bättre data går det att automatisera arbetet i högre grad, förutom att risken för skeva analysresultat minskar i största allmänhet.

Kontentan av resonemangen ovan är att arbete med att publicera öppna data är den i dag bästa strategin för att ombesörja dataförsörjning till maskininlärning. Det gäller inte minst för den offentliga sektorn, där det borde finnas att incitament för olika myndigheter, kommuner, landsting, organisationer och statligt ägda företag att samarbeta genom att bidra med publicering av öppna data. Det tjänar alla inblandade på.

Läs mer om EntryScape Free eller ladda ned vår guide "Kom igång med öppna data".