Datadriven forskning – SWERIK öppnar riksdagens dörrar till dåtiden

Fredrik Mohammadi Norén är projektledare för SWERIK.

Går det att ta reda på vilka som har varit riksdagspolitiker i Sverige på ett enkelt sätt? Ja, faktiskt ända tillbaka till 1867. Sedan 2023 publiceras datamängder, som besvarar just frågor likt den ovan, tillgängliga som öppna data inom projektet SWERIK. Ett projekt som möjliggör avancerad datadriven forskning om svensk politisk historia.

SWERIK drivs som ett samarbete mellan Malmö universitet och Riksdagsbiblioteket. Projektet kom i gång i början av 2023. Bakom förkortningen döljer sig det fullständiga namnet Swedish Riksdag 1867–2022: An Ecosystem of Linked Open Data.

– Vi upptäckte att det inte fanns någon databas över riksdagsledamöterna före 1990. Och även om olika skrifter fanns digitaliserade, saknades information om personerna bakom, kopplade för enkel åtkomst, berättar Fredrik Mohammadi Norén, som är projektledare för SWERIK. Han är till vardags även verksam som biträdande universitetslektor på Malmö universitet, inom media- och kommunikationsvetenskap.

Det är en stor mängd olika texter som har gjorts tillgängliga maskinellt tack vare SWERIK: debattprotokoll och andra talade framställningar, samt propositioner, motioner, utskottsbetänkanden och andra skrifter. En stor poäng är att det nu finns länkar till de riksdagsledamöter som är upphovsrättshavare till de olika talade framställningarna och skrifterna.

Som nämndes ovan, är syftet med projektet att maskinellt tillgängliggöra information, som öppna och länkade data, om samtliga riksdagsledamöter sedan tvåkammarriksdagens införande 1867. Detsamma om all skriftlig information från riksdagsarbetet. På webbtjänsten GitHub finns både data och programkod tillgängliga, som ger åtkomst till informationen.

Förutsättningar för datadriven forskning

Ett av de viktigaste skälen till satsningen på SWERIK är att underlätta forskning.

– Forskare inom humaniora och samhällsvetenskap kommer att kunna använda det material som vi har gjort tillgängligt. Det är redan två forskningsprojekt som har kommit i gång med att använda sig av vårt arbete, säger Fredrik Mohammadi Norén.

Vad gäller forskning handlar det kort sagt om att underlätta arbetet med att hitta historisk politisk information. Det innebär inte bara en mer bekväm tillvaro för forskare, utan även möjligheter att bedriva datadriven forskning som tidigare inte var möjlig.

Forskning i all ära, men för en lekman är det helt enkelt självklart att så viktig information om vårt lands historia ska finnas tillgänglig på ett enkelt sätt. Nu finns möjlighet att tillgängliggöra den på till exempel en webbsida. Det ligger kanske i tiden, bland annat visar intresset för SVTs uppmärksammade serie Historien om Sverige, att människor vill kunna lära sig mer om historiska händelser. Det finns därför stor sannolikhet att SWERIK inte bara är av intresse för forskare.

Ett exempel på en yrkesgrupp som borde ha användning av den numera tillgängliga politiska informationen är journalister. I grund och botten går det även att argumentera för att det är en demokratifråga. Med lättillgänglig information ökar insynen och det blir enklare för både allmänheten, näringslivet och journalistiken att granska, ifrågasätta och följa upp.

Öppna data blir tillgängligt maskinellt

De som är verksamma i SWERIK har i huvudsak ägnat sig åt tre arbetsuppgifter:

  • Att ”annotera”, märka upp, textinnehåll och göra både texterna och annoteringarna tillgängliga så de blir läsbara maskinellt. För att den här arbetsuppgiften ska kunna skötas effektivt har man tränat modeller för maskininlärning, med hjälp av iterativa förbättringar.
  • Att hämta in och kvalitetsgranska tillgänglig information om riksdagsledamöter, och göra även den tillgänglig maskinellt. Det här inbegriper förutom namn till exempel uppgifter om vilka tidsperioder ledamöter har suttit, vilka partier och valkretsar de representerat, kön, med mera.
  • Att koppla samman de båda typerna av information: å ena sidan information om riksdagsledamöter, å andra sidan dokument som de stått bakom och deras protokollförda anföranden i riksdagen.

Självklart är metadata en viktig komponent för att lyckas med projektet. På ett tekniskt plan används både XML-scheman och strukturerade tabellfiler av typen CSV (vilka ofta används för att publicera öppna data och delade data).

– Det är väldigt viktigt att allt som vi gör är öppet, både data och programkod som skapats i projektet. Det möjliggör avancerad datadriven forskning som inte varit möjlig tidigare, säger Fredrik Mohammadi Norén.

Öppna Gustav Vasa data

Efter att projektet SWERIK fått en flygande start har man börjat fundera på nästa steg:

– Det finns digitaliserade politiska texter ända tillbaka från 1523, när Gustav Vasa blev kung. Vi har börjat fundera på att göra dem tillgängliga, säger Fredrik Mohammadi Norén.

Det har förts diskussioner med MetaSolutions, dels om öppna och delade data i allmänhet, dels om företagets plattform EntryScape för att hantera och publicera öppna och delade data. Deltagare i SWERIK har bland annat deltagit i en workshop anordnad av MetaSolutions.

– MetaSolutions kan öppna och länkade data och erbjuder publika användarvänliga gränssnitt. Det är en relevant aktör för att förbättra tillgängligheten för data, avslutar Fredrik Mohammadi Norén.

Läs mer om EntryScape Free eller Ladda ned vår guide "Kom igång med öppna data"