Sedan starten 2019 har KB-labbs uppdrag varit att stödja forskning och bidra med forskningsinfrastruktur – egentligen inte att hjälpa den egna verksamheten på KB. Men nu ska labbet in på biblioteket med hjälp av det helt nya projektet KBx.
– Till exempel har vissa av KB:s samlingar varit svårtillgängliga – men med våra språkmodeller kan de bli sökbara på ett helt annat sätt. På sikt kan man tänka sig att de kan effektivisera bibliotekets arbete, säger Emma Rende, produktledare på Kungliga biblioteket, vilket innebär att hon driver arbetet med att utveckla bibliotekets digitala tjänster, som tidningstjänsterna, appen för nationella minoritetsspråk samt nu senast KBx.
Hon möter upp med Faton Rekathati i det stora kontorskomplexet Garnisonen, där labbets team sitter ihop med andra enheter som arbetar med KB:s audivisuella material. I foajén innanför den låsta glasdörren finns ett par externa forskarplatser, och här satt Faton Rekathati själv när han skrev sin mastersuppsats i maskininlärning och statistik.
– Många från min utbildning sökte sig till banksektorn eller läkemedelsindustrin, men jag valde att komma just hit. Här på KB finns det intressant data och en outtömlig källa av problem att lösa, säger Faton Rekathati.
Av de åtta personer som i dag jobbar inom labbet har fem likt Faton Rekathati titeln data scientist, med kompetens att utveckla AI-baserade språkmodeller på svenska med utgångspunkt i nationalbibliotekets samlingar.
– Om det bara är techföretag som tränar modellerna blir det en risk i framtiden att det enda sättet man kan använda AI på är genom att prenumerera på deras tjänster. För mig är det perspektivet viktigt, att vi har öppna svenska modeller, säger Faton Rekathati.

Emma Rende är systemvetare i grunden och jobbade tolv år inom näringslivet innan hon kom till Kungliga biblioteket. ”Jag har alltid älskat böcker och ville jobba med något som har mer värde”.
Att just Kungliga biblioteket tagit på sig den här uppgiften, och att samma sorts arbete pågår på exempelvis Norges nationalbibliotek, har att göra med att det behövs bra grunddata för att träna en språkmodell.
– När de stora techjättarna ska träna på svenska och andra språk som inte är högresursspråk blir det svårt. Sedan vill man kunna träna modellerna på annat än internettexter, säger Faton Rekathati.
– Och det är här nationalbiblioteken kommer in, för vi har så mycket data, säger Emma Rende.
– Och det i sin tur påverkar kvaliteten, tillägger Faton Rekathati.

Faton Rekathati har en bakgrund inom statistik och maskininlärning. ”Jag tror på att tillåta nya idéer under projektets gång – det är ofta omöjligt att specificera allt på förhand”.
Det var 2021 som riksbibliotekarie Karin Grönvall tog beslut om att permanenta labbet, som sedan dess är en del av KB:s ordinarie verksamhet. Efter en tid började tankarna gro kring hur labbet skulle kunna stödja biblioteket internt. KB-labb började skapa olika prototyper, bolla dem med kollegor ute i verksamheten, för att sedan fortsätta att utveckla dem igen.
– AI kan uppfattas som väldigt abstrakt, men när man får ta del av en prototyp kan man börja tänka kring möjligheter. Bara att förstå hur AI fungerar tror jag skapar ett intresse, säger Emma Rende.
Till exempel har KB en samling om cirka 600 000 vykort, varav ungefär 17 000 är digitiserade. Utifrån de senare skapade labbteamet tillsammans med KB:s utvecklare ett verktyg som släpptes i dagarna, där det går att skriva in vad för sorts vykort man söker efter. Vykortspiloten, som de kallar den, har nu färdigt licensavtal och är det första verktyget som KBx lanserar.
– Nu kan man söka fram en svartvit bild av en kyrka i snö. I det här finns det så mycket potential, både för personalen och slutanvändarna, säger Emma Rende.
Så tränar KB-labb språkmodeller
- För att få fram tillförlitliga språkmodeller på svenska tränar KB-labb dem från grunden. Det går förenklat ut på att man gömmer vissa ord för modellen så att den utmanas att förutse dem och hur de ska passa in i ett givet sammanhang.
- Modellerna tränas på superdatorer och på många grafikkort samtidigt. Labbets medarbetare förbereder datan som modellen ska träna på och ser till att det inte finns några duplikat, sedan går processen automatiskt.
- När alla parametrar kalibrerats har man en modell med en generell språkförståelse som kan användas för till exempel textklassificering. En bra grundtränad språkmodell kan också vidaretränas för att lösa nya uppgifter.
Ett annat projekt som pågår inom ramen för KBx fokuserar på lokalradiosändningar, där det kanske inte ens finns en tablå för vad som sänts.
– Transkriberingen av radiosändningarna är ett sätt att tillgängliggöra ett material som är så stort att ingen kan lyssna igenom det på en livstid, säger Faton Rekathati.
Precis som när det gäller vykorten har labbteamet också arbetat nära KB:s samlingsexperter. När de tränat de så kallade tal-till-text-modellerna har de till exempel bollat om det är viktigast att den transkriberade texten blir enkelt läsbar, där bland annat interpunktion läggs till och upprepningar tas bort, eller om det är viktigare att det står exakt vad som sagts.
– Det är sådana diskussioner som måste till, säger Faton Rekathati.

Med KBx:s nya bildbaserade sökverktyg för vykort går det att söka fritt i samlingar som tidigare i stora delar inte varit beskrivna.
Foto: Rebecka Gordan
Namnet KBx har ingen särskild betydelse, utan kom från en visionsworkshop om hur KB skulle kunna arbeta mer utforskande utifrån KB-labbs förmågor och bibliotekets samlingar.
– Kanske kan man tänka att X står för explorativt? funderar Emma Rende.
Klart är att teamet inte vill jobba i något på förhand utformat massivt projekt – i stället föredrar de korta cykler utan start- och slutdatum för sina utforskande satsningar.
– Man gör en version, har ett möte med samlingsexperten, får feedback och gör en ny version. Det är så jag är van att arbeta: friare, där man lär sig på vägen. Jag tror att man kan experimentera mer på det sättet, säger Faton Rekathati.
Även Emma Rende ser stora fördelar med arbetssättet som KBx för med sig. I en nära framtid hoppas hon att piloterna kan tas vidare in i bibliotekets ordinarie systemmiljö, och det i en större skala.
– En fördel med att jobba tillsammans, som vi gör inom KBx, är att våra bibliotekarier och handläggare lär sig om AI och språkmodeller – medan vi inom labbet lär oss om samlingarna; hur datan ser ut och vilka problem som finns. Och det är vad vi behöver för att göra bra modeller för framtiden.
KBx är helt nytt. Vad med satsningen tycker du är roligast?
– Dels så går det fort, dels händer det mycket på det här området och sedan tar vi fram saker som faktiskt betyder någonting. Vi pratar mycket om demokratisering av AI, det tycker jag är väldigt fint. Att vi gör det möjligt för Sverige att hänga med i den här utvecklingen, säger Emma Rende.
KB-labb
- KB-labb är en nationell infrastruktur för datadriven forskning med fokus på AI i ett bibliotekssammanhang. Sedan starten 2019 kan forskare och forskargrupper med hjälp av labbet bedriva storskalig kvantitativ forskning på KB:s digitala samlingar av text, ljud, bild och video.
- KB-labb bedriver också egen forskning och samverkar både nationellt och internationellt med andra labbmiljöer inom digital humaniora, artificiell intelligens och maskininlärning.
- Omkring tolv personer fördelat på åtta heltidstjänster arbetar på labbet. En av dessa tjänster är numera dedikerad till KBx, ett initiativ för att lyfta in labbets kompetenser och innovationer i bibliotekets ordinarie verksamhet.