Hoe kunnen full text search en machine learning helpen bij het delen en zoeken van open leermaterialen?

SURF onderzoekt slimme technieken die het delen en vinden van open leermaterialen vergemakkelijken. In 2018 verkenden we de mogelijkheden van machine learning door middel van een proof of concept (PoC). In deze blogpost lees je onze eerste bevindingen en vertellen we wat er in 2019 op het programma staat.

We zijn onze verkenning gestart met het in kaart brengen van de huidige stand van semi-automatische metadatering. Hoe kan machine learning ondersteunen bij het metadateren? We gingen daarvoor in gesprek met experts op het gebied van machine learning, zoekindexen en tekstanalyse. Een aantal van de experts  die we spraken menen dat full text search inmiddels zo goed is, dat het weinig zin heeft om geautomatiseerd metadatavelden in te vullen.

Full text search

Met full text search worden de zoekresultaten niet gebaseerd op metadata, maar op de inhoud van het bestand. Een zoekindex bouwt een lijst op met alle woorden van alle documenten. Bij het uitvoeren van een zoekvraag wordt in die lijst gezocht naar de bestanden die de meeste woorden delen met de zoekvraag. Om meer ervaring op te doen met full text search heeft SURF als vervolgstap een PoC opgezet van een zoekindex voor het full text doorzoeken van digitale leermaterialen. Hier zijn we nog volop mee aan het experimenteren.

Combineren van verschillende microservices

Open leermaterialen komen voor in allerlei verschijningsvormen: er zijn bijvoorbeeld kennisclips, PowerPoint-presentaties, pdf’s, online e-modules, oefentoetsen en ongetwijfeld vele andere vormen. Om full text search mogelijk te maken, moet er een basis-infrastructuur komen die met al deze varianten om kan gaan. Daarom werken we met microservices: losse softwarecomponenten die elk gespecialiseerd zijn in één taak.

Om een bestand op te nemen in de zoekindex zal het, afhankelijk van het bestandstype, door verschillende microservices geanalyseerd en doorzoekbaar gemaakt moeten worden. Op bijvoorbeeld een kennisclip zal eerst spraakherkenning moeten worden toegepast, terwijl bij een pdf deze stap kan worden overgeslagen. Door te werken met microservices is de software makkelijker te onderhouden en kunnen we in de toekomst snel experimenteren met nieuwe modules of nieuwe functionaliteiten toevoegen.

Spraaktechnologie

Om full text search van video- en audiobestanden mogelijk te maken, moeten deze bestanden omgezet worden in tekst en daarvoor is een sterke spraakherkenningcomponent nodig. Gelukkig is op dat vlak al veel machine-learningsoftware beschikbaar. We zijn aan de slag met Kaldi, Nederlandse spraakherkenningssoftware die onder andere wordt gebruikt in de Tweede Kamer. Het grote struikelblok voor spraakherkenningssoftware is jargon, woorden die in algemene taalgebruik weinig frequent voorkomen. Door Kaldi te ‘trainen’ met leermaterialen die bij elkaar horen, hopen we de nauwkeurigheid van de spraakherkenning te vergroten. Stel dat bijvoorbeeld naast de video van een hoorcollege ook de slides geüpload zijn, dan kan de spraakherkenningssoftware zich aan de hand van de woorden en afkortingen die voorkomen in de slides, voorbereiden op wat hij in de video zal aantreffen.

Wat zijn de vervolgstappen in 2019?

In 2018 hebben we de basis gelegd voor een zoekinfrastructuur met een full text search index en microservices die nodig zijn voor het doorzoekbaar maken van het leermateriaal. De softwarecomponenten werken nu nog onafhankelijk van elkaar. In 2019 gaan we ze aan elkaar koppelen, zodat de losse componenten met elkaar samenwerken. Zo willen we toewerken naar een zoekportaal voor open leermaterialen die full text search en het gebruik van metadata combineert. Meer informatie over het zoekportaal en onze activiteiten in 2019.

Meedoen?

Dit voorjaar komt een zoekportaal voor open leermaterialen beschikbaar als bètadienst. We stemmen de ontwikkeling van dit zoekportaal nauw af met een klankbordgroep van experts uit het onderwijsveld. Wil je ook betrokken zijn bij deze ontwikkelingen? Neem dan contact op met kirsten.veelo@surfnet.nl

Met dank aan: Antal van den Bosch (Meertens Instituut, Arjan van Hessen (Universiteit Twente), Djoerd Hiemstra (Universiteit Utrecht, Universiteit Twente), Sylvia Moes (Vrije Universiteit), Roeland Ordelman (Nederlands Instituut voor Beeld en Geluid), Richard Zijdeman (Radboud Universiteit)  

Author

Comments

Dit artikel heeft 0 reacties