Full text search voor het zoekportaal open leermaterialen

In de vorige blogpost over dit onderwerp las je al over de projecten die we bij SURF doen om het zoeken in open leermaterialen makkelijker te maken, zodat je sneller de materialen vindt die je kunt gebruiken voor je eigen onderwijs. Daar kondigden we ook full text search aan als methode om dat te bereiken. Inmiddels hebben we op dat gebied een uitgebreide verkenning gedaan, die we eind 2019 hebben afgerond. Welke resultaten liet die verkenning zien? Is full text search goed genoeg voor het zoekportaal open leermaterialen dat we bij SURF aan het ontwikkelen zijn?

Een klein stukje achtergrond over open leermaterialen

SURF wil het onderwijs verbeteren door uitwisseling van digitale leermaterialen onder een open licentie (open leermaterialen) te faciliteren. Hierdoor kunnen docenten de materialen vinden en hergebruiken in het eigen onderwijs. Leermaterialen worden nu doorzoekbaar gemaakt met behulp van EduRep, de zoekmachine van Kennisnet. EduRep maakt materialen vindbaar door de zoekvraag van een gebruiker te vergelijken met metadata die handmatig zijn toegevoegd aan de materialen.

Het handmatig aanleveren van die metadata is tijdrovend en foutgevoelig voor docenten en andere medewerkers van onderwijsinstellingen. Daarom is het project Open Leermaterialen begin 2019 een verkenning gestart naar een andere techniek om leermaterialen te doorzoeken en vindbaar te maken voor docenten: full text search. Levert dat goede resultaten op, dan kunnen we full text search ook toepassen in het zoekportaal open leermaterialen dat we aan het ontwikkelen zijn.

Full text search maakt materialen vindbaar door de zoekvraag van de gebruiker te vergelijken met alle woorden in de materialen. Het voordeel is dat er veel minder metadata nodig zijn om een materiaal doorzoekbaar te maken.

Hoe goed werkt full text search?

De belangrijkste vraag die wij in onze verkenning wilden beantwoorden was: hoe goed werkt zoeken in full text ten opzichte van (en in combinatie met) zoeken in metadata?

We hebben beide vormen van zoeken met elkaar vergeleken door een set leermaterialen te laten doorzoeken door een aantal docenten, met de zoekmachine ElasticSearch. We hebben daarvoor een testset samengesteld van 7.417 open leermaterialen uit verschillende bronnen, zoals WikiWijs Maken, Leraar24, de Stimuleringsregeling open onderwijs van SURF en de Library4Learning van de WUR.

In de testset zaten zowel tekstmaterialen als videomaterialen. Om de tekst te extraheren uit de tekstmaterialen, hebben we de open-sourcesoftware Apache Tika gebruikt. Extractie van tekst uit videomaterialen levert een extra uitdaging op: we moesten de gesproken tekst eerst omzetten in geschreven tekst (transcriberen) om de video doorzoekbaar te maken. In dit onderzoek hebben we daarvoor de open source spraakherkenningssoftware Kaldi gebruikt.

We vroegen 7 docenten om in onze testset op zoek te gaan naar leermaterialen die voor hen relevant zouden kunnen zijn. De docenten hebben de gevonden zoekresultaten vervolgens gescoord op relevantie in een speciaal daarvoor ontwikkelde interface.

Een screenshot van de ranking interface
De ranking interface

In de volgende stap hebben we de zoekopdrachten van de docenten nogmaals uitgevoerd. Daarbij lieten we (automatisch) zoeken in verschillende combinaties van full text, titel en trefwoorden; elke zoekcombinatie leverde een iets andere ranking van zoekresultaten op.

De automatisch gegenereerde rankings hebben we vergeleken met de ranking van de docenten. Zo konden we de gegenereerde rankings scoren op correctheid, en wisten we dus hoeveel de full text en de verschillende metadata (titel, trefwoorden) bijdragen aan een goed zoekresultaat.

Full text search levert goede resultaten op

Deze grafiek laat goed zien dat dat het beste zoekresultaat geleverd wordt als we zoeken in de titel en de full text. De zoekresultaten worden een stuk slechter als we niet zoeken in de full text (de laatste drie kolommen).

Grafiek met nDCG waardes
nDCG waardes voor de verschillende combinaties

Op basis van dit resultaat hebben we besloten verder te gaan met de ontwikkeling van full text search als basis voor het zoeken in het zoekportaal voor open leermaterialen.

Automatische transcriptie van video's

We hebben in deze verkenning ook gekeken of het automatisch transcriberen van video's goed genoeg gaat om goede zoekresultaten op te leveren. In ons onderzoek ging bij de transcriptie van een video meer dan de helft van de woorden fout. Mogelijke oorzaken zijn slechte audiokwaliteit of taalgebruik dat niet overeenkomt met het gebruikte taalmodel. Een taalmodel is een verzameling woorden en woordcombinaties dat Kaldi gebruikt om video’s met vakjargon beter te transcriberen. Maar hoewel de automatische transcripten niet heel goed zijn, voegen ze wel degelijk veel waarde toe voor het vindbaar maken van video’s. Daarom gaan we in het vervolgtraject niet inzetten op het maken van 'perfecte' transcripties voor bijvoorbeeld ondertiteling, maar gebruiken we de automatisch door Kaldi gegenereerde transcripten.

Waar staan we nu?

We willen het zoekportaal voor open leermaterialen begin 2021 in productie nemen. We zijn al bezig om het zoekportaal productierijp te maken. En natuurlijk nemen we full text search erin op, nu uit deze verkenning blijkt dat dat zulke goede resultaten oplevert.
We voeren dit jaar ook een pilot uit met het zoekportaal, zodat we alle functionaliteiten goed kunnen testen voordat we in productie gaan.

Meer weten?

Alle informatie over het zoekportaal open leermaterialen

Wil je alle ins en outs weten van deze verkenning? Heb je goede ideeën voor het zoekportaal? Mail me dan op jelmer.deronde@surfnet.nl

 

Auteur

Reacties

Dit artikel heeft 0 reacties

Gerelateerde artikelen