Pilotstudy “spraak naar tekst”

Vanuit het onderdeel metadata en docentondersteuning is sinds vorig jaar zomer gewerkt aan inventarisatie van open leermaterialen bij een aantal HO- en WO- instellingen. Daaruit bleek dat het merendeel van deze materialen bestaat uit videomateriaal. Wat overigens overeenkomt met een eerder onderzoek dat in 2016 is uitgevoerd door Robert Schuwer en Ben Jansen, “Open Educational Resources en MOOC’s in het Nederlandse Hoger Onderwijs”. In dat onderzoeksrapport wordt een percentage van 79% videomateriaal genoemd, waarvan 47% weblectures (deze zie je terug in de Infographic die je kunt downloaden op deze pagina - rechts).

Bij de inventarisatie van de open leermaterialen ontdekten wij ook dat de toegekende metadata vrij beperkt zijn. Het materiaal is daardoor niet altijd even makkelijk terug te vinden. Handmatig toekennen van meer metadata is een tijdrovende klus. 

Om die reden hebben wij een verkenning gedaan naar de mogelijkheden van spraakherkenning. Er zijn de laatste jaren flink wat tools voor ontwikkeld, zoals bijvoorbeeld: Google Speach, Vocapia, Kaldi, SpeechMatics, Politrans en Chielo24.

Pilotstudy

In onze pilotstudy hebben wij vooral gekeken wat de kwaliteit is van automatische transcriptie (spraak naar tekst). En dan met name hoe belangrijke begrippen/kernwoorden in de tekst worden omgezet.

Om een voorbeeld te noemen: woorden zoals dementie, ouderenbeleid, ouderenzorg etc.

We zijn gestart bij de domeinen “verpleegkunde en anatomie”. Vanwege de projecten die lopen vanuit de stimuleringsregeling en het Boegbeeldproject. 

Van die twee domeinen zijn verschillende soorten videomateriaal bekeken: materiaal dat door professionals is geproduceerd, materiaal dat door instellingen is geproduceerd en materiaal dat door docenten en studenten is geproduceerd. 

Daarbij viel een aantal zaken op:

  • meerdere mensen aan het woord in 1 video, is wat lastig. Door de wisseling van stemniveau moeten systemen snel schakelen, en dat is een uitdaging.
  • mensen die erg snel spreken en zaken afraffelen in de tekst, of gedeeltelijk inslikken, (ook al zijn zij alleen aan het woord), is lastig om te herkennen
  • vrouwenstemmen worden over het algemeen beter herkend, vanwege het hogere stemgeluid.
  • videomateriaal geproduceerd door studenten en docenten kan lastig zijn, vooral door de beperkte audiokwaliteit van het bronbestand.
  • Namen worden niet herkend.
  • Engelstalige video's scoren algemeen beter op spraakherkenning

Uitkomsten:

User generated content komt niet boven de 50% correctheid, terwijl de overige content tussen de 50 en 85% correctheid scoort. Bij Engelstalige video’s ligt het percentage juistheid tussen de 70-85%.

In het algemeen zouden wij adviseren: “bevat het bronbestand geen goede kwaliteit audio, lever het dan niet aan voor transcripties”.

Bijeenkomst

Er wordt een bijeenkomst georganiseerd door de werkgroep Bibliotheken, Open en Online Onderwijs, SURFnet en de SIG Media&Education waarin wij meer ingaan op de details van onze pilotstudies, de werkwijze die is gehanteerd en het onderzoek dat wordt gedaan door SURFnet (om op basis van getranscribeerd materiaal metadata toe te kenenn aan videobestanden). 

Voor een idee van dit onderzoek: zie de blogpost van Jelmer de Rond van SURFnet.

Zodra er meer bekend is over deze bijeenkomst berichten wij hierover op deze omgeving.

Author

Comments

Dit artikel heeft 0 reacties