Nieuwe inzichten in je netwerkverkeer met artificial intelligence

De afgelopen maanden hebben we onderzocht hoe artificial intelligence (AI) gebruikt kan worden om nieuwe inzichten te verkrijgen in het SURF-netwerk. Op basis van data uit het verleden zijn we in staat om tot een jaar vooruit voorspellingen te doen over de belasting van de netwerkverbindingen van onze leden. In dit blog lees je meer over ons onderzoek, en de manieren waarop we de resultaten willen verwerken in onze dienstverlening.

Als lid van SURF kun je in het Netwerk Dashboard al enige tijd inzicht krijgen in de diensten SURFlichtpaden en SURFinternet, via grafieken, statusupdates en verkeersstatistieken. Om deze inzichten te genereren wordt het SURF-netwerk continu gemonitord; statistische data over onder meer de belasting van het netwerk worden periodiek uitgelezen en opgeslagen. Met deze meetdata kunnen we een historisch overzicht genereren van het verloop van de hoeveelheid netwerkverkeer per instelling.

Binnen SURF hebben we een proof of concept uitgevoerd om te onderzoeken op welke manier AI ingezet kan worden om het toekomstig verloop van het in- en uitgaand netwerkverkeer te voorspellen, op basis van historische data. Eerder onderzoek van de BIT-students en een interne hackathon lieten vorig jaar het potentieel zien van de inzet van AI-tools op netwerkstatistieken.

Herhalende patronen herkennen

Om te begrijpen hoe AI hierbij van nut kan zijn, kunnen we het beste kijken naar een willekeurige week aan netwerkverkeer van een onderwijsinstelling:

Verloop van het in- en uitgaand netwerkverkeer van een instelling gedurende de week
Verloop van het in- en uitgaand netwerkverkeer van een instelling gedurende de week

Wanneer we de observaties visualiseren in een grafiek vallen er een aantal patronen op. Bij de eerste oogopslag zien we een duidelijk verschil tussen werkdagen en het weekend. Als we naar de individuele dagen kijken valt op dat de ‘piekuren’ in het netwerkverkeer meestal tussen 09.00 en 18.00 uur liggen, met een dip rond het middaguur. ’s Avonds is ook een kleine toename zichtbaar.

Hetzelfde kan gedaan worden op een grotere tijdsschaal, bijvoorbeeld over een heel studiejaar. Dan zien we dat vakantieperiodes en feestdagen voor een sterke afname in het netwerkverkeer zorgen, terwijl de piek in het netwerkgebruik meestal in september ligt. Ook gebeurtenissen die per instelling wisselen, zoals tentamenweken, kunnen invloed hebben op het netwerkverkeer.

Van verleden naar toekomst

Op basis van al deze patronen zouden we zelf een grove schatting kunnen maken van het verloop van het netwerkverkeer tijdens het komende studiejaar. Een handmatig en langzaam proces, dat keer op keer herhaald zal moeten worden wanneer nieuwe informatie beschikbaar is. Al deze stappen kunnen echter ook uitgevoerd worden door slimme, zelflerende AI-oplossingen die op eenzelfde manier patronen proberen te herkennen in grote hoeveelheden historische data.

Meerdere cloudaanbieders binnen SURFcumulus bieden zogenaamde Automatic machine learning (AutoML) tools aan. Hierdoor kan het handmatig opbouwen en testen van een algoritme worden overgeslagen, normaal een tijdrovend aspect bij de ontwikkeling van AI-toepassingen. Enige vereiste voor deze AutoML-tools is een geannoteerde dataset. Nadat we deze dataset aan de AutoML-tool toevoegen, worden automatisch talloze verschillende machine learning modellen op de dataset toegepast. Het model dat de beste nauwkeurigheidsscores behaalt, wordt daarna geselecteerd om een voorspelling te genereren, die verder door netwerkspecialisten kan worden ingezet en geïnterpreteerd.

Visualisatie van de werking van een AutoML-tool (bron: Microsoft / SURF)
Visualisatie van de werking van een AutoML-tool (bron: Microsoft / SURF)

Binnen onze proof of concept hebben we het volgende geautomatiseerd:

  • de verzameling van historisch verloop van netwerkverkeer;
  • annotatie van de historische data;
  • het aanleveren van deze data aan een AutoML-tool;
  • verwerking van de door AutoML gegenereerde voorspelling.

Dit hele proces neemt gemiddeld iets meer dan 2 uur in beslag. Het genereren van een voorspelling in real-time is daardoor niet mogelijk, maar we kunnen bijvoorbeeld wel maandelijks een nieuwe predictie aanmaken, waarin de meest actuele netwerkstatistieken worden meegenomen.

Resultaat

Over het algemeen lukt het op deze manier om tot een jaar vooruit voorspellingen te doen. Analyse van de voorspellingen toont ook een overduidelijke trendbreuk, die sinds maart in gang is gezet door de gevolgen van het coronavirus. Breed gezien is het beeld dat de hoeveelheid ingaand verkeer bij instellingen toeneemt door het grote aandeel thuiswerkers. Aan de andere kant is het uitgaande verkeer sterk afgenomen, doordat de fysieke locaties van instellingen dicht zijn of gesloten zijn geweest.

Historisch (blauw/rood) en voorspeld toekomstig (groen/geel) netwerkverkeer van een instelling. Hierin is vanaf maart een duidelijk effect van de coronacrisis te zien
Historisch (blauw/rood) en voorspeld toekomstig (groen/geel) netwerkverkeer van een instelling. Hierin is vanaf maart een duidelijk effect van de coronacrisis te zien

De eerste experimenten met de onderzochte aanpak zijn positief. De nauwkeurigheid van de voorspellingen wisselt per casus. Als er genoeg historische informatie beschikbaar is, is het AI-model nauwkeurig genoeg om een bruikbare voorspelling te produceren. Wanneer er echter minder historische data beschikbaar is om mee te werken, zal de kwaliteit van de voorspelling vanzelfsprekend ook minder goed zijn.

De door AI gegenereerde voorspellingen kunnen gebruikt worden om tijdig ‘uitschieters’ zoals mogelijke DDoS-aanvallen, te detecteren, die boven de normaal geachte hoeveelheid netwerkverkeer uitkomen. Voorspellingen voor meerdere maanden en langer zijn geschikt om trends te herkennen, en bijvoorbeeld proactief in te spelen op een naderend capaciteitstekort. Op termijn kunnen we deze extra inzichten verwerken in het SURF Netwerk Dashboard, zodat gebruikers van het dashboard en netwerkspecialisten bij instellingen er zelf mee aan de slag kunnen gaan.

Ben je benieuwd op welke andere manieren we binnen SURF artificial intelligence gebruiken en onderzoeken? Bezoek dan vooral onze overzichtspagina, of lees het artikel in de nieuwste editie van SURF Magazine.

Author

Comments

Dit artikel heeft 0 reacties