dCache: astronomisch veel data en grote plannen

Ruim 50 petabytes hebben Nederlandse en buitenlandse wetenschappers inmiddels opgeslagen in ons Grid Storage systeem, aangedreven door de dCache software. Dat is 50.000.000.000.000.000 bytes. Als je dat op CDROM zou zetten, krijg je een stapel van 81 km hoog, en dat is zonder de jewel cases. Als een byte 1mm zou zijn, is 50 petabyte genoeg om naar Neptunus te gaan, en terug, en dat vijf en een half keer. Of je kunt er 1.250.000 keer mee de aarde rond.

Grafiek met aantal bytes
Zondagavond 24 maart 2019: de 50 biljardste byte

Een deel van deze bytes heeft CERN gebruikt om de Higgs boson en andere elementaire deeltjes te ontdekken. LOFAR heeft er 300.000 nieuwe sterrenstelsels mee ontdekt. Project MinE verzamelt 20.000 DNA scans om de oorzaken van de motorische ziekte ALS te achterhalen. Tropomi slaat spectrumfoto‘s op die de grote vervuilers van de atmosfeer in kaart brengen:

Wereldkaart met NO2 concentraties
Tropomi-kaart van NO2 (stikstofdioxide), een maat voor luchtvervuiling

Ruim tien jaar oud is de Grid Storage. Klein begonnen, met enkele servers, voor de Tier1-activiteiten voor de CERN experimenten Atlas, Alice en LHCb. In de loop van de tijd is het storage cluster uitgebreid tot 140 servers, waarvan de meeste zo‘n 80 terabyte kunnen opslaan op disk; enkele servers zelfs 380 terabyte. Maar daarmee zijn we er nog niet: de beide tape libraries zorgen voor de opslag van de grootste bulk aan data. In het afgelopen jaar is er 10 petabyte bijgekomen. Goede netwerkverbindingen tussen de Grid Storage en Gina, het Grid compute cluster, zorgen ervoor dat de enorme hoeveelheden data met een enorme snelheid verwerkt kan worden. Het gemeten record over één dag was 1,3 petabyte aan doorvoer. Pieksnelheden liggen tegen de 55 gigabyte per seconde. Het gebeurt zelden dat het netwerkgebruik tot onder de 1 gigabyte per seconde zakt.

Grafiek met snelheden
En toen werd het best wel druk. Tier1 cluster is een oude naam voor de Grid Storage, uit de tijd dat het werd opgezet voor CERN, waarvoor wij een Tier1 site zijn.

Eenvoudig data delen met Macaroons

Maar de ontwikkelingen staan niet stil. Inmiddels hebben velen kennis kunnen maken met twee andere mooie storagediensten: SURFdrive en ResearchDrive, beide gebaseerd op ownCloud. SURFdrive is een soort Dropbox voor onderwijsmedewerkers; ResearchDrive is een vergelijkbare dienst voor teams van wetenschappers. Een van de pluspunten van zowel SURFdrive als ResearchDrive is het veilig en makkelijk kunnen delen van data met anderen. Vanuit de gebruikers merken we dat daar behoefte aan is. Maar de vele data van dCache naar ownCloud verplaatsen is niet praktisch, alleen al omdat in dCache bestanden met een grootte tot wel 3 terabyte staan; daar kan ownCloud niet mee omgaan. dCache heeft een enorme omvang en bandbreedte die de capaciteiten van SURFdrive en ResearchDrive overstijgt. Gelukkig hebben de dCache developers niet stil gezeten. Ze hebben in dCache nu ook het eenvoudig delen van data mogelijk gemaakt. Daarvoor hebben ze een idee van Google overgenomen: Macaroons.

Screenshot van een webpagina
Data lezen met een browser via WebDAV

Een Macaroon is een token, dat een dCache gebruiker kan verkrijgen van dCache, en aan een ander geven, die met dat token toegang krijgt tot een directory of een file. De gebruiker geeft daarbij aan wat er wel en niet mag gebeuren. Zo kan de gebruiker aangeven dat de ander alleen mag lezen, of juist mag lezen en schrijven. De gebruiker kan ook een einddatum opgeven, en aangeven dat de ander alleen vanaf bepaalde IP-adressen de data mag gebruiken. De ander hoeft geen account te hebben; alleen maar een WebDAV client die kan omgaan met Macaroons, en daarvan zijn er meerdere. Een aantrekkelijke is Rclone, een Rsync-achtig programma dat via WebDAV parallel met dCache kan communiceren. Toen de developer van Rclone hoorde over onze plannen, heeft hij nog dezelfde dag ondersteuning voor Macaroons ingebouwd in zijn software.

Als eerste gebruikersgroep is Project MinE begonnen met het gebruik van Macaroons. Project MinE heeft een bijzondere uitdaging: er zijn 20 landen en nog meer teams bij betrokken, wat een laagdrempelige manier van werken noodzakelijk maakt. Vele instituten dragen bij door hun DNA scans van ALS-patiënten te uploaden; andere gebruikers moeten juist de mogelijkheid krijgen om één of meer datasets te downloaden. Met Macaroons kunnen de datamanagers bij UMC Utrecht zelf het delen van de data managen, zonder dat wij dat voor ze hoeven te regelen. Een oplossing waar iedereen blij van wordt.

Een volgend project waarbij Macaroons nuttig kunnen zijn is Lofar. Lofar heeft nu een download server die een of meerdere files aanbiedt aan een gebruiker, die via een portal toestemming heeft gekregen. In de toekomst kan die gebruiker met een Macaroon zelf de data ophalen uit dCache. Daarmee wordt de download server overbodig en ontstaat een oplossing die de enorme schaalbaarheid van dCache benut.

Grafiek met dCache activiteit in bytes/s
Een dag in het leven van dCache

Nog meer verbeteringen

De dCache ontwikkelaars zijn van plan een soortgelijke techniek te implementeren die het werken in een federatieve omgeving makkelijker maakt: SciTokens. Maar het zal nog even duren voordat we daarover beschikken; deze functionaliteit moet nog in dCache geprogrammeerd worden.

Een andere wens van veel gebruikers is om integriteit van data te checken met MD5 checksums. Nu doet dCache dat al met Adler32 checksums. Maar nu al kunnen we, indien een gebruikersgroep dat wenst, voor hen overstappen op MD5 checksums. dCache bewaart deze dan in zijn database en de gebruiker kan ze vliegensvlug opvragen.

Nog een verbetering die we verwachten: betere NFS ondersteuning. dCache biedt op dit moment NFS deuren aan, waarmee de storage van dCache met een NFS client gekoppeld kan worden. Dit opent in principe de mogelijkheid om de data weer op andere manieren, zoals SCP, toegankelijk te maken. Maar op dit moment is die NFS ondersteuning onvolledig. Bestanden wijzigen gaat bijvoorbeeld niet; in feite is dCache een WORM (write once, read many) storage systeem. Er zijn echter wel heel veel applicaties die een filesysteem verwachten dat ook operaties ondersteunt zoals het wijzigen van een file. De dCache ontwikkelaars beseffen dat en werken aan een “NoWORM” optie waarmee dCache nog meer op een normaal filesysteem gaat lijken.

In al die jaren heeft dCache een flinke ontwikkeling doorgemaakt. Waar het in het begin nog moeilijk toegankelijk was, slechts met een Grid proxy certificaat, is het uitgegroeid tot een veelzijdig systeem. Waar gebruikers voorheen dagen doorlooptijd hadden voordat ze ermee konden werken, kan het nu in enkele minuten worden geregeld. Je kunt dCache zelfs koppelen op je mobieltje.

Meme van iemand met een uitvergrote iPhone en tekst: I haz iphone with 50 petabytez

Auteur: Onno Zweers onno.zweers@surfsara.nl, senior systems programmer bij SURFsara

 

 

Auteur

Reacties

Dit artikel heeft 0 reacties