Vi har flere gange meldt ud, at nu skulle det være i orden, fordi det var de meldinger, vi har fået - men det har desværre vist sig ikke at holde.
Den korte melding er nu, at der arbejdes - døgnet rundt - på at få det i orden igen, og at vi håber på at være i mål mandag morgen (den 15. marts). Givet historikken og problemernes natur, er det dog ikke noget vi tør love.
Meldingerne om den helt aktuelle status for tjenesten sender vi ud via Serviceinfo.dk, fra dag til dag, og fra time til time, hvis der er nyt.
Baggrund
NORDUnet driver, for de nordiske forskningsnet, en central Kaltura-tjeneste, som DeiC har udbudt siden 2018. Her under Covid-krisen er forbruget steget i størrelsesordenen 10 gange. Det er således verdens største ’on-premise-installation’ af Kaltura.
En af styrkerne i Kaltura er, at der er en central database, som styrer alle de materialer, der forvaltes af tjenesten. Den var ved at være så stor, at det i sig selv skabte performance-problemer, og efter råd fra Kaltura, splittede man den i efteråret 2020 op i to halvdele, en med materialerne og en med statistik.
Det virkede som det skulle, bortset fra den fejl, at administratorerne på institutionerne ikke længere kunne se hvor mange gange den enkelte video var blevet set. For at rette op på det satte Kaltura-supporten (uden at informere NORDUnet) fredag den 5. marts et script i gang, som skulle rette op på dette og få statistik-tallene ind i Kaltura Management Console igen. Dette script havde imidlertid den sideeffekt, at index-databasen blev bragt ud af synkronisering.
De problemer, som alt dette havde skabt inde i Kaltura, blev først synlige da brugen af tjenesten igen tog fart mandag morgen, og viste sig i første omgang mest som performance-problemer. Efter råd fra Kaltura blev import-scriptet stoppet.
Kalturas råd om hvordan index-databasen igen skulle rettes op var herefter at tage den ene index-server ud af rotation og kopiere databasen fra den til de øvrige. Hver gang man skal foretage sådan en operation, går der mange timer, fordi det er så store datamængder, der er tale om og derfor tog det en del timer at konstatere, at det heller ikke løste problemet.
Tirsdag startede Kaltura i stedet et script, som skulle rette op på databasen. Igen tager sådan en operation lang tid, hvilket var forklaringen på at man havde afsøgt andre muligheder først. Sync-scriptet fejlede imidlertid på et tidspunkt, og efter fælles fejlsøgning (NORDUnet og Kaltura), kunne man starte en ny udgave af scriptet senere på dagen.
Onsdag gav Kaltura det råd at sprede belastningen mere ved at indsætte yderligere tre Kaltura Media Space-servere for at forbedre brugeroplevelsen. Det fik NORDUnet sat i produktion samme dag.
Torsdag gav Kaltura også råd om at indsætte en ekstra indexing-server. Det skete også samme dag.
Kaltura har nu udviklerhold til at arbejde i to-holds skift på en løsning af problemerne, og det er der ikke så meget andet at gøre ved, end at afvente.
I mellemtiden er det blevet indskærpet meget tydeligt over for Kaltura, at scripts og andre support-operationer på installationen ikke må foretages uden først at være blevet evalueret og godkendt af NORDUnet - uanset hvor trivielle eller uproblematiske de måtte forekomme Kaltura at være.
Alle parter arbejder nu mod, at der er bragt orden i sagerne, når vi kommer tilbage mandag morgen. Men vi har at gøre med udviklerhold, som skal finde og rette softwarefejl samtidig med, at stort set enhver operation man ønsker at teste på installationen tager en betydelig tid fordi datamængderne er så store. Derfor er det ikke muligt at love resultater til en helt bestemt tid.
Status meldes løbende ud via serviceinfo.dk hvor Kaltura har sin egen kanal.
Rimelige forventninger
Hele dette forløb, og den måde tjenesten har kørt på den seneste uge, lever bestemt ikke op til de generelle normer, vi normalt har for drift af denne her slags tjenester.
Men vi er ikke i en normal situation. På mange måder erobrer vi nyt land her. Undervisning på distancen har eksisteret i mange år men at inkludere video så massivt både via Zoom og Kaltura/Panopto/MediaSite, som det sker her og i den skala, er ikke set før - heller ikke ude i verden.
Stort set alle leverandører af software og driftsydelser på det her område har haft problemer fra tid til anden under Covid-tiden. Det har vi både set med de ting, vi selv udbyder i DeiC og med de ydelser, man kan købe kommercielt og som er hostet i internationale cloud-miljøer.
Disse serviceplatforme er ikke noget man bare installerer, driver og modtager softwareopdateringer til. Så snart der er tale om skalering i stor størrelse, kræves et vedvarende og nært samarbejde mellem softwareudviklere og driftsoperatører. Meget af den software, der kører de her tjenester er udviklet til nogle andre brugsscenarier og skalerer ikke alle lige elegant - uanset hvem de er og uanset hvilen driftsleverandør, der er tale om.
Så tænker man måske, at vi bare kunne køre disse tjenester hver for sig i mange små installationer. Ud over at det ville blive væsentligt dyrere, end det er i dag, er det oftest ikke en mulighed. Udbyderne understøtter ikke længere individuelle installationer, men tilbyder som oftest kun
ydelserne leveret fra deres egen cloud-service, hvor de i øvrigt også oplever de samme slags skaleringsproblemer, som er anledningen til denne artikel.
Vi skal helt sikkert gøre vores yderste for at sikre stabil drift, men på samme måde som det tager tid at bygge nye vejbaner på en overbelastet motorvej, må vi desværre også indstille os på "vejarbejde" nu og da medens software og infrastruktur bliver bragt til at skalere med op til en faktor 200, som det er sket med nogle tjenester her under pandemien.
Set over et stykke tid, her under Covid-tiden, er der ingen leverandør af videotjenester og –drift, som kan sige sig helt fri for problemer. Det samme gælder i øvrigt teleoperatører.
Vi har bare været velsignede med, at vi ikke har haft nogen alvorlige problemer med Forskningsnettet eller Zoom endnu, og det kommer vi hele tiden til at sammenligne med - men den sammenligning er nok ikke retfærdig. Forskningsnettet og Zoom er ikke normen - det er altså undtagelsen her i denne verden.
Martin Bech
Chef for Forskningsnettet