Nogle bakterier kan direkte sprøjte proteiner ind i andre celler for at inficere dem. Det gælder fx klamydia, salmonella og listeria. Videnskaben har ganske godt styr på, hvordan indsprøjtningsfunktionen fungerer – men man ved mindre om, hvilke proteiner der bliver injiceret, og hvilke signaler de giver cellen.
Det forsøger et DeiC pilotprojekt nu at afdække.
"Vi bruger maskinlæringsbiblioteket TensorFlow, som Google for nylig har frigivet. Det blev installeret for os på Computerome, hvor det tekniske team svarede på vores ønske i løbet af en times tid. Det var ganske let at få op at køre," fortæller ekspert i maskinlæring Peter Bork fra Center for Biologisk Sekvensanalyse ved Danmarks Tekniske Universitet.
Han programmerer løsningen i Python, der kalder funktioner i TensorFLow.
To typer neurale netværk
Projektet anvender to typer neurale netværk til at skabe en model af proteinerne. Formålet er at identificere signalsekvenserne.
Det neurale netværk er enten af typen CNN (Convolutional Neural Network) eller LSTM (Long Short Term Memory Networks). LSTM er kendetegnet ved, at enhederne i netværket kan lære af erfaringen og gradvist opsamle mere information.
Computeromes størrelse med over 16.000 processorkerner er afgørende for, at projektet kan lade sig gøre.
"For at kunne lade et neuralt netværk oversætte en proteinsekvens til en proteinfunktion er der typisk brug for mange eksempler. Netværket skal lære fra mange måder at lave den samme funktionalitet på. Derfor er der brug for en stor computer, så vi kan sikre, at alle eksemplerne kan behandles af computeren mange gange," siger professor Søren Brunak, Københavns Universitet, Rigshospitalet og DTU.
Som at læse en bog
LSTM-netværket bruger samme teknologi, som anvendes til oversættelse af tekst.
"Algoritmen læser proteinsekvenser på samme måde, som vi læser bøger. DeiCs pilotprogram har været en game changer. Uden den her computerkraft ville det have været umuligt for os at bruge maskinlæring til opgaven," siger Peter Bork.
Han venter, at projektet kan opnå to ting takket være Computerome:
"For det første kan vi måske identificere, hvordan de her proteiner rent faktisk fungerer. Og for det andet kan vi genbruge den kode, vi har udviklet i projektet, i lignende projekter med klassificering af proteiner," siger han.
Se mere om projektet i videoen.