DNA ma kluczowe znaczenie dla życia, a jej organizacja stanowi poważne wyzwanie naukowe. GROVER, model opracowany przez BIOTEC, dekoduje tekst podobny do DNA, co stanowi obiecujący postęp w genomice i medycynie spersonalizowanej.
DNA zawiera niezbędne informacje niezbędne do podtrzymania życia. Odszyfrowanie sposobu przechowywania i organizacji tych informacji było jednym z największych wyzwań naukowych ubiegłego stulecia. Teraz, dzięki GROVER, nowemu modelowi dużego języka wytrenowanego na ludzkim DNA, badacze mogą podjąć próbę rozszyfrowania skomplikowanych informacji ukrytych w naszym genomie. Opracowany przez zespół z Centrum Biotechnologii (BIOTEC) Politechniki Drezdeńskiej, GROVER traktuje ludzkie DNA jak tekst, poznając jego zasady i kontekst, aby wyodrębnić informacje funkcjonalne o sekwencjach DNA. Opublikowane w Inteligencja maszyny naturyto innowacyjne narzędzie może zrewolucjonizować genomikę i przyspieszyć medycynę spersonalizowaną.
Od czasu odkrycia podwójnej helisy naukowcy starają się zrozumieć informacje zakodowane w DNA. 70 lat później stało się jasne, że informacja ukryta w DNA jest wielowarstwowa. Tylko 1-2% genomu składa się z genów, sekwencji kodujących białka.
„DNA pełni wiele funkcji wykraczających poza kodowanie białek. Niektóre sekwencje regulują geny, inne służą celom strukturalnym, a większość sekwencji pełni wiele funkcji jednocześnie. Obecnie nie rozumiemy znaczenia większości DNA. Jeśli chodzi o zrozumienie niekodujących regionów DNA, wydaje się, że dopiero zaczęliśmy zarysowywać powierzchnię. Tutaj z pomocą może przyjść sztuczna inteligencja i duże modele językowe” – mówi dr Anna Poetsch, liderka grupy badawczej w BIOTEC.
DNA jako język
Duże modele językowe, takie jak GPT, zmieniły nasze rozumienie języka. Wytrenowane wyłącznie na tekście duże modele językowe rozwinęły umiejętność używania języka w wielu kontekstach.
„DNA to kod życia. Dlaczego nie potraktować go jak języka?” mówi dr Poetsch. Zespół Poetscha wytrenował duży model językowy na referencyjnym ludzkim genomie. Powstałe w ten sposób narzędzie o nazwie GROVER, czyli „Reguły genomu uzyskane poprzez wyodrębnione reprezentacje”, można wykorzystać do wydobycia znaczenia biologicznego z DNA.
„GROVER poznał zasady DNA. Jeśli chodzi o język, mówimy o gramatyce, składni i semantyce. W przypadku DNA oznacza to poznanie zasad rządzących sekwencjami, kolejności nukleotydów i sekwencji oraz znaczenia sekwencji. Podobnie jak modele GPT uczące się ludzkich języków, GROVER zasadniczo nauczył się „mówić” DNA” – wyjaśnia dr Melissa Sanabria, badaczka stojąca za projektem.
Zespół wykazał, że GROVER może nie tylko dokładnie przewidzieć następujące sekwencje DNA, ale można go także wykorzystać do wyodrębnienia informacji kontekstowych mających znaczenie biologiczne, np. identyfikacji promotorów genów lub miejsc wiązania białek w DNA. GROVER uczy się także procesów powszechnie uznawanych za „epigenetyczne”, tj. procesów regulacyjnych zachodzących na DNA, a nie kodowanych.
„To fascynujące, że ucząc GROVERa jedynie sekwencją DNA, bez adnotacji o funkcjach, jesteśmy w stanie wydobyć informacje na temat funkcji biologicznych. Dla nas pokazuje to, że funkcja, w tym część informacji epigenetycznej, jest również zakodowana w sekwencji” – mówi dr Sanabria.
Słownik DNA
„DNA przypomina język. Ma cztery litery, które budują sekwencje, a sekwencje niosą ze sobą znaczenie. Jednak w przeciwieństwie do języka DNA nie ma zdefiniowanych słów” – mówi dr Poetsch. DNA składa się z czterech liter (A, T, G i C) oraz genów, ale nie ma żadnych predefiniowanych sekwencji o różnej długości, które łączyłyby się w celu zbudowania genów lub innych znaczących sekwencji.
Aby wyszkolić GROVERA, zespół musiał najpierw stworzyć słownik DNA. Zastosowali sztuczkę z algorytmów kompresji. „Ten krok jest kluczowy i odróżnia nasz model języka DNA od poprzednich prób” – mówi dr Poetsch.
„Przeanalizowaliśmy cały genom i szukaliśmy najczęściej występujących kombinacji liter. Zaczęliśmy od dwóch liter i wielokrotnie przeglądaliśmy DNA, aby zbudować je do najpopularniejszych kombinacji wieloliterowych. W ten sposób w ciągu około 600 cykli podzieliliśmy DNA na „słowa”, które pozwoliły GROVERowi osiągnąć najlepsze wyniki w przewidywaniu następnej sekwencji” – wyjaśnia dr Sanabria.
Obietnica sztucznej inteligencji w genomice
GROVER obiecuje odblokować różne warstwy kodu genetycznego. DNA zawiera kluczowe informacje na temat tego, co czyni nas ludźmi, naszych predyspozycji do chorób i naszych reakcji na leczenie.
„Wierzymy, że zrozumienie zasad DNA poprzez model językowy pomoże nam odkryć głębię znaczenia biologicznego ukrytego w DNA, co przyczyni się do rozwoju zarówno genomiki, jak i medycyny spersonalizowanej” – mówi dr Poetsch.
Odniesienie: „Model języka DNA GROVER uczy się kontekstu sekwencji w ludzkim genomie” Melissy Sanabrii, Jonasa Hirscha, Pierre’a M. Jouberta i Anny R. Poetsch, 23 lipca 2024 r., Inteligencja maszyny natury.
DOI: 10.1038/s42256-024-00872-0