Strona główna nauka/tech Jak sztuczna inteligencja przekształca tajemnice DNA w spostrzeżenia medyczne ratujące życie

Jak sztuczna inteligencja przekształca tajemnice DNA w spostrzeżenia medyczne ratujące życie

3
0


Nić DNA cząsteczki polimerazy RNA
Naukowcy z Los Alamos National Laboratory opracowali przełomowy model głębokiego uczenia się, którego zadaniem jest analiza złożonego związku między czynnikami transkrypcyjnymi a aktywnością genów.

Nowy model sztucznej inteligencji wykorzystuje głębokie uczenie się, aby zrozumieć powiązanie czynników transkrypcyjnych DNAkoncentrując się na procesie oddychania DNA.

To innowacyjne podejście doprowadziło do poprawy o 9,6% w przewidywaniu wiązań czynników transkrypcyjnych, oferując spostrzeżenia, które mogą zrewolucjonizować opracowywanie leków i badania genomiczne.

Rewolucyjny model sztucznej inteligencji do badań nad chorobami

Aby lepiej zrozumieć rolę DNA w chorobach, naukowcy z Los Alamos National Laboratory opracowali EPBDxDNABERT-2, pionierski multimodalny model głębokiego uczenia się. Model ten ma na celu precyzyjną identyfikację interakcji między czynnikami transkrypcyjnymi – białkami regulującymi aktywność genów – a DNA. EPBDxDNABERT-2 wykorzystuje proces znany jako „oddychanie DNA”, podczas którego podwójna helisa DNA spontanicznie otwiera się i zamyka, umożliwiając modelowi uchwycenie tej subtelnej dynamiki. Możliwość ta może potencjalnie ulepszyć projektowanie leków na choroby wynikające z aktywności genów.

„Istnieje wiele rodzajów czynników transkrypcyjnych, a ludzki genom jest niezrozumiałie duży” – wyjaśnił Aowarul Kabir, badacz z Los Alamos i główny autor badania. „Konieczne jest więc ustalenie, który czynnik transkrypcyjny wiąże się z którym miejscem w niewiarygodnie długiej strukturze DNA. Próbowaliśmy rozwiązać ten problem za pomocą sztuczna inteligencjazwłaszcza algorytmy głębokiego uczenia się.”

Ulepszanie opracowywania leków dzięki dynamice DNA

DNA, składające się z odpowiednika 3 miliardów angielskich liter w każdej ludzkiej komórce, działa jak plan wzrostu i funkcjonowania. Czynniki transkrypcyjne wiążą się z regionami DNA, regulując ekspresję genów – w jaki sposób geny kierują rozwojem i funkcjonowaniem komórek. Regulacja ta odgrywa rolę w przypadku chorób, takich jak rak, dlatego dokładne przewidywanie lokalizacji wiązania czynników transkrypcyjnych może mieć znaczący wpływ na rozwój leków.

Podstawowy model zastosowany przez zespół badawczy został przeszkolony na sekwencjach DNA. Zespół stworzył program do symulacji DNA, który rejestruje liczne dynamiki DNA i integruje go z podstawowym modelem genomu, w wyniku czego powstał EPBDxDNABERT-2, zdolny do przetwarzania sekwencji genomu na chromosomach i włączania odpowiedniej dynamiki DNA jako danych wejściowych. Jedno z takich wejść, oddychanie DNA lub lokalne i spontaniczne otwieranie i zamykanie struktury podwójnej helisy DNA, koreluje z aktywnością transkrypcyjną, taką jak wiązanie czynnika transkrypcyjnego.

„Integracja funkcji oddychania DNA z podstawowym modelem DNABERT-2 znacznie poprawiła przewidywania dotyczące wiązania czynników transkrypcyjnych” – powiedział Manish Bhattarai, badacz z Los Alamos. „Podajemy fragmenty kodu DNA jako dane wejściowe do modelu i pytamy model, czy wiąże się on z czynnikiem transkrypcyjnym w wielu liniach komórkowych. Wyniki poprawiły prawdopodobieństwo predykcyjne powiązania określonych lokalizacji genów z wieloma czynnikami transkrypcyjnymi”.

Wykorzystanie superkomputerów do analizy genomu

Zespół uruchomił swój model głębokiego uczenia się na najnowszym superkomputerze laboratorium, Venado, który łączy jednostkę centralną z jednostką przetwarzającą grafikę w celu wykorzystania możliwości sztucznej inteligencji. Model głębokiego uczenia się działa w sposób podobny do sieci neuronowych mózgu, włączając obrazy i tekst oraz odkrywając złożone wzorce w celu generowania przewidywań i spostrzeżeń.

Do wytrenowania modelu zespół wykorzystał dane dotyczące sekwencjonowania genów z 690 wyników eksperymentów obejmujących 161 różnych czynników transkrypcyjnych i 91 typów komórek ludzkich. Odkryli, że EPBDxDNABERT-2 znacząco poprawia – o 9,6% w jednym kluczowym wskaźniku – przewidywanie wiązania ponad 660 czynników transkrypcyjnych. Dalsze eksperymenty na in vitro zestawy danych, pochodzące z eksperymentów w kontrolowanym środowisku, uzupełniły w naturze zbiory danych lub dane pochodzące bezpośrednio z badań na organizmach żywych, takich jak myszy.

Obietnica multimodalnej genomiki obliczeniowej

Zespół odkrył, że chociaż samo oddychanie DNA pozwala niemal dokładnie oszacować aktywność transkrypcyjną, model multimodalny może wyodrębnić motywy wiążące, czyli specyficzne sekwencje DNA, z którymi wiążą się czynniki transkrypcyjne – co jest kluczowym elementem wyjaśniającym procesy transkrypcji.

„Jak wykazało działanie w wielu różnorodnych zbiorach danych, nasz multimodalny model podstawowy charakteryzuje się wszechstronnością, solidnością i skutecznością” – powiedział Bhattarai. „Model ten oznacza znaczny postęp w genomice obliczeniowej, zapewniając wyrafinowane narzędzie do analizy złożonych mechanizmów biologicznych”.

Odniesienie: „Integracja oddychania DNA z podstawowym modelem głębokiego uczenia się przyspiesza przewidywanie wiązania ludzkich czynników transkrypcyjnych w całym genomie” autorzy: Aowarul Kabir, Manish Bhattarai, Selma Peterson, Yonatan Najman-Licht, Kim Ø Rasmussen, Amarda Shehu, Alan R. Bishop, Boian Alexandrov i Anny Usheva, 13 września 2024 r., Badania kwasów nukleinowych.
DOI: 10.1093/nar/gkae783

Prace wsparł m.in Narodowe Instytuty Zdrowia oraz Narodowa Fundacja Nauki.



Link źródłowy