Organismy se skládají z tisíců různých proteinů, z nichž každý je kódován specifickým genem. Aby buněčný typ získal svou jedinečnou identitu, formu a funkci, musí být geny aktivovány „zesilovači“. Vědci se již dlouho pokoušeli rozluštit kód toho, jak zlepšováky fungují. Nyní, v nové studii, laboratoř Alexandra Starka v Ústavu molekulární patologie ve Vídeňském biocentru v Rakousku a laboratoř Eileen Furlongové v Evropské laboratoři molekulární biologie využily genomiku a umělou inteligenci k rozluštění druhého genetického kódu, který je základem regulace genů. . Článek s názvem „Cílený návrh syntetických zesilovačů pro vybrané tkáně v embryu Drosophila“ byl publikován online 12. prosince 2023 v Nature.
Každá zdravá buňka složitého organismu obsahuje přesně stejnou kopii genomu, která zahrnuje tisíce genů, plánů pro stavbu bílkovin. K vytvoření různých typů buněk, tkání a orgánů jsou zapotřebí další mechanismy, které zapínají a vypínají expresi specifických genů s vysokou přesností.
Jako segmenty DNA v genomu jsou zesilovače klíčovým prvkem při zapínání genů a laboratoř Stark si dala za úkol rozluštit kód, který spojuje sekvenci DNA zesilovače s jeho funkcí regulace genu. Ačkoli první zesilovače byly objeveny na počátku 80. let, teprve v posledním desetiletí vědci vyvinuli způsoby, jak experimentálně identifikovat zesilovače.
Na tomto základu se nyní Starkova laboratoř a spolupracovníci zaměřují na tři úkoly, které dohromady tvoří zdánlivě nemožný dlouhodobý cíl: předpovídání aktivity zesilovačů na základě jejich sekvencí DNA; předpovídání důsledků enhancerových mutací; a navrhování zesilovačů od nuly pro konkrétní tkáně. Jinými slovy: čtení, porozumění a psaní druhého genetického kódu.
S nedávným pokrokem v genomice a umělé inteligenci se naskytla příležitost prolomit tento kód. Tito autoři vyvinuli výkonný model hlubokého učení a přenosového učení a trénovali jej pomocí velkého množství dat získaných z předchozích studií Drosophila melanogaster, široce používaného modelového organismu ve vývojové biologii.
Z laboratoře do AI a zase zpět
Nejprve byly takové modely trénovány pomocí sekvencí DNA v celém genomu a odpovídajících údajů o dostupnosti DNA. Model hlubokého učení byl poté použit k inicializaci jemného doladění modelu učení migrace, ve kterém se model učení migrace učí přímo spojovat sekvence DNA se specifickou aktivitou zesilovače.
Stark říká: "Učení o migraci můžete vysvětlit takto: představte si, že chcete vycvičit modelku, aby rozpoznávala kočky na obrázcích, ale máte k dispozici velmi málo obrázků koček. Ale máte spoustu obrázků psů. Takže nejprve model umělé inteligence na obrázcích psa, poté jej dolaďte ve druhém kroku a nyní můžete rozpoznat kočky."
Obrázek z přírody, 2023, doi:10.1038/s41586-023-06905-9.
Prostřednictvím přenosového učení byl model schopen předpovědět aktivitu zesilovače v pěti typech tkání embryí Drosophila – centrální nervový systém, mozkové podsekce, epidermis, střevo a sval.
Na základě této předpovědi tito autoři přenesli své výzkumné úsilí z abstraktního světa velkých dat a umělé inteligence zpět do laboratoře. Pomocí sofistikovaných nástrojů molekulární biologie testovali 40 výpočtově navržených syntetických zesilovačů v živých embryích Drosophila. Ve skutečnosti jsou tyto zesilovače aktivní a řídí genovou expresi v cílové tkáni.
Schopnost konstruovat syntetické zesilovače se specifickými vlastnostmi nabízí nebývalé možnosti kontroly cílené exprese genů," říká Bernardo de Almeida z vídeňského biocentra, první autor článku. Budoucí aplikace by mohly být v syntetické biologii nebo genové terapii, kde je precizní návrh a manipulace vzorců genové exprese je nezbytným předpokladem."
Pro Starka je však nejdůležitějším aspektem tohoto výzkumu poskytnutí nových pohledů na fenomén, který je pro život zásadní: „Asi před 60 lety se vědci dozvěděli, jak fungoval první genetický kód, jak byl molekulární plán DNA převeden na proteiny. Se silou genomiky a umělé inteligence se nám nyní podařilo prolomit druhý genetický kód života, totiž jak je řízena genová aktivita.“