Сигналы из окружающей среды запускают каскад изменений, которые по-разному влияют на разные гены. Поэтому традиционно было сложно изучить, как такие сигналы влияют на организм. В новом исследовании исследователи разработали подход машинного обучения под названием FUN-PROSE, чтобы предсказать, как гены реагируют на различные условия окружающей среды.
Клетки, независимо от организма, точно настраивают свою реакцию на окружающую среду с помощью мРНК. Во-первых, они используют белки, называемые факторами транскрипции , которые чувствуют изменения, а затем связываются с последовательностью ДНК, называемой промотором , перед генами . Это прикрепление может либо остановить образование мРНК из гена, либо увеличить количество образующейся мРНК.
Затем мРНК служит матрицей для производства белков, ответственных за различные функции в клетке. Этот механизм позволяет клеткам быстро перераспределять ресурсы на процессы, необходимые для выживания.
Изучение того, как контролируются промоторы, является одной из старейших задач в геномике, и тем не менее исследователи все еще продолжают ее решать. Самая большая проблема заключается в том, что разные факторы транскрипции могут связываться с одной и той же последовательностью промотора и делать это по-разному в разных условиях окружающей среды.
Более того, хотя есть некоторые доказательства того, что факторы транскрипции имеют тенденцию связываться со специфическими мотивами последовательностей в промоторах, не все из них тщательно изучены. В последние годы исследователи обратились к искусственному интеллекту, чтобы помочь им решить эти проблемы.
«Гены имеют средний уровень экспрессии, и предыдущие модели машинного обучения не могли измерить, как уровни изменяются в разных условиях», — сказал Сергей Маслов (руководитель CAIM/CABBI), профессор биоинженерии и физики. «Нам было интересно понять, как конкретные гены реагируют на изменения pH, температуры и питательных веществ».
Исследователи разработали модель под названием FUNgal PROmoter to condition-Specific Expression, или FUN-PROSE, чтобы предсказать, как пекарские дрожжи (Saccharomyces cerevisiae) и менее изученные грибы Neurospora crassa и Issatchenkia orientalis будут реагировать на изменения окружающей среды.
Чтобы разработать модель, исследователям сначала пришлось идентифицировать последовательности промоторов и факторы транскрипции для трех видов. Затем они обучили модель узнавать, какие мотивы промотора распознаются факторами транскрипции в разных условиях.
«Факторы транскрипции N. crassa и I. orientalis не так хорошо известны, как S. cerevisiae, поэтому нам пришлось сделать вывод, какие гены можно идентифицировать по факторам транскрипции у этих видов», — сказал Анантан Намбияр, аспирант Группа Маслова. По словам Вероники Дубинкиной, бывшей аспирантки группы Маслова, а ныне постдокторанта в Институте Гладстона, этот процесс включал широко используемый подход сканирования участков белка, которые, как известно, связывают ДНК.
Наконец, модель научилась интегрировать всю информацию, чтобы рассчитать, сколько мРНК вырабатывается в определенных условиях по сравнению со средним уровнем мРНК. Затем исследователи сравнили результаты, полученные с помощью FUN-PROSE, с данными RNA-seq, которые измеряют колебания уровней мРНК всех трех грибов. Каждый организм имеет более 4000 генов и 180 факторов транскрипции, которые были измерены в 12-295 условиях, в зависимости от того, насколько хорошо он изучен.
«Предсказание того, какие гены важны в тех или иных условиях, всегда было сложной проблемой. Однако мы обнаружили, что наша модель очень близка к предсказанию того, что на самом деле происходит в этих организмах», — сказал Намбияр.
Помимо оценки производительности, исследователи выяснили, как модель делает прогнозы. «Даже несмотря на то, что она представляет собой черный ящик, мы смогли понять, как наша модель смотрит на промоторы, и увидели, что она научилась искать известные последовательности», — сказал Саймон Лю, бывший студент группы Маслова. «Возможность интерпретировать обученную модель необходима для проверки ее логики, а также для использования ее для открытия новых нормативных знаний».
Однако модель испытывает трудности с промоутерами, с которыми она раньше не сталкивалась. «Модель хороша для новых условий, но если вы дадите ей новую последовательность гена или промотора, она допустит ошибки», — сказал Намбияр.
По мнению Маслова, эти ошибки возникли из-за ограниченности имеющихся данных. «Машинное обучение — это черный ящик, и вам нужно хорошо его тренировать, чтобы вы могли изучить биологию», — сказал он. «Если мы сможем получить больше данных, модель будет иметь больше закономерностей для изучения и будет давать более точные прогнозы».
Теперь исследователи заинтересованы в проверке своей модели на других организмах. «В принципе, у нашей методики нет ограничений — она должна работать на любом организме. Однако у животных, например, гены контролируются более сложными способами, что потребует значительных изменений в архитектуре модели и гораздо большего количества обучающих данных», «, — сказал Маслов. «Тем не менее, было бы интересно посмотреть, насколько хорошо работает эта модель».
Исследование опубликовано в журнале PLOS Computational Biology.