Школа Анализа Данных Проекта AGCT
Серия лекций по созданию и анализу биологических сетей, построенных на омиксных данных. Особое внимание уделяется транскриптомным данным и особенностям их подготовки.
Мы предлагаем курс лекций с несколькими практическими заданиями, который охватывает наиболее важные методы, используемые нашей командой в анализе омиксных данных для фундаментального изучения процесса старения.

В проекте AgingNets мы изучаем старение различных организмов как динамику сложной сетевой системы, точнее, как динамику генно-регуляторной сети. Мы рассматриваем генную сеть как набор степеней свободы, которые взаимодействуют сложным образом. Во-первых, это взаимодействие нелинейно, а во-вторых, оно определяется структурой сети.

Объект, с которым мы работаем - это генная сеть, представленная матрицей смежности. Мы вычисляем матрицы смежности, соответствующие различным состояниям организма, по транскриптомным данным. Этот шаг чрезвычайно сложен и требует аккуратной обработки данных экспрессий генов, выбора методов нормализации и выбора алгоритма, который будет генерировать сеть. Также, очень важно понимать особенности метода секвенирования, который был использован, и способ обработки сырых данных.

В ходе исследования сетей мы получаем наборы генов, которые играют важную роль в структурных изменениях и обеспечивают особые динамические свойства. Чтобы биологически интерпретировать такие группы генов, мы пересекаем их с известными базами данных.

В наших лекциях мы стремимся подробно объяснить перечисленные процедуры.

Целью курса является:

  • Обучение биоинформатиков и программистов современным методам и алгоритмам, включая некоторые нейросетевые алгоритмы, для изучения старения
  • Поиск коллабораций для развития нашего открытого исследования изменений генных сетей в процессе старения
  • Демонстрация сложности анализа данных в старении и необходимости больших биологических продольных данных

Начиная с 4 января, каждую среду в 20:00, будут проходить онлайн-лекции.
Ссылки в зум будут появляться в телеграм-группе.
Мы прочтем бесплатный курс лекций по следующим темам:
  • Лекция 1
    Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.
  • Лекция 2
    RNA-seq, WGS и экзомы. Основы секвенирования. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.
  • Лекция 3
    Метиллирование и метилом, генные часы, хроматин и его роль. Примеры, mTOR или воспалительный процесс.
  • Лекция 4
    Математические основы анализа графов. Определение графа, обхода графа, коммьюнити на графе. Мотивы на графах (scale-free графы, случайные графы). Отличие метаболической сети от всех остальных с точки зрения топологии
  • Лекция 5
    Алгоритмы-1. Поиск коммьюнити на графе. Алгоритмы кластеризации узлов графа (без ML).
  • Лекция 6
    Алгоритмы-2. Вычисление насыщения (enrichment), статистические критерии, GSEA, enrichR.
  • Лекция 7
    Базы данных. KEGG, GO, WikiPathway - чем отличаются, чем схожи, для чего нужны.
  • Лекция 8
    Алгоритмы-3. Новые методы построения сетей - GENIE3, pathfindR, GRNBoost2. ML-подход к кластеризации и аннотации
  • Лекция 9
    Канцерогенез. Отличия раковых клеток от здоровых, гликолиз, механизм апоптоза, восстановление теломеров. Метаболическая сеть апоптоза и её возможные повреждения, как пример.
  • Лекция 10
    Старение и его проявление в метаболизме. Возможные примеры воздействия различных гипотез клеточного старения на метаболическую сеть.
  • Лекция 11
    Бизнес-аналитика биотех-проектов в области анализа данных. Перспективные направления, возможности и подводные камни.
Лекция 1
Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.
Лекция 2:
Основы секвенирования. RNA-seq, WGS и экзомы. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.
Задачи по Физике
https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html
https://arxiv.org/abs/0711.0189
она же матрица Лапласа, она же лапласиан, см. определение (https://en.wikipedia.org/wiki/Laplacian_matrix)
cм. картинку во вложении в качестве более-менее наглядного примера
Задачи по Созданию сетей
Форма для ввода и отправки решения

https://arxiv.org/pdf/2010.16019.pdf
Литература
  1. GENIE3. R модуль для определения статистической значимости взаимодействия между парами генов. Использует метод in silico нокаута генов - где сначала один ген удаляется из выборки, а потом, с помощью алгоритма random forest, значения этого гена восстанавливаются на основе оставшихся.
  2. WCGNA. "Швейцарский нож" для работы с генными сетями. Пакет содержит в своем составе быстрые методы для вычисления корреляций, построение сетей на основе этих корреляций, топологические методы для сравнения сетей и много другое.
  3. PathfindR. Один из самых эффективных методов анализа обогащения групп генов, учитывающий белковые взаимодействия.
  4. Небольшая книга по алгоритмам поиска коммьюнити в графах.

По старению и сетевому подходу:
  1. Обзор, посвященный связи спласинга и старения. Разбирается насколько и как именно с течением времени меняются изоформы белков.
  2. В этом обзоре обсуждается изменения транскрипции, которые происходят с возрастом, включая возрастные изменения в сплайсинге, lncRNAs и circRNAs. Кроме того, рассматривается влияние возможной экспрессии повторов.

По ML и метаболическим сетям:
  1. GNE - Нейросетевой алгоритм для агрегации различных представлений генов и их экспрессии и их отображение в пространство эмбеддингов. Может быть полезно при сравнении различных моделей метаболических сетей между собой.
  2. Нейросетевой метод для выделение основных генов, что может быть полезно для сокращения метаболической сети и выделения критичной для нее подсети.

Другое, приложимое к нашим задачам:
  1. NeuralODE. Моделирование нейросетями динамических систем, задаваемых дифференциальными уравнениями.