School of Data Analysis AGCT
A series of lectures on creation and analysis of the biological networks built on omics data. Special attention is paid to transcriptomic data and the peculiarities of its processing.
We propose a course of lectures with several practical tasks that covers the most important methods used by our team in the analysis of omics data for the fundamental study of the aging process.

In AgingNets project we study the aging of different organisms as the dynamics of a complex network system, more precisely, as the dynamics of the gene regulatory network. We consider a gene network as a set of the degrees of freedom that interact in a complex way. Firstly, this interaction is nonlinear, and secondly, it is determined by the network structure.

The object which we work with is a gene network, represented by adjacency matrix. We calculate adjacency matrices that correspond to different organism’s states on transcriptomic data. This step is extremely complicated and requires accurate gene expressions processing, choice of normalisation methods and choice of the algorithm that would generate the network. It is also highly important to understand the sequencing type that was used and the raw data processing methods.

During the network study, we obtain sets of genes that play important role in structure change and provide special properties to network dynamics. To biologically interpret such gene groups, we intersect them with known pathway databases.

In the lectures we aim to explain mentioned procedures in detail. 

The purpose of the course is:

  • Teaching bioinformatics and programmers modern methods and algorithms, including some neural network algorithms for aging studies
  • Finding collaborators to develop our open research of the gene networks change in the course of aging
  • A clear demonstration of the complicatedness of data analysis in aging and need of large biological longitudinal data
Мы прочтем бесплатный курс лекций по следующим темам:
Лекция 1
Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.
Лекция 2
RNA-seq, WGS и экзомы. Основы секвенирования. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.
Лекция 3
Метиллирование и метилом, генные часы, хроматин и его роль. Примеры, mTOR или воспалительный процесс.
18 января
Лекция 4
Математические основы анализа графов. Определение графа, обхода графа, коммьюнити на графе. Мотивы на графах (scale-free графы, случайные графы). Отличие метаболической сети от всех остальных с точки зрения топологии
25 января
Лекция 5
Алгоритмы-1. Поиск коммьюнити на графе. Алгоритмы кластеризации узлов графа (без ML).
1 февраля
Лекция 6
Алгоритмы-2. Вычисление насыщения (enrichment), статистические критерии, GSEA, enrichR.
8 февраля
Лекция 7
Базы данных. KEGG, GO, WikiPathway - чем отличаются, чем схожи, для чего нужны.
15 февраля
Лекция 8
Алгоритмы-3. Новые методы построения сетей - GENIE3, pathfindR, GRNBoost2. ML-подход к кластеризации и аннотации
22 февраля
Лекция 9
Канцерогенез. Отличия раковых клеток от здоровых, гликолиз, механизм апоптоза, восстановление теломеров. Метаболическая сеть апоптоза и её возможные повреждения, как пример.
1 марта
Лекция 10
Старение и его проявление в метаболизме. Возможные примеры воздействия различных гипотез клеточного старения на метаболическую сеть.
8 марта
Лекция 11
Бизнес-аналитика биотех-проектов в области анализа данных. Перспективные направления, возможности и подводные камни.
15 марта
Лекция 1
Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.
Лекция 2:
Основы секвенирования. RNA-seq, WGS и экзомы. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.
“Anybody can be specific and obvious. That's always been the easy way. It's not that it's so difficult to be unspecific and less obvious; it's just that there's nothing, absolutely nothing, to be specific and obvious about."
— Bob Dylan
Задачи по Физике
https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html
https://arxiv.org/abs/0711.0189
она же матрица Лапласа, она же лапласиан, см. определение (https://en.wikipedia.org/wiki/Laplacian_matrix)
cм. картинку во вложении в качестве более-менее наглядного примера
Задачи по Созданию сетей
Форма для ввода и отправки решения

https://arxiv.org/pdf/2010.16019.pdf
Литература
  1. GENIE3. R модуль для определения статистической значимости взаимодействия между парами генов. Использует метод in silico нокаута генов - где сначала один ген удаляется из выборки, а потом, с помощью алгоритма random forest, значения этого гена восстанавливаются на основе оставшихся.
  2. WCGNA. "Швейцарский нож" для работы с генными сетями. Пакет содержит в своем составе быстрые методы для вычисления корреляций, построение сетей на основе этих корреляций, топологические методы для сравнения сетей и много другое.
  3. PathfindR. Один из самых эффективных методов анализа обогащения групп генов, учитывающий белковые взаимодействия.
  4. Небольшая книга по алгоритмам поиска коммьюнити в графах.

По старению и сетевому подходу:
  1. Обзор, посвященный связи спласинга и старения. Разбирается насколько и как именно с течением времени меняются изоформы белков.
  2. В этом обзоре обсуждается изменения транскрипции, которые происходят с возрастом, включая возрастные изменения в сплайсинге, lncRNAs и circRNAs. Кроме того, рассматривается влияние возможной экспрессии повторов.

По ML и метаболическим сетям:
  1. GNE - Нейросетевой алгоритм для агрегации различных представлений генов и их экспрессии и их отображение в пространство эмбеддингов. Может быть полезно при сравнении различных моделей метаболических сетей между собой.
  2. Нейросетевой метод для выделение основных генов, что может быть полезно для сокращения метаболической сети и выделения критичной для нее подсети.

Другое, приложимое к нашим задачам:
  1. NeuralODE. Моделирование нейросетями динамических систем, задаваемых дифференциальными уравнениями.