Copy of School of Data Analysis AGCT

School of Data Analysis AGCT

A series of lectures on creation and analysis of the biological networks built on omics data. Special attention is paid to transcriptomic data and the peculiarities of its processing.

We propose a course of lectures with several practical tasks that covers the most important methods used by our team in the analysis of omics data for the fundamental study of the aging process.

In AgingNets project we study the aging of different organisms as the dynamics of a complex network system, more precisely, as the dynamics of the gene regulatory network. We consider a gene network as a set of the degrees of freedom that interact in a complex way. Firstly, this interaction is nonlinear, and secondly, it is determined by the network structure.

The object which we work with is a gene network, represented by adjacency matrix. We calculate adjacency matrices that correspond to different organism’s states on transcriptomic data. This step is extremely complicated and requires accurate gene expressions processing, choice of normalisation methods and choice of the algorithm that would generate the network. It is also highly important to understand the sequencing type that was used and the raw data processing methods.

During the network study, we obtain sets of genes that play important role in structure change and provide special properties to network dynamics. To biologically interpret such gene groups, we intersect them with known pathway databases.

In the lectures we aim to explain mentioned procedures in detail.

The purpose of the course is:

Teaching bioinformatics and programmers modern methods and algorithms, including some neural network algorithms for aging studies
Finding collaborators to develop our open research of the gene networks change in the course of aging
A clear demonstration of the complicatedness of data analysis in aging and need of large biological longitudinal data

Мы прочтем бесплатный курс лекций по следующим темам:

Лекция 1

Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.

Лекция 2

RNA-seq, WGS и экзомы. Основы секвенирования. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.

Лекция 3

Метиллирование и метилом, генные часы, хроматин и его роль. Примеры, mTOR или воспалительный процесс.

Лекция 4

Математические основы анализа графов. Определение графа, обхода графа, коммьюнити на графе. Мотивы на графах (scale-free графы, случайные графы). Отличие метаболической сети от всех остальных с точки зрения топологии

Лекция 5

Алгоритмы-1. Поиск коммьюнити на графе. Алгоритмы кластеризации узлов графа (без ML).

Лекция 6

Алгоритмы-2. Вычисление насыщения (enrichment), статистические критерии, GSEA, enrichR.

Лекция 7

Базы данных. KEGG, GO, WikiPathway - чем отличаются, чем схожи, для чего нужны.

Лекция 8

Алгоритмы-3. Новые методы построения сетей - GENIE3, pathfindR, GRNBoost2. ML-подход к кластеризации и аннотации

Лекция 9

Канцерогенез. Отличия раковых клеток от здоровых, гликолиз, механизм апоптоза, восстановление теломеров. Метаболическая сеть апоптоза и её возможные повреждения, как пример.

Лекция 10

Старение и его проявление в метаболизме. Возможные примеры воздействия различных гипотез клеточного старения на метаболическую сеть.

Лекция 11

Бизнес-аналитика биотех-проектов в области анализа данных. Перспективные направления, возможности и подводные камни.

Лекция 1

Определение геномной сети. Понятие регуляторов - энхансер, сайленсер, транскрипционный фактор. Примеры регуляции и мотивов - цинковый палец, лейциновая застежка (кратко). Подсети метаболической сети.

Лекция 2:

Основы секвенирования. RNA-seq, WGS и экзомы. Понятие экспрессии гена, численное выражение экспрессии (как определяется), FPKM, TPKM. Дифференциальная экспрессия, аннотация генома и транскриптома.

“Anybody can be specific and obvious. That's always been the easy way. It's not that it's so difficult to be unspecific and less obvious; it's just that there's nothing, absolutely nothing, to be specific and obvious about."

— Bob Dylan

Задачи по Физике

Среди обилия методов кластеризации, существует метод спектрального кластеринга (spectral clustering). Исходя из того что мы знаем сейчас спектральный кластеринг (и/или его вариации, к примеру c non-bactracking operator) — это один из наиболее адекватных способов кластеризации (см. к примеру сравнение тут, как это в общих чертах работает можно почерпнуть отсюда). В этом суждении естественно есть personal bias, который возник у меня из-за того, что в моем кругу общения люди спектральный кластеринг сильно любят. Эта любовь обоснована некоторым набором теорем, которые делают спектральный кластеринг наиболее оправданным, так сказать. В целом написано довольно много обзоров, туториалов и т.д.

Не смотря на это обилие туториалов и статей, имеется проблема следующего рода. Первым шагом в спектральном кластеринге является нахождение спектра (собственных значений+векторов) матрицы Кирхгофа. Эта простая задача: миллиард методов реализовано, с ними все хорошо. Спектральный кластеринг основан на идее, что информация о кластерах в сети/графе сидит в изолированных собственных значениях. Под этим понимается следующее: спектр матрицы содержит "колбаску" непрерывных собственных значений и некоторое конечное число изолированных (дискретных) собственных значений.

Насколько нам известно, отделение дискретной части спектра от непрерывной — это некоторое "рукомахание". По всей видимости, не придумано ничего лучше чем "отсечение" дискретной части путем анализа квантилей набора расстояний между собственными значениями (в непрерывной части спектра расстояния между собственными значениями очень малы в сравнении с изолированным куском).

Вопрос: существует ли более строгий способ отделения изолированных собственных значений в спектре от непрерывной его части, чем "рукомахание", основанное на квантилях? Если его не существует, то можно ли его сформулировать? По всей видимости, в качестве отправной точки можно стартовать со stochastic block model.

https://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html

https://arxiv.org/abs/0711.0189

она же матрица Лапласа, она же лапласиан, см. определение (https://en.wikipedia.org/wiki/Laplacian_matrix)

cм. картинку во вложении в качестве более-менее наглядного примера

Задачи по Созданию сетей

Форма для ввода и отправки решения

https://arxiv.org/pdf/2010.16019.pdf

Литература

GENIE3. R модуль для определения статистической значимости взаимодействия между парами генов. Использует метод in silico нокаута генов - где сначала один ген удаляется из выборки, а потом, с помощью алгоритма random forest, значения этого гена восстанавливаются на основе оставшихся.
WCGNA. "Швейцарский нож" для работы с генными сетями. Пакет содержит в своем составе быстрые методы для вычисления корреляций, построение сетей на основе этих корреляций, топологические методы для сравнения сетей и много другое.
PathfindR. Один из самых эффективных методов анализа обогащения групп генов, учитывающий белковые взаимодействия.
Небольшая книга по алгоритмам поиска коммьюнити в графах.

По старению и сетевому подходу:

Обзор, посвященный связи спласинга и старения. Разбирается насколько и как именно с течением времени меняются изоформы белков.
В этом обзоре обсуждается изменения транскрипции, которые происходят с возрастом, включая возрастные изменения в сплайсинге, lncRNAs и circRNAs. Кроме того, рассматривается влияние возможной экспрессии повторов.

По ML и метаболическим сетям:

GNE - Нейросетевой алгоритм для агрегации различных представлений генов и их экспрессии и их отображение в пространство эмбеддингов. Может быть полезно при сравнении различных моделей метаболических сетей между собой.
Нейросетевой метод для выделение основных генов, что может быть полезно для сокращения метаболической сети и выделения критичной для нее подсети.

Другое, приложимое к нашим задачам:

NeuralODE. Моделирование нейросетями динамических систем, задаваемых дифференциальными уравнениями.