К лету прошло года у нас было 700 страниц текста, и как-то стало понятно, что никто это не прочтет, а ещё, с не формализированной информацией невозможно работать.
Плюс была еще такая проблема: надо как-то систематизировать маркеры. Логично было бы по функциям, но один и тот же белок может выполнять несколько функций, и тогда куда его ставить? Плюс какое число функций выбрать? Можно 5, но лучше 50. В последнем случаем работа становилась какой-то бесконечной.
Тогда возникла идея поставить маркеры в эволюционном порядке и посмотреть, когда возник тот или иной ген, влияющий на продолжительность жизни. Точнее, его гомолог — ген-прадедушка гена.
Я не могу употребить «ген старения» и «ген долголетия», потому что это будет неверно, но смысл в том, что именно эти гены очень сильно связаны со старением. Особенно привлекают внимание те, влияя на которые, можно увеличивать продолжительность жизни животных. Хорошо их вместе собрать и понять о них больше.
На самом деле, это дико интересно, посмотреть, а когда и какие гены, ассоциированные со старением и долголетием, появились в эволюции. Пока эта работа не выполнена: мы не знаем, например, они в большей степени появились у одноклеточных или многоклеточных и сменили ли они свои функции в результате эволюции? Также интересно посмотреть, в каких тканях они в большей степени экспрессируют и где в клетке работают их белки. То есть можно систематизировать их по-разному, если делать базу данных.
Конечно, не только гены, РНК и белки являются маркерами старения, но всё-таки это главное в организме, поэтому это первая база данных, с которой мы решили начать. Хотя, всякий «мусор» и «вред» тоже хочется систематизировать, чтобы запилить заодно и полноценную SENS-диагностику.
Итак, мы решили создать базу данных «Гены, ассоциированные со старением и долголетием». Большая трудность, оказалось, в том, что её никто не хочет финансировать. Хотя, казалось бы, столько людей предлагают создать или создали сервисы на тему «загрузите маркеры — мы дадим рекомендации», а без этой базы такие сервисы невозможны.
Мне пару раз предлагали делать такую базу закрытой, для какого-то конкретного проекта, но это тоже глупость: это ж борьба со старением, и требуется её постоянное пополнение, уточнение, да, и, вообще, открытость. Короче, база данных «Гены, ассоциированные со старением и долголетием» является обязательным условием для создания диагностики старения, но недостаточным.
Поэтому базу мы делаем волонтерскими силами или полуволонтерскими, но, может, я кого-нибудь и смогу убедить её профинансировать. Например, этим постом. Тем более, что она улучшается и становится более привлекательной.
В самом начале мы основывались на данных, выгруженных из базы GeneAge и собственных данных, собранных вручную. Теперь у нас гораздо больше собственных данных, а также информации, полученной из других баз.
Какие данные об исследованиях ассоциации гена со старением и продолжительностью жизни мы рассматриваем?
- Во-первых, нас интересуют эксперименты с модификацией гена и увеличением продолжительности жизни млекопитающих/не млекопитающих/культур клеток. Это признак для нас самый топовый.
- Мы смотрим возрастные изменения экспрессии гена/активности белка у человека/млекопитающих/не млекопитающих.
- Там, где были вмешательства в работу гена/продукта и предотвратили связанное со старением ухудшение процесса или системы.
- Если есть аллельный полиморфизм, ассоциированный с долголетием или возрастным фенотипом.
- Ассоциация гена с ускоренным старением у человека.
- Участие продукта гена в регуляции генов, связанных со старением.
Для установления эволюционной истории мы берем:
- Наиболее древний таксон, у которого обнаружен ген, и приблизительный возраст этого таксона, согласно филогенетическим исследованиям, короткое описание, основных событий, произошедших за время эволюции гена.
- Наиболее древний таксон, у которого ген консервативен, согласно NCBI HomoloGene.
Дальше составляем обоснование (критерии отбора гена в базу) — список критериев отбора, которым соответствует ген (исследований ассоциации данного гена со старением).
Также нам нужна общая информация о гене:
- Название, HGNC, синонимы.
- Локализация гена на хромосоме (регион, начало региона, конец региона, минус-/плюс- цепь).
- ID для получения данных из других баз.
- Описание функции гена, предоставленное RefSeq.
Общая информация о продукте гена:
- Классы белка с Human Protein Atlas.
- Локализация в клетке.
- Данные о концентрации белка в плазме крови.
Мы составляем собственную классификацию генов по участию в возрастозависимых процессах.
Суперважно – указать болезни, ассоциированные с геном.
Данные об экспрессии гена (уровень экспрессии в разных тканях, тканеспецифичность с Human Protein Atlas).
Данные о возрастных изменениях экспрессии гена: уменьшается, увеличивается или изменяется неоднозначно экспрессия гена с возрастом.
Данные из Gene Ontology (биологический процесс, клеточный компонент, молекулярное взаимодействие).
Соответственно, мы по всем этим признаком можем выбирать гены из базы.
В конечном счете хотелось, строя разные математические модели, опираясь на несколько дата сетов, понять, а на работу каких генов надо повлиять, чтобы увеличить продолжительность жизни. Когда этот самый конечный счет наступит не очень понятно, но мы движемся. Программное обеспечение опишу отдельно.
https://open-genes.com/
ps. Прошлый раз было много пафосных комментариев, что базу надо делать на английском. Она делается на двух языках, на русском и английском, просто надо найти там сверху справа переключатель.