Применяет всю мощь математического и матфиз аппарата для обработки больших биологических данных.
Сформулировать прикладную задачу совместно с узкими специалистами доменной области
найти взаимосвязь генов
найти корреляцию величин
улучшить бизнес метрику
проанализировать A/B тест
сформулировать гипотезу
Найти источник данных
Загрузить данные из источника
описание данных
Предобработать данные
ошибки
адекватность
выбросы
дубликаты
Провести первоначальный анализ данных
построить графики
найти зависимости
сделать выводы
статистический анализ
Подобрать алгоритм или модель машинного обучения для решения задачи, сформулировать прикладную задачу в терминах алгоритма или машинного обучения
Выбрать метрику для будущего алгоритма или модели машинного обучения, обосновать выбор
Обучить модель, применить алгоритм на тренировочной выборке, довести метрики до максимума
Применить алгоритм или модель машинного обучения на тестовой выборке
Провести проверку, сделать итоговые выводы
сделать итоговые расчёты
вывести итоговые метрики и показатели
построить графики
написать принята или отвергнута гипотеза и с какой надёжностью
Выгрузить данные и пайплайн (например ipynb-файл или весь репозиторий) в открытый доступ на GitHub или Kaggle, дать ссылки в чатах-сообщества
Выгрузить обученную модель в открытый доступ (например на HuggingFace)
Развернуть модель/алгоритм как сервис, написать API для простого использования другими людьми на своих данных, например в Docker контейнере
Транслировать весь процесс разработки решения для обучения на полноценном примере, воспроизводимости другими людьми и популяризации со стороны навыков и задач Data Science для задачи радикального продления жизни