Data Scientist
Применяет всю мощь математического и матфиз аппарата для обработки больших биологических данных.
  • Сформулировать прикладную задачу совместно с узкими специалистами доменной области
    • найти взаимосвязь генов
    • найти корреляцию величин
    • улучшить бизнес метрику
    • проанализировать A/B тест
    • сформулировать гипотезу
  • Найти источник данных
  • Загрузить данные из источника
    • описание данных
  • Предобработать данные
    • ошибки
    • адекватность
    • выбросы
    • дубликаты
  • Провести первоначальный анализ данных
    • построить графики
    • найти зависимости
    • сделать выводы
    • статистический анализ
  • Подобрать алгоритм или модель машинного обучения для решения задачи, сформулировать прикладную задачу в терминах алгоритма или машинного обучения
  • Выбрать метрику для будущего алгоритма или модели машинного обучения, обосновать выбор
  • Обучить модель, применить алгоритм на тренировочной выборке, довести метрики до максимума
  • Применить алгоритм или модель машинного обучения на тестовой выборке
  • Провести проверку, сделать итоговые выводы
    • сделать итоговые расчёты
    • вывести итоговые метрики и показатели
    • построить графики
    • написать принята или отвергнута гипотеза и с какой надёжностью
  • Выгрузить данные и пайплайн (например ipynb-файл или весь репозиторий) в открытый доступ на GitHub или Kaggle, дать ссылки в чатах-сообщества
  • Выгрузить обученную модель в открытый доступ (например на HuggingFace)
  • Развернуть модель/алгоритм как сервис, написать API для простого использования другими людьми на своих данных, например в Docker контейнере
  • Транслировать весь процесс разработки решения для обучения на полноценном примере, воспроизводимости другими людьми и популяризации со стороны навыков и задач Data Science для задачи радикального продления жизни