Data Science
Содержание
Что представляет из себя Data Science?
Существует простое и ясное определение, которое можно найти в сети:
Data science (наука о данных) — это область, которая придает ценность данным.
Существует множество определений дата саенс, при этом выделить одну общую черту легко — это данные. На основе этого можно сделать вывод, что область применения дата саенс невероятно широка. С данными можно производить различные операции. Сюда включаются и создания сложных отчетов и манипулирование таблицами с помощью SQL, прогнозирование спроса на тот или иной продукт, формирование сложных математических моделей и налаживание обработки данных для высоконагруженных сервисов.
Так почему дата саенс вообще “наука”? Действительно, она основывается на сложных математических теориях, однако исследовательская работа остается уделом лишь небольшой группы людей. Для продвижения бизнеса необходимо решение конкретных задач и проблем, а не исследования. Только крупные корпорации позволяют себе штат сотрудников, задачей которых является исключительно изучение и создание научных работ, разработка новых и улучшение существующих алгоритмов и методов ML.
Так вышло, что специалисты связывают ее преимущественно с разработкой моделей с использованием алгоритмов ML и редко обсуждают значимые вопросы. Почему появилась необходимость в определенной задаче? Как она звучит на “математическом языке”? Как воплощается в жизнь решение задачи и как провести корректную оценку бизнес эффекта?
Некоторые убеждены, что обязанности этой роли включают создание нейронных сетей в Jupyter Notebook. Многие ожидают, что такие эксперты выполнят “под ключ” все поставленные задачи. А некоторые всего навсего хотят, чтобы такие специалисты просто были в их команде. Разнообразное понимание роли дата саентиста может быть значимым препятствием для вас, как для кандидата на работу или как работодателя, который ищет специалиста для работы в организации.
Проблема заключается в том, что пройдя десяток собеседований в различные компании на должность дата саентиста, вы поймете, что каждый работодатель ожидает от вас разделение разных пуллов обязанностей.
Разногласия между ожиданиями кандидата и работодателя ставит и одних, и других в незавидную ситуацию. Больше всего она затрагивает тех, кто только начинает свой профессиональный путь в сфере дата саенс. Молодой специалист надеется войти в мир данных и полагает, что после этого будет использовать .fit() .predict() на уже готовом наборе данных.
Но после некоторого времени он понимает, насколько незавидна реальность и насколько она отличается от ожиданий. Вдруг выясняется, что обучением моделей и подбором гиперпараметров необходимо выполнить множество других задач. Например, вникнуть в тему бизнеса, чтобы понимать его основные проблемы и формулировать их на математическом языке; собрать данные для задачи, а также самостоятельно провести все необходимые махинации над ними для последующей интеграции в MLflow. После этого поместить данные в Docker-контейнер, а также провести оценку нагрузок перед отправкой в эксплуатацию.
Как справиться с проблемой
В этой сфере, как и в любой другой, присутствуют специфические основные компетенции:
- Математика. Это включает в себя теоретическое понимание алгоритмов ML, математическую статистику для проверки различных гипотез и последующей работы с полученными результатами. Также сюда можно добавить любые знания, которые потребуются для решения задач конкретно в вашей специфической области.
- Разработка. Сюда можно отнести инженерную часть работы, а именно работу с такими инструментами как DevOps, SysOps и так далее.
- Специфика области. По большей части здесь нужно упомянуть социальные навыки, которые помогут выстроить диалог не только с коллегами, но и партнерами по бизнесу для четкого понимания проблемы и последующего поиска ее решения.
Такая модель позиционирует дата саентиста как некий элемент из распределения Дирихле. Однако, используя это распределение, мы можем определить и новые роли, которые будут полезны в понимании того, чем вам придется заниматься на новом рабочем месте.
- Первая роль — Machine Learning Engineer. Основная задача заключается во внедрение и поддержании актуальности ML-моделей. Эта работа требует глубокого понимания в области ML-алгоритмов. Помимо этого, для успешного выполнения поставленных задач здесь, разумеется, необходимы и навыки разработки.
- Аналитики данных — настоящие эксперты в области математической статистики. Однако эксперт, который проверяет гипотезы и занимается экспериментами также должен быть в курсе текущих бизнес-тенденций.
- Data-инженер — это специалист, занимающийся ETL-процессами, архитектурой хранилищ данных, созданием витрин данных и их поддержкой, а также организацией потоковой обработки данных.
- Исследовательская деятельность и все вытекающие процессы (например, изучение и публикация научных статей, а также разработка инновационных математических методов) — это то, чем занимается Machine Learning Researcher. Не все компании в нашей стране могут поддерживать такую деятельность, поэтому ML-ресерчеры, в основном, представлены только в крупных отечественных фирмах.
- Ответить на вопросы бизнеса помогает аналитик. Важно отметить, что основные компетенции такого специалиста сосредоточены на специфической области и зависят от направления деятельности компании.
- Завершающая роль — DevOps специалист. Его основная обязанность заключается в разработке и развертывании кода в производственной среде.
Как справиться с проблемой
Степень компетенций для каждого уровня в области Data Science может существенно варьироваться от организации к организации. Однако мы попытаемся кратко охарактеризовать профиль профессионала, который соответствует каждому из уровней карьерной лестницы.
Проблемы профессионального роста у средних специалистов могут быть связаны с отсутствием проактивности или нежеланием взять на себя ответственность. Сюда можно причислить и неумение или нежелание находить общий язык с заказчиками и командой, синдром самозванца.
Несмотря на это, у каждого руководителя команды существуют определенные характеристики. В первую очередь он должен иметь так называемые hard skills — технические навыки. Сюда включают возможность ответить на специфичные для проекта вопросы, которые требуют понимания того, как все работает. Помимо этого, руководитель и сам может сделать так, чтобы “все работало”.
Руководитель планирует и четко ставит задачи своей команде, а при необходимости может декомпозировать их. Немаловажно иметь прокачанные социальные навыки для продуктивной коммуникации с подчиненными, а также понимать бизнес-процессы для прямого взаимодействия с ними.
Читайте также
Большие данные — Big Data в...
Big data — большие данные в...
Нормализация базы данных SQL
Остались вопросы?
Оставьте контактные данные и мы свяжемся с вами в ближайшее время