Базы данных компаний хранят огромное количество разной информации. И есть специальные люди, которые анализируют, сортируют, обрабатывают полученные данные и помогают компании и её продуктам совершенствоваться. Таких людей называют Data Scientist. О нюансах профессии и работе в IT мы узнали у Павла Винара — Data Scientist с 5-летним опытом, руководителя RnD-отдела MAXIMUM Education.
«Зарплаты привлекают, но важно, чтобы это было твоё»: опытный Data Scientist о работе в ИТ
Чем занимается специалист Data Science?
Если обобщить, то профессия о том, как сделать продукты той или иной компании основанными на исторических данных.
Один из самых типичных примеров: прогноз расторжений, когда пользователь потенциально может расторгнуть договор с компанией. Мы строим математические модели, высчитываем вероятность рисков каждого конкретного кейса и выводим факторы, влияющие на этот риск. По сути, это сбор данных, обработка данных, постановка каких-то гипотез на проверку и создание моделей.
Что можно рассказать о классическом распорядке рабочего дня Data Scient?
Здесь важно сказать о подходе к ведению разработки. У нас уже есть пул задач от «бизнеса» (бизнес-отдела): например, проверить корреляцию между результатом домашних заданий и временем, когда ученик его выполняет, или выяснить, как влияет жестикуляция преподавателя во время урока на вовлечённость учеников в образовательный процесс. Пул постоянно пополняется, поэтому мы с командой раз в две недели приоритизируем задачи.
Классический день Data Scientist можно описать так: он приходит, получает data set (например, таблица с историей посещения сайта: в какой время зашёл на сайт, какие кнопки нажимал и т. п.) или формирует его самостоятельно, потом пытается почистить данные, после чего приступает к анализу и пытается получить тот или иной вывод (в идеале — полезный для бизнеса).
Иногда бывают дни, основанные лишь на общении с «бизнесом», потому что для того, чтобы начать какой-либо анализ, нужно понять сам бизнес-процесс.
Если хочется работать в профессии, с чего стоит начать обучение?
Python — скриптовый язык программирования, который очень сильно сейчас используется в DataScience. Под него есть довольно много различных библиотек, а также можно найти нужную информацию в сети — даже бесплатные курсы. В рамках изучения теории о базах данных необходимо понять, как данные хранятся, как их собирать и как их обрабатывать.
Сверху к этому необходимо добавить статистическую обработку (это корневая часть Data Science), теорию вероятности и матанализ.
А как начиналась Ваша карьера и связано ли Ваше образование с Data Science?
Бакалавра я получил в Киевском Политехническом институте (специальность «Метрология и информационно-измерительные технологии», направление «Метрология и менеджмент качества»), у меня было достаточно много статистики.
В магистратуре я ушел в стандартизацию машиностроительного процесса в МГТУ Станкин. Там работы с данными практически не было, но при работе с магистерской диссертацией было довольно много математики и анализа данных.
В аспирантуре, тоже в МГТУ Станкин, у меня была специальность «Управление в технических системах», и там Data Science как такового не было, но мне никто не мешал мне использовать анализ данных и машинное обучение в аспирантской работе.
Что самое сложное в Вашей работе?
Просто есть рыночный тренд, в компании хотят заниматься анализом данных, но не очень понимают, как это применять и что вообще можно с этим сделать. Ребята могут столкнуться с тем, что просто не с чем работать: либо нет данных (чаще всего), либо — размытые задачи. Нередко бывает, что из-за этого сотрудники уходят в большие крупные компании с налаженными процессами.
Еще бывает так, что в процессе работы человек сталкивается с выгоранием, потому что большое количество гипотез не подтверждается и проделанная работа не дает никаких результатов или даёт, но очень медленно. Необходимо иметь терпение и выдержку.
Какие ошибки может совершить начинающий Data Scientist при поиске работы и/или прохождении собеседования в компанию?
Часто люди переоценивают свои возможности и пытаются юлить на собеседованиях, а потом не справляются с поставленными задачами. Лучше так не делать. Надо стараться оставаться открытым и честным по отношению к интервьюерам. Не надо накручивать и перекручивать резюме.
Лучше пусть будет много собеседований (кстати, собеседование в одну компанию обычно состоит минимум из 3-х этапов: вводное интервью с HR, техническое задание/техническое собеседование и общение с командой/тимлидом), потому что в процессе их прохождения вы получаете обратную связь. Она может научить многому.
И пусть сначала зарплата будет ниже, но зато полученный опыт даст возможность расти дальше. Не стоит гнаться за какими-то успехами в моменте.
Все будет хорошо, просто со временем. Осознание и принятие этого даст очень много плодов, мне кажется.
Можете ли вы посоветовать какие-нибудь подкасты или YouTube-каналы для тех, кто интересуется профессией?
Большая часть каналов в социальных сетях и на YouTube — вводные, но зато можно узнать о свежих новостях и каких-то трендах. Это, определенно, жирный плюс.
- ods.ai — международное сообщество, объединяющее специалистов, исследователей и инженеров, связанных с Data Science.
- На канале Miracl6 могут рассказать о каких-то трендах в DS, особенностях собеседований, что и как учить, чтобы претендовать на ту или иную позицию. Верхнеуровнево, но понятно и может задать какой-то вектор.
- Лектория ФПМИ — чуть более прикладной, с записанными лекциями. Можно в какие-то детали погружаться.
- Крутой преподаватель из МФТИ расскажет и про Python, и про анализ данных.
- Лекторий «Яндекса» по компьютерным наукам, тоже с детализацией, может оказаться немного сложным для начала, но точно полезно.
Как вы думаете, есть ли возможность переучиться и уйти в эту профессию из гуманитарной сферы?
В самом начале точно будет местами сложно, но если с такими вещами человек справляется, то вообще без проблем, всё получится.
За год или за полтора интенсивной учёбы, можно неплохо погрузиться в основы, создать проект, добавить его в портфолио и начать собеседоваться. Сейчас практически нет стажировок с нуля, где тебе всё смогут объяснить, разжевать. Очень большой конкурс. Поэтому обычно приглашают уже людей с базой и пусть и «домашним», но опытом, собеседуя как на полноценную работу.
Плюс здесь не так много дают знаний — бОльшую часть вещей необходимо изучать самостоятельно. Необходима любознательность. Важно общаться с сообществами, погружаться в тематику, изучать профильные вещи.
Какие подводные камни ждут начинающих Data Scientists?
Неоправданные ожидания, в первую очередь.
Порядка 80% времени — это подготовка наборов данных для обучения модели и коммуникации с бизнесом. Не надо ждать сразу результатов: настраивайтесь экспериментировать и ковырять данные.
Если в команде отлажены процессы — потенциально все будет хорошо. Могут быть сложности в согласовании каких-то вопросов с бизнесом: обычно нужно много подтверждений для его вывода проекта в продакшн.
Какую зарплату не стыдно запрашивать специалистам разных уровней: junior, middle, senior, lead?
Эти понятия от компании к компании варьируются. Здесь нет четких разграничений, поэтому однозначного ответа нет. Но если говорить о диапазонах, то лучше начать со стажера. У него зарплата может быть порядка 40 000 рублей или даже просто работа за опыт. Когда он переходит в позицию junior, там зарплата может быть от 60 000 до 100 000 рублей.
Но здесь нет пределов, и всё всегда зависит от компании.
Мой опыт мне подсказывает не гнаться за деньгами, а искать что-то созвучное себе. IT – соблазнительная вещь, но могут быть сложности из-за специфики работы.
Где в России учиться программированию
Выбор места для изучения программирования – это важный шаг на пути к карьере в IT. В России множество прекрасных учебных заведений, где можно получить качественное образование.
МГТУ им. Н.Э. Баумана – один из лидеров среди технических вузов страны, предлагает обширные программы по информационным технологиям и компьютерным наукам.
Санкт-Петербургский государственный университет (СПбГУ) также занимает высокие позиции в рейтингах, предоставляя студентам возможность изучать различные аспекты программирования и разработки ПО.
МФТИ (Физтех) – это выбор для тех, кто хочет глубоко погрузиться в науку о данных и компьютерное моделирование.
Нельзя не упомянуть НИУ ВШЭ, которая активно развивает направления, связанные с IT-технологиями и цифровой экономикой, предоставляя студентам современную базу для обучения.
Кроме университетского образования, отличной отправной точкой может стать обучение в колледжах с IT-специализацией. Они часто предлагают более прикладные программы и дают возможность быстрее начать работать по специальности. Перечислим несколько таких колледжей:
А чем вас привлекает сфера ИТ?