Senior Data Scientist Ярослав Старухин о пути в профессии, ярких проектах и трендах индустрии

10.12.23, Вс, 11:00, Мск,

В современных реалиях, в которых развитие технологий стоит на первом месте, большие данные имеют колоссальное значение как в науке, так и в бизнесе.

По данным РБК Тренды, консолидированные действия способны обеспечить рост рынка больших данных на 90% (до 319 млрд руб.) к концу 2024 года. При этом от использования big data отрасли экономики получат дополнительный эффект в 1,6 трлн руб. Senior Data Scientist и победитель Open Data Science Awards 2019 Ярослав Старухин в профессии уже 8 лет. Он рассказал о карьерном пути, крупных проектах, трендах и будущем индустрии.

Ярослав Старухин

Ярослав, давайте начнем с того, как вы пришли к работе на рынке big data. Какой путь вы прошли, прежде чем заняли позицию Senior Data Scientist?

Когда я учился на факультете математических методов в экономике РЭУ имени Плеханова, большие данные и искусственный интеллект только становились трендом. Спустя несколько лет обучения стало понятно, зачем мы изучали более семи видов математики (линейную алгебру, мат. анализ, теорию вероятностей и другие) и как они встречаются вместе в прикладных науках. Конечно, мы решали простейшие задачи и строили примитивные математические модели, но уже тогда стало интересно, как более сложные модели и алгоритмы могут применяться в индустрии и приносить пользу для бизнеса. Параллельно с обучением я прошел несколько курсов по машинному обучению, которые тогда были доступны. А после стал искать стажировку, чтобы как можно быстрее познакомиться с современными технологиями в реальном мире.

Первый проект, который я реализовывал, во многом опирался на знания, полученные в университете. Он был похож на одну из лабораторных задач, но масштаб был крупнее. Через пару лет, по мере того, как я продвигался в решении прикладных задач и углублялся в изучение современных методов, мне захотелось получить более специализированное образование, связанное с машинным обучением и разработкой ПО. Напомню, когда я учился, таких целостных программ было буквально несколько штук в стране. Чтобы усилить свою базу, я решил пойти в Школу анализа данных (ШАД). Готовился год, вспоминал те самые семь видов математики и после длительного отбора попал на программу. Именно она дала мне полное фундаментальное понимание современного Data Science и передовых методов, которые еще не стали так популярны в индустрии. В то же время, я активно применял полученные навыки на практике и возглавлял аналитические проекты трансформаций крупных ритейл-сетей и обогатительных фабрик.Елена Истомина, Directum: Как no-code меняет стоимость проекта 7.6 т

Известно, что вы работали над инновационными проектами, которые стали одними из первых подобных кейсов в индустрии. Одним из таких является проект для заводов Казахстана, где у вас была ведущая техническая роль. Можете рассказать о нем подробнее?

Да, конечно. Я возглавлял команду из четырех аналитиков и двух разработчиков, выстраивал архитектуру решения, а также участвовал в разработке цифрового советчика для команды управления всем заводом.

Проект является частью крупной цифровой трансформации, цель которой - выстроить горизонтальные и вертикальные продукты в компании. Горизонтальный продукт - это функциональная экспертиза и все, что с ней связано, а вертикальный - продукт для конкретного юзкейса.

Например, вертикальный продукт - это цифровой советчик, который каждые пять минут дает рекомендацию по тому, как бурить скважину; а горизонтальный продукт - это MLOps платформа, которая позволяет масштабировать и автоматизировать продукты, подобные этому.

Модели машинного обучения, лежащие в основе подобных продуктов, требуют постоянного мониторинга, желательно без участия человека. Необходимо своевременно и правильно формировать отчеты о качестве данных и функционировании моделей, а также проверять результаты, достигнутые с использованием подобных продуктов. Одной из особенностей этого проекта является то, что я создаю систему для всех продуктов компании.

В мои обязанности входила разработка и управление аналитической частью проекта. Главная задача заключалась как в построении пилота цифрового советчика, так и полная трансформация вокруг нового цифрового продукта для фабрики. В него вошло обучение сотрудников, выстраивание процессов обратной связи и изменения старых подходов к управлению заводом. Первый подобный проект привел к масштабированию на всю сеть заводов клиента, где я также лидировал процесс разработки и внедрения цифровых советчиков.

У вас также есть опыт работы в международном и российском ритейле, где вы занимались развитием аналитической стратегии и ее имплементацией. Благодаря вашему подходу проекты обрели работающие системы лояльности. В чем именно заключалась ваша стратегия?

Опыт, действительно, был интересным. Проект вовлекал как отдел маркетинга, так и коммерческий. Необходимо было не просадить многомиллионную маржу, управляя маркетинговыми кампаниям, которые запускались десятками ежедневно. Первым был ритейл в СНГ, где я с командой делал первый в мире Customer Value Management (CVM). Это была крупная цифровая трансформация, в которой я разработал аналитические процессы на стороне клиента, связанные с персональной коммуникацией с покупателями магазинов, собрал команду и научил ее приносить экономический эффект. Это потребовало тестирования большого количества гипотез: что приносит (и какой) экономический эффект, программы какого вида работают - допродажа сопутствующих товаров к основным или просто скидка на любимые продукты гостя. Также нужно было ответить на ряд вопросов: правильно ли давать скидку или лучше начислить баллы по программе лояльности; каким каналом (смс, WA, вайбер, пуш, чек на кассе или какой-то другой) правильно это донести до покупателя; как отслеживать эффективность подобных промо-кампаний и прочее. На каждый вопрос или гипотезу приходилось разрабатывать модели машинного обучения, придумывать и пилотировать схемы А/Б тестирования, а главное - составлять такие результирующие процессы, которые были бы максимально автономны и почти не вовлекали специалистов по анализу данных, потому что речь шла о сотнях подобных кампаний еженедельно.

После успешной трансформации сети в СНГ меня пригласили работать над аналогичным проектом, цель которого - достичь подобных результатов для федеральной ритейл-сети в России. Это несколько усложняло задачу, поскольку речь шла о большем количестве гостей магазинов, регионов, форматов и других особенностях большой продуктовой сети. Здесь фокус уже был направлен на работу с оценкой экономической эффективности кампаний. Моей задачей была разработка такого инструмента, который позволил бы сказать, на какие магазины сети и с какой длительностью стоит запускать эксперименты. Эксперименты – это кампании, которые проект запускал лишь на определенные магазины и с фиксированной длительностью, чтобы понять, где потенциально может быть положительный экономический эффект, если кампанию масштабировать. Мой инструмент помогал заранее отобрать из десятков тысяч кампаний те, запустив которые на всю сеть, мы бы не потеряли миллионы коммерческой маржинальности.

Ярослав, какие тенденции вы могли бы отметить в вашей сфере, как эксперт с большим опытом?

Основной тренд – это, конечно, сдвиг от MVP к поддержанию и развитию AI-продуктов. Многие игроки из индустрии уже попробовали применить машинное обучение и анализ данных для улучшения своих процессов. Список юзкейсов и ожидаемые эффекты понятны. Теперь главный вызов в том, чтобы удержать эффект и минимизировать усилия, требуемые на поддержание подобных сервисов. Особое внимание уделяется NLP-based системам для упрощения human-in-the-loop подхода и automated reasoning, где AI принимает решение за человека.

Сегодня вы выстраиваете MLOps-платформу для крупной нефтяной сети за пределами арабских стран. Наверняка, это очень непростая задача. Какие цели у проекта и какие трудности приходится преодолевать?

Цель этого проекта - сформировать гайдлайны и инструменты для разработки и сопровождения AI-продуктов. Модели машинного обучения, которые лежат в основе подобных продуктов, нужно постоянно мониторить, причем без вовлечения человека. Особенность проекта заключается в том, что я выстраиваю систему для всех продуктов компании.

Как вам кажется, какое будущее ждет индустрию? Многие сегодня говорят о том, что планомерное развитие рынка позволит создать 32 тыс. новых рабочих мест в сфере big data и поднять индекс качества жизни на 0,7%[1]. Вы согласитесь с этим?

Да, индекс качества жизни будет расти, так как подобные технологии помогают улучшить пользовательский опыт. Многие процессы, которые сейчас улучшаются, могут быть скрыты от глаз конечного пользователя. Из очевидных улучшений - все меньше нужно ходить в отделения банка, чтобы решить проблему; быстрее реагируют службы поддержки разных крупных корпораций; появляются интересные фичи на наших смартфонах, которые, например, упрощают сканирование текста с фотографии и прочее.

Есть и неочевидные улучшения нашей жизни для конечных пользователей. Например, если компания может больше фокусироваться на улучшении продукта, а не на его сопровождении, это тоже выгодно. Фокусироваться на улучшении продукта мы можем больше, так как многие процессы, связанные с сопровождением продукта внутри компании, могут быть автоматизированы. Для меня таким примером служит введение чат-ботов, основанных на лингвистических моделях, которые, как пример (а применений для них много), ищут внутреннюю документацию внутри миллионов документов компании. Если раньше технолог на предприятии искал инструкцию к ремонту агрегата Х несколько часов, то теперь он может это сделать гораздо быстрее - просто написав в чат цифрового ассистента. Освободившееся время можно направить на решение содержательной части проблемы.

Все это легко переносится на другие сферы нашей работы и жизни. Поиск информации становится более быстрым и простым. Когнитивные задачи, которые мы решали раньше, теперь решаются искусственным интеллектом, а значит мы можем заняться содержательной работой. Создаст ли это больше рабочих мест? Скорее всего да, но остается открытым вопрос, какие компетенции будут требоваться таким специалистам на начальном этапе.

Можете привести примеры в качестве доказательства?

Например, Амазон внедряет системы автоматизации на своих складах, теперь это только роботы, а это приводит к сокращению обычных грузчиков. Но при этом сейчас им нужны люди, которые будут мониторить, обслуживать и улучшать этих роботов. Как видите, компетенции новых рабочих мест уже намного выше. Поэтому, действительно будут созданы новые рабочие места, но будет ли их больше, чем прежних – вопрос; смогут ли их занять те, чьи рабочие места были заменены – сомневаюсь, по крайней мере на это уйдет время, чтобы обучить и переквалифицировать сотрудников. И на это должны быть замотивированы сами компании, а в этом уже, как я считаю, большая роль государства, которое может разработать необходимые регуляторные акты.

Другой пример — это то, что сейчас называют человек-в-середине. Многие современные алгоритмы ИИ не настолько надежны и требуют вмешательства человека на критически важных шагах. Это вмешательство может быть примитивным, на уровне – одобрить ответ, решение ИИ или отвергнуть. Возвращаясь, к примеру с технологом, ИИ может рекомендовать обслуживание агрегата путем А, но на самом деле, поскольку ИИ обладает ограниченным контекстом, этот путь не применим, поэтому технолог даст обратную связь, уточнит требования и получит рекомендацию Б, которая уже будет применима. Поскольку эти технологии недостаточно зрелые и самостоятельные и требуют супервизии, будут появляться гибридные рабочие места, где ключевая роль человека – направлять ИИ и модерировать его работу.

Автор: Георгий Литвинов

Примечания