2021/12/10 10:55:32

Сергей Носов, «Ростелеком»: Как создать платформу управления данными на основе Open Source и сэкономить миллиард

Компания «Ростелеком» в последние годы проделала огромный путь к эффективному управлению корпоративными данными и получению ценности на основе их анализа. Используя возможности Open Source, крупнейший российский провайдер цифровых услуг и решений создал комплекс для решения всех задач на основе данных – от хранения и транспортировки до контроля качества и глубокой аналитики. О результатах и планах компании TAdviser поговорил с директором по управлению данными (CDO) компании «Ростелеком» Сергеем Носовым.

Сергей
Носов
Любому крупному бизнесу приходится решать технологически сложную проблему агрегации большого пула данных из разрозненного ландшафта

Как вы оцениваете эволюцию сферы управления данными в компаниях за последние 10-15 лет? Какие принципиальные изменения произошли за это время?

Носов Сергей: На мой взгляд, каких-то революционных изменений именно в сфере управления данными за последние 10-15 лет не произошло. Крупные компании еще в самом начале нынешнего века строили хранилища данных, применяли различные аналитические инструменты для повышения эффективности бизнеса.

Но поменялось другое. Во-первых, за 10-15 лет сильно изменилось технологическое окружение процессов работы с данными. Появились более технологичные и производительные средства хранения и обработки данных, которые позволили работать с большими объемами информации в потоковом режиме. Активно развивался рынок облачных технологий, open source решения. Намного производительнее стали вычислительные системы. Стало доступно большое количество библиотек для глубокой аналитики данных. Ряд сложных задач, которые раньше нельзя было решить из-за технологических ограничений, сейчас можно выполнять довольно успешно. Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

Во-вторых, в мире стало намного больше источников данных. Потоки информации формируют миллиарды мобильных и носимых устройств, датчики сегмента интернета вещей (IoT). Каждый человек и компания стали оставлять много цифровых «следов» в интернете. Возросший пул данных позволил формировать более глубокую аналитику. Понятно, что в условиях быстрого роста количества потоков данных и анализируемых сущностей, возможности классических хранилищ данных исчерпали себя не только для крупных, но и для многих средних компаний. И здесь вовремя подоспели технологические изменения.

В-третьих, за 10-15 лет в компаниях коренным образом изменилось отношение к данным: бизнес стал понимать, что анализ данных привносит большую ценность и что на основе данных можно принимать более обоснованные решения. Как следствие, стали быстро меняться требования к данным, глубине аналитики и шире использоваться новые технологические возможности. В результате многие аналитики отошли от использования Excel к более сложным и производительным решениям.

Какие решения востребованы на сегодня крупным бизнесом, а что помогает предприятиям СМБ?

Носов Сергей: Важно понимать разницу между крупным корпоративным сегментом и компаниями среднего и малого бизнеса. Практически у всех крупных компаний накоплено большое ИТ-наследие (legacy). Исторически по мере проникновения новых технологий и решений, ИТ-ландшафт разрастался и усложнялся. Любому крупному бизнесу приходится решать технологически сложную проблему агрегации большого пула данных из разрозненного ландшафта. Поэтому такими компаниями в первую очередь востребованы современные технологические решения, способные оперативно обрабатывать большое количество внешних и внутренних данных, анализировать их в режиме онлайн и давать бизнесу определенную основу для принятия решений. Что касается направлений использования данных, то здесь, на мой взгляд, нет различий между крупным бизнесом и СМБ – глубокая аналитика сегодня нужна всем. Но среднему и малому бизнесу, на мой взгляд, проще работать, поскольку такие компании обычно не обременены сложным ИТ-ландшафтом, у них меньшие объемы данных и как правило ниже требования к безопасности. Из-за этого они могут быстрее внедрять и им проще эксплуатировать доступные на рынке аналитические решения, которые сейчас стали доступны в том числе в виде облачных сервисов.

Расскажите об опыте управления данными в компании "Ростелеком". На чем делается акцент сегодня?

Носов Сергей: На сегодня наша компания выделяет для себя несколько стратегических целей. Первая – внедрение культуры работы с данными и data-driven подходов. Для этого мы должны построить качественный аналитический слой данных, с которым бизнес сможет работать самостоятельно. Нашему внутреннему заказчику необходимо понимать, где он может получить те или иные данные, каким образом он сможет их обрабатывать, какие технологии ИТ-блок для этого предоставляет и как этими технологиями пользоваться. То есть мы должны создать в компании базис для использования данных и обучить коллег им пользоваться.

Вторая цель – повышение эффективности бизнеса как на основании data-driven подходов, так и за счет снижения затрат на работу с данными.

Третья цель – исполнение регуляторных требований. Российское законодательство развивается, есть довольно строгие требования по защите персональных данных клиентов, по идентификации клиентов, по противодействию терроризму и т.д. Для любой компании обязательно исполнение этих требований.

Четвертая цель – импортозамещение. На «Ростелеком», как компанию с государственным участием, распространяются требования по замещению иностранного программного обеспечения. Поэтому мы разрабатываем собственные решения с нуля или на базе доступных open source продуктов.

Наконец, пятая цель – это монетизация имеющихся в компании данных, компетенций и продуктов управления данными. Мы прошли довольно длительный путь создания централизованного хранилища данных внутри компании, создавали новые технологические решения, внедряли практики Data Governance. Сейчас накопленный опыт мы предлагаем рынку в виде услуги построения хранилищ данных «под ключ» на базе разработанных нами продуктов.

Какие решения по управлению данными вы используете в своей работе и как при этом выстраиваете взаимодействие с бизнесом?

Носов Сергей: Как я уже сказал, с учетом политики импортозамещения, мы используем широкий спектр решений собственной разработки. Надо отметить, что создание с нуля решений по работе с данными – это очень затратное мероприятие, поэтому мы не только создавали собственные решения, но и дорабатывали open source продукты. В частности доступные решения экосистемы Hadoop, Greenplum и другие. Наши специалисты добавили в эти продукты ценные возможности.

Из собственных продуктов отмечу решения по транспортировке данных, управлению мастер-данными (MDM) и справочными данными (RDM). Также с нуля мы создали продукт RT.DataGovernance, позволяющий решать все методологические задачи управления данными, обеспечивать профилирование и контроль качества данных, описывать взаимосвязи между данными. Это очень важно, поскольку, решая любую бизнес-задачу, необходимо понимать полную цепочку: откуда вы получили данные, как вы их преобразовали, где они хранятся.

Сейчас мы представляем рынку нашу платформу управления данными, созданную на основе Open Source решений. Мы полностью уверены в ее эффективности, поскольку уже используем ее для решения задач «Ростелекома» и внедрили ее у ряда заказчиков.

Если говорить про наше взаимодействие с внутренними заказчиками, то можно выделить несколько типов совместной работы. Вы можете предоставлять бизнесу только инфраструктуру для самостоятельной работы с данными. Можете готовить для бизнеса классическую отчетность «под ключ». Можете предоставлять конечный сервис, обеспечивающий повышение эффективности или продаж.

Выбор вида взаимодействия зависит от большого количества факторов. Мы с бизнесом взаимодействуем в той модели, к которой они сами готовы..

При решении некоторых задач требуется работа совместных команд. Например, при решении задач удержания клиентов, бизнес приходит к нам с гипотезами о том, какие факторы преимущественно влияют на решение клиента. Бизнес хорошо понимает свои операционные процессы и узкие места, а у нас есть хороший математический и технологический аппарат. Совместная работа двух команд – бизнеса и ИТ – дает возможность реализовать более качественные решения, которые с большой достоверностью покажут, что для клиента сейчас важно, почему у него могут возникнуть идеи отказаться от услуг компании.

Поэтому во взаимодействии с заказчиком мы подстраиваемся под конкретную задачу, под конкретных людей.

Что пришлось поменять со стороны пользователей? Как их настроить на быстрые изменения?

Носов Сергей: Нам не пришлось как-то по-особенному настраивать бизнес-пользователей на быстрые изменения. Скорее наоборот – бизнес требовал от ИТ блока. Бизнес постоянно требует от нас большей полноты и качества данных, большего количества аналитик, повышения оперативности работы с данными. Для этого нужны новые технологические решения. То есть главная задача ИТ – успевать за потребностями бизнеса.

Конечно, в чем-то и мы можем влиять на бизнес. Например, на различных обучающих мероприятиях наши эксперты объясняют коллегам, как пользоваться аналитическими инструментами по работе с данными, показывают на конкретных примерах то, как можно извлекать ценность из данных. Иногда мы доказываем представителям тех или иных подразделений целесообразность создания универсальных решений, которыми могут пользоваться разные бизнес-блоки.

Наша задача состоит в том, чтобы научить бизнес принципам работы с данными, дать необходимые технологии и решения, объяснить необходимость совместной работы. Только в таком случае каждый бизнес-юнит в общем «озере данных» сможет найти для себя что-то полезное. Это не всегда простая задача. Таким образом мы стараемся влиять на культуру работы с данными, продвигаем Data-driven подходы.

Какого экономического эффекта добилась ваша компания благодаря налаживанию процесса управления данными? Как вы измеряете этот эффект?

Носов Сергей: Можно говорить о прямом и косвенном финансовом эффекте.

О каком косвенном эффекте я говорю? Например, иногда сложно выделить ценность именно работы с данными, потому что полученный эффект может быть обусловлен большим количеством инициатив, происходящих в компании в одно время. Или в результате получения определенных инсайтов, вы меняете процессы обслуживания клиентов и обеспечиваете рост индекса лояльности клиентов (NPS). Но измерить влияние NPS на экономику компании крайне сложно.

Другой пример. Мы обеспечили решения для быстрой проверки технической возможности предоставления доступа в интернет потенциальному клиенту. Здесь можно говорить об экономическом эффекте, достигнутом благодаря грамотной работе с данными, но измерить его достаточно сложно.

Есть прямой финансовый эффект, который можно оценить довольно точно.

Мы добились сокращения расходов на работу с данными в компании: уменьшили затраты на сопровождение ряда децентрализованных решений, отказались от дорогого иностранного программного обеспечения благодаря использованию Open Source решений. Снизили затраты на закупки внешних данных вследствие создания централизованных решений, которые опираются на открытые внешние источники.

Экономия расходов «Ростелекома» при работе с данными за 2019-2021 годы составила более 1 млрд рублей. Основной вклад в такую солидную экономию дал отказ от проприетарного ПО и сторонней поддержки ключевых компонент хранилища данных. У нас более 200 источников данных, хранилище построено на базе собственной сборки open source версии Greenplum и насчитывает 72 узла, есть огромный Hadoop-кластер, который мы поддерживаем самостоятельно. Если на таких объемах использовать проприетарные решения и платную поддержку, то это выльется в огромные расходы – сотни миллионов рублей ежегодно.

Если оценивать дополнительную выручку, которую мы обеспечили за счет монетизации данных, то стоит упомянуть повышение конверсии продаж. По оценкам наших коллег из бизнес-подразделений, совокупный экономический эффект в сегментах b2b и b2c по итогам 2021 года около 100 млн рублей. При этом мы считаем, что в следующие два года за счет повышения качества моделей работы с данными, масштабирования этих моделей на другие продукты, можно будет дополнительно принести выручку около 1 млрд рублей.

Есть еще ряд решений, которые могут принести значимый экономический эффект, но говорить о конкретных цифрах пока рано. Могу сказать лишь, что мы недавно внедрили чат-бота, который помогает нашим клиентам решать многие вопросы по ряду тематик без обращения в контакт-центры. Многие типовые вопросы можно решать с помощью автоматизированных средств на основе машинного обучения.

Наверное, "Ростелеком" как корпорация имеет возможность не только извлекать пользу из данных для себя, но и делиться различными решениями. Что вы предлагаете рынку?

Носов Сергей: Внешним заказчикам мы предлагаем несколько продуктов и сервисов. Прежде всего эта платформа управления данными, которая уже успешно работает для решения задач «Ростелекома». В нее входят все компоненты хранения, транспортировки, преобразования данных, инструменты классов MDM и Data Governance. Мы предоставляем возможность использовать как платформу целиком, так и ее отдельные ее компоненты. Наше предложение доступно в формате on-premise и в виде облачного сервиса (PaaS).

В рамках проработки некоторых кейсов по внедрению платформы управления данными внешним клиентам, мы поняли, что многим компаниям требуется не только техническая платформа, но и услуги по внедрению корпоративных хранилищ данных и построения практики Data Governance. Сейчас мы предоставляем клиентам и такую услугу.

Говоря о возможностях «Ростелекома», можно также отметить работу нашего совместного с ВТБ предприятия – Platforma. Компания разрабатывает инструменты для бизнеса на основе big data: сервисы персонализации, геопространственного анализа, планирования продаж, рекламные платформы.

Таким образом, сегодня «Ростелеком» способен практически полностью покрывать потребности рынка в работе с данными.

Какие условия должны быть выполнены, чтобы управление данными в компании не просто заработало, а начало приносить экономический эффект? Есть ли какой-то технологический минимум и набор процессов, которые надо выстроить?

Носов Сергей: Конечно, универсальные рецепты предложить невозможно. Но есть набор условий, который необходим для того, чтобы появилась возможность для эффективного управления данными.

Для запуска процесса изменений работы с данными в первую очередь необходимо заручиться поддержкой руководства компании. Это особенно важно на ранних стадиях реализации проектов.. Направление достаточно капиталоемкое и не сразу дает значимый эффект. Чтобы получить определенную ценность, вам необходимо провести большую техническую работу. Если поддержка топ-менеджмента будет недостаточной до того момента, как вы создадите фундамент, то деньги будут потрачены впустую. Поэтому ИТ-службе здесь очень важна ресурсная и управленческая поддержка.

Когда вы построите базис и осознаете, что поддержка руководства сыграла свою роль, на первый план выйдет доверие внутренних заказчиков. Говоря о доверии, я имею в виду принятие бизнесом тех решений, которые вы предлагаете, желание их апробировать. На следующем этапе, после того как решения апробированы, важна готовность бизнеса их внедрять. При этом у вас должна быть сильная техническая команда, способная оперативно решать сложные задачи и справляться с большим количеством трудностей.

Среди обязательных условий я бы также выделил готовность экспериментировать, пробовать разные решения, способность оценивать перспективы тех или иных решений для бизнеса, а также возможность вовремя отказаться от неэффективного решения.

Если перечисленные мной условия в компании не соблюдаются, то, скорее всего, проекты по управлению данными будут обречены на неудачу.

Мне приходилось участвовать в инициативах некоторых компаний в этой области, но я часто видел, что у этих организаций отсутствовала необходимая основа: как правило, у них не было полноценных хранилищ данных, отсутствовал опыт в сфере Data Engineering, не было сформировано понимание способов решения бизнес-задач на основе данных. При этом была озвучена готовность инвестировать в это направление и горячее желание получить быстрый результат. В таком случае я советую обратиться в компанию «Ростелеком» или в другую компанию, которая поможет запустить необходимые процессы и создать технологическую основу для решения задач. И только после этого можно будет перейти к решению задач, позволяющих извлекать ценность из данных. Правильный настрой заказчика, понимание того, что при отсутствии технического фундамента не стоит ждать эффекта «здесь и сейчас», — важное условие для успеха проектов.

Сейчас много говорят о предиктивной аналитике. Используете ли вы её в бизнесе и для управления различными внутренними процессами?

Носов Сергей: Подобные решения уже довольно широко используются в нашем бизнесе. Например, с их помощью мы стараемся предсказать вероятность оттока клиентов, анализируем возможные причины оттока. Это помогает начать методичную работу с клиентом, который может прекратить отношения с «Ростелекомом» на ранней стадии. Например, есть высокая вероятность ухода клиента вследствие сбоевна участке сети в его регионе. Наши специалисты клиентской поддержки могут предложить скорректировать тарифный план, проверят возможность улучшения качества доступа к интернету.

Также мы прогнозируем то, какие продукты могут быть интересны тому или иному b2b- или b2c-клиенту, исходя из его профиля. Мы стараемся позаботиться о клиенте: предложить ему услуги, о которых он, быть может, не знал, но которые могут быть ему интересны. Итог таких мероприятий - повышение клиентского опыта, повышение лояльности клиентов, что приводит и к дополнительному финансовому эффекту.

Что касается внутренних процессов, то возможности предиктивной аналитики, например, использует наш HR-блок. Коллеги строят модели оценки рисков увольнения того или иного сотрудника и проводит предиктивные мероприятия по удержанию сотрудников.

Хотелось бы услышать ваш прогноз по развитию аналитики в ближайшие годы.

Носов Сергей: Многие современные средства аналитики так или иначе основаны на технологиях искусственного интеллекта. Но при этом необходимо отметить, что возможности искусственного интеллекта еще довольно ограничены. Если система, построенная с помощью средств машинного обучения, имеет в обучающей выборке те или иные кейсы, которые отражают интересующую вас ситуацию, то такая система поможет оценить вероятность анализируемого события. Если же с интересующими вас кейсами компания не сталкивалась или если внешние обстоятельства, влияющие на анализируемый кейс, меняются очень быстро, то ИИ не сможет вам помочь в полной мере.

Сложно принять идеальное решение. Мы всегда в условиях неопределенности принимаем локально оптимальные решения из-за имеющихся ограничений, в том числе учитываем понесенные затраты и потенциальную ценность от решения. Необходимо искать баланс между стоимостью решения и ценностью. А стоимость решения зависит от ряда факторов: производительность и стоимость вычислительных ресурсов, стоимость новых технологий работы с данными, наличие data science специалистов, способных быстро и дешево решать бизнес-задачи. Снижая стоимость принятия решения, вы получаете большую ценность. За счет естественного снижения стоимости разработки и внедрения решений, все больше типов задач смогут быть решены с использованием технологий искусственного интеллекта.

На мой взгляд, темпы развития аналитических средств и технологий искусственного интеллекта, которые мы видели в последнее время, должны сохраниться и в следующие пять лет. Делать прогнозы на более долгую перспективу я не рискну. Уверен, что все больше количество типовых задач компании смогут решать лучше, быстрее и дешевле. Но говорить о каких-то прорывных историях, когда искусственный интеллект почти полностью повсеместно заменит людей я бы пока не стал. Компании по всему миру будут накапливать все больше данных и будут возникать расширенные возможности для аналитики. В результате люди смогут принимать более сложные и более оптимальные бизнес-решения.

Если говорить о ближайшем будущем компании «Ростелеком», то наш фокус будет находиться в той же плоскости. Мы принимаем все больше запросов бизнеса на создание аналитических решений, а это значит, нам надо усиливать тот фундамент, на котором мы стоим, повышать технологические возможности для решения прикладных задач. Если мы не будем этого делать, работа всех аналитических направлений будет тормозиться, а значит, бизнес не сможет принимать качественные решения. Естественно, также мы продолжим монетизировать те данные, с которыми работаем.