Заказчики: Почта России Москва; Логистика и дистрибуция Продукт: Apache HadoopВторой продукт: Apache Kafka Третий продукт: ClickHouse - система управления базами данных (СУБД) Дата проекта: 2014/01
|
Содержание |
Data Cloud (единая ИТ-платформа Почты России)
Основная статья: Data Cloud (единая ИТ-платформа Почты России)
2018: Доход в 1,2 млрд от монетизации данных о клиентах
В 2018 году ФГУП «Почта России» заработала около 1,2 млрд рублей на линейке продуктов «Директ-Мейл» (Direct Mail), использующих технологии Big Data. Об этом TAdviser рассказали представители департамента директ-маркетинга «Почты России» в феврале 2019 года. «Директ-Мейл» подразумевает целевое распространение рекламных сообщений по почтовым ящикам, основываясь на анализе информации о клиентах «Почты России».
Всего у ФГУПа порядка 80 действующих контрактов «Директ-Мейл». В числе заказчиков этих продуктов - компании Procter&Gamble, «Ив Роше Восток», «Мой Мир», «МЕТРО Кэш энд Керри», «Атласформен РУС», «Детский мир», «С-медиа», «Мир книги», «Л’орель», «Императорский монентный двор», Mamsy, «Пятерочка», Mytoys и многие другие. В месяц осуществляется порядка 25 директ-рассылок, привел TAdviser данные руководитель департамента директ-маркетинга «Почты России» Сергей Черкасов.
Проект многократно окупается, даже если сложить все усилия, потраченные за четыре года. По проведенным исследованиям, попадание в сегмент составляет 89-95%, а это значит, что до потенциального потребителя доносится информация о наших заказчиках. Сколько из них становятся реальными покупателями мы не можем оценить, но, судя по увеличению количества клиентов и объемов рассылок, результат есть, т.к. продукт достаточно дорогой по сравнению с электронной и мобильной коммуникациями, - говорит Черкасов. |
Какие данные использует «Почта России»
Основу для «Директ-Мейл» составляет накопленная база знаний о домохозяйствах. В «Почте России» поясняют, что в процессе доставки заказов из интернет-магазинов и прочих отправлений, а также других типов взаимодействия с клиентами она становится обладателем уникальной информации о потребностях и интересах людей. Ключевым объектом при этом является домовладение (его почтовый ящик).
Этот подход уникален, поскольку собираемая информация не исчерпывается только сведениями о персоне, а позволяет намного расширить понятие о поведении и мотивации потенциальных потребителей, их окружении и возможных потребностях. Можно узнать, кому будут интересны детские товары, а кому — автозапчасти, кто любит кулинарию как хобби, а кто — как гурман, - поясняют в «Почте России». |
Основным источником больших данных о домохозяйств служат собственные транзакции «Почты». Они составляют 65% от общего объема. Вторая часть — внешние данные (8%), которые необходимо приобретать или брать из открытых источников для обогащения своих данных. Оставшаяся часть данных появляется в результате переработки специальными алгоритмами первых двух категорий, объясняют в «Почте России».ИТ-директор «Роснефти» Дмитрий Ломилин выступит на TAdviser SummIT 28 ноября
Для своей задачи «Почта» использует лишь 15% всех получаемых данных, выбирая только самое нужное и полезное - то, что работает и можно монетизировать. Это порядка 1,2 трлн записей на текущий момент, привели цифру во ФГУПе.
Какая информация о пользователях монетизируется
Всего в России чуть более 70 млн домохозяйств, по 25 млн из них «Почта России» точно знает пол и возрастной состав, утверждают в департаменте директ-маркетинга. В общей сложности в ее базе более 40,5 млн домовладений, по которым известны те или иные признаки. С подробными примерами сегментации пользователей услуг «Почты России» можно ознакомиться здесь.
Существует достаточно широкая подгруппа «Дети», она разделена на подгруппы по полу и возрастным группам, в соответствии с особенностями развития ребенка. Еще одна важная группа — дистанционные покупатели. Они разбиты на подгруппы по приобретаемым товарам и услугам. Почта знает даже средний чек и выводит данные о доходах, сопоставляя информацию о частоте покупок и среднем чеке.
Касательно статуса «христианин» в «Почте России» объяснили, что в ее примерах приведены срезы данных со значимым количеством домовладений для продажи с последующей рассылкой. «Почте» известны и другие религии: мусульманин и иудей, но количество таких домовладений намного меньше.
Востребованной и нетипичной в плане привычных характеристик является группа признаков «Интерес», которая включает от одного до нескольких увлечений, присущих людям в домовладении: кулинария, садоводство, здоровый образ жизни, рукоделие и «сделай сам», коллекционирование, интерес к искусству, политике и др.
Жители мегаполисов могут счесть рекламу в почтовом ящике назойливостью, но в других регионах России она является чуть ли не единственной связью с большой страной, возможностью приобрести товары или реализовать свои потребности, что до сих пор не является равно доступно для всех, отмечают в «Почте России».
Бумажные носители для многих остаются более приемлемыми и приятными, даже если у людей есть возможность использовать другие каналы для получения информации, - говорит Сергей Черкасов. |
Техническая основа
Действующее решение, собирающее нужные данные для «Директ-Мейл», использует СУБД Microsoft SQL. На ней действуют аналитический инструмент Pentaho BI Suite и рабочий инструмент аналитиков («калькулятор») — разработка отечественной компании Manzana Group.
При этом у «Почты России» есть и хранилище на Hadoop — система под названием Data Cloud, куда сливается вся имеющаяся информация. Она является для директ-маркетинга одним из источников данных, но для непосредственной монетизации не используется.
По состоянию на начало 2019 года разрабатываются шины, которые позволят всем оперативно получать из Data Cloud данные. Но пока каждому департаменту для получения данных приходится делать специальный запрос, рассказывает Сергей Черкасов.
На момент создания нашей системы для «Директ-Мейл» хранилище Data Cloud строилось и накапливало данные, поэтому мы обращались к исходным системам-источникам, которые обеспечивают реализацию тех или иных услуг «Почты России» в местах продажи. Далее мы используем Data Cloud как один из источников при отборе из него информации по уже разработанным методикам и алгоритмам, отработанным на системах-источниках. В будущем планируем перейти на Data Cloud как основной источник данных, - говорит Черкасов. |
2016: «Почта России» накопила 3,5 петабайта Big Data и научилась превращать их в деньги
В 2016 году «Почта России» начала широко применять технологии Big Data. Об этом в конце апреля 2017 года TAdviser рассказал заместитель гендиректора по ИТ и развитию новых продуктов «Почты России» Сергей Емельченков. Предприятие собирает в единое хранилище и анализирует данные с более чем 40 тысяч отделений связи, включая информацию о клиентах и транзакциях, а также данные с логистических объектов и другие.
Одна из областей использования Big Data, по словам Емельченкова, – оптимизация маршрутов почтовых отправлений по всей стране. В «Почте России» ранее были внедрены несколько больших систем управления магистралью – пересылкой отправлений по основным маршрутам передвижения. С них практически в режиме онлайн происходит сбор информации, где находится каждая конкретная посылка или письмо. Анализируя эти данные, а также уровень загрузки дорог, объема перевозимого трафика и ряд других факторов маршруты отправлений корректируются так, чтобы получить наиболее оптимальное соотношение скорости и стоимости доставки.
Решения Big Data используются в «Почте России» и для борьбы с «серой» (неучтенной, неоплаченной) почтой, которая несет для предприятия существенные финансовые потери, рассказал TAdviser Сергей Емельченков. Один из наиболее популярных видов «серой» почты - ее тайный вброс: когда по факту в крупной партии корреспонденции какая-то организация пересылает большее писем, чем официально заявленные ею на почте объем и вес отправления. Таким образом, часть писем остается неоплаченной. По данным «Почты России», к такому способу часто прибегают компании-посредники при пересылке, консолидаторы больших объемов корреспонденции.
Анализируя данные о финансовых транзакциях, логистических движениях и ряд других факторов, удается находить возможные источники возникновения «серой» почты, говорит Емельченков. Принцип работы здесь схож с антифрод-системами в банках, добавил он.
Ранее, в начале апреля, «Почта России» сообщала, что по итогам 2016 года сократила оборот неучтенной корреспонденции более чем в два раза[1]. Количество неучтенных писем, в частности, сократилось на 55% до 154 млн штук, что составляет 18% от общего годового объема письменной корреспонденции. В начале 2017 года «Почта России» инициировала первые уголовные дела против «серых» почтальонов.
Еще одно направление использования Big Data в «Почте России» – прямая адресная рассылка (Direct Mail) клиентам-физлицам, запущенная в 2016 году. Зная уже достаточно много о клиенте и его предпочтениях – что и как он потребляет, можно точечно рассылать им рекламу, пояснил TAdviser Сергей Емельченков.
Direct Mail как свой новый продукт «Почта России» предлагает использовать различным компаниям как рекламный канал. На форумах в интернете можно найти посты с публикацией текста письма «Почты России», разосланного представителям компаний, с предложением воспользоваться Direct Mail[2].
В цитируемом письме указывается, что масштабы «Почты России», которую ежедневно посещают несколько миллионов клиентов, позволили ей накопить информацию «по всем домохозяйствам России (более 60 млн. домохозяйств)»: адреса, пол, семьи с детьми и без, интересы людей, такие как мода, рыбалка, красота и здоровье, наличие авто и многое другое.
«Почта» знает, кто покупает товары через интернет и что покупают, так как через «Почту» проходит 40% всех доставок интернет-магазинов в России. Все это позволяет использовать в полной мере популярную сейчас стратегию привлечения клиентов data driven marketing. Обладая детальными данными о наших клиентах «Почта России» отправляет потребителям только нужную информацию, - говорилось в письме. |
В 2017 году, по словам Емельченкова, «Почта России» запускает подобный сервис еще и специально для среднего и малого бизнеса. В нем помимо Big Data используется также гео-таргетинг, за счет которого точечную рекламу можно рассылать еще и в привязке к каждому конкретному району. Апробация этого сервиса показала довольно неплохие результаты, говорит Емельченков: уровень конверсии из рекламы в покупку достигает 20%.
В 2015 году в «Почте России» заявляли, что рассчитывают получить долю в 70% российского рынка адресных рассылок к 2018 году и заработать на новом направлении бизнеса порядка 9 млрд рублей[3].
Помимо указанных примеров, собираемую информацию о клиентах «Почта России» использует также для создания новых продуктов и цифровых сервисов.
Заниматься развитием технологий Big Data «Почта России» начала около трех лет назад, но широко применять эти решения стала в 2016 году, говорит Сергей Емельченков. По состоянию на весну 2017 года объем собранных данных составляет порядка 3,5 петабайт.
Еще три года назад каждая транзакция, которую мы проводили, оставалась на локальном компьютере в отделении связи, централизованно мы не хранили никакой информации. Сейчас любая транзакция, любое взаимодействие с клиентом хранится централизованно. В год мы собираем порядка 1 петабайта данных, сейчас объем базы – 3,5 петабайта, и мы применяем технологии больших данных – извлечения знаний из этих больших объемов, - заявил Емельченков TAdviser. |
Он отметил, для этого «Почта России» использует современные решения и технологический стек, сравнимый с таковым у компании Google и других зарубежных игроков в этой области.
Сергей Емельченков рассказал TAdviser, что в решениях Big Data – и на уровне хранилища, и извлечения и анализа данных - «Почта России» в основном использует open source технологии. Так, хранилище данных «Почты России» построено на платформе Hadoop.
В числе используемых решений с открытым кодом также, например, - Apache Kafka — распределенная платформа потоковой обработки и передачи данных. Она используется в корпоративной шине данных для сбора и загрузки в хранилище информации из всех источников «Почты России», включая отделения связи, активности на интернет-сайте организации, электронные данные, которыми «Почта России» обменивается с контрагентами, и многие другие.
Другой пример используемого открытого решения - аналитическая СУБД ClickHouse, разработанная «Яндексом», которая позволяет осуществлять быстрый поиск в больших объемах данных.
Использование open source решений в проектах Big Data связано с общегосударственной политикой импортозамещения. По словам Емельченкова, в организации существует целая программа импортозамещения ИТ. Она предполагает также, например, замену продуктов Microsoft и Oracle.
Один из планируемых крупных проектов импортозамещения в «Почте России» – замена Microsoft Office на российский офисный пакет «МойОфис» по всей стране (подробнее об этом проекте – в отдельной статье).