Рекомендую всем интересующимся темой Big Data.
Андрей Сврищевский: Представляю вашему вниманию несколько интересных проектов, которые мы осуществили в 2015 году.
Основная группа проектов, которые сейчас существуют так или иначе связаны с тематикой получения дополнительной информации о конкретных юридических и физических лицах извне. Далее эта информация используется для повышения эффективности процессов целевого маркетинга, управления рисками, сбора дебиторской задолженности и борьбы с мошенничеством.
Можно выделить два основных способа использования внешней информации. Первый способ - это повышение эффективности прогнозных моделей, которые уже сейчас используются в рамках этих процессов. Второй способ - за счет получения дополнительной информации о клиентах, становится понятно, кто же эти клиенты с социально-демографической и любой другой точки зрения. И на основе этого нашим заказчикам удается понимать, что же с этими клиентами делать. Т.е. решения принимают люди, на основе информации, собранной "математикой". Давайте посмотрим, как конкретно это делается.
Эффективность прогнозных моделей. В целевом маркетинге это, в первую очередь, различная аналитика, связанная с откликом клиентов. На основе систематизации наших проектов, можно заключить, что в этой области основные внешние данные, которые пытаются использовать наши заказчики, это - социальные сети. Конкретные проекты показывают, что на десятки процентов удается повысить отклик клиента, если при принятии решения - что ему предлагать и что с ним делать, используются данные, добытые из социальных сетей. Это сегодня делают и крупные банки, и небольшие банки.
Рост отклика в 6 раз - это если вообще не использовалась аналитика. А вот если использовать аналитику, но вдобавок еще и внешние данные задействовать, то на 76% у страховых компаний растет отклик. Наш опыт показывает, что у страховых компаний сложная ситуация - к ним клиент приходит обычно только раз в год. И хочет, скажем, заключать договор КАСКО. Для них использование внешних данных принципиально, т.к. позволяет существенно повысить эффективность работы.
(Прим.АБ: Такие модели, в частности, используют Сбербанк и ПробизнесБанк. Точность моделей измеряется в LIFT - знакомо маркетологам. Исследуются в соцсетях такие интересы клиентов, как путешествия, экстрим, знание языков, виды развлечений, квартирный вопрос и т.п. Негативными факторами считается: религиозный фанатизм; выражение негатива к коллегам / работе; чрезмерное увлечение алкоголем; участие в митингах/демонстрациях.)
Если говорить о принятии решений о выдаче кредитов, то опять же на десятки процентов повышается эффективность принятия решений - кому давать кредит, кому не давать. Здесь уже используются различные дополнительные источники данных. Например, если мы получаем доступ к поисковым запросам наших клиентов. Мы не можем получить запросы, которые клиент делает в Яндекс, но как правило можем получить его запросы в тех или иных интернет-магазинах, где клиент зарегистрирован. Разумеется не только на нашей сайте, но и на других сайтах. Сейчас подобная информация доступна.
Анкетные данные также помогают, прежде всего, должность и работодатель. Например, если в должности человека системе удается найти ключевые слова, которые характеризуют его, как работника социальной сферы, например, он работает с детьми, то вероятность невозврата кредита существенно уменьшается. Соответственно система это учитывает при принятии решения о выдаче такому человеку кредита.
В страховании все то же самое. Всегда есть доля клиентов, которым лучше вообще не выдавать полис КАСКО, поскольку это не имеет финансового смысла.
Используя информацию соцсетей при работе с банковскими клиентами, нам не удалось пока что получить существенного выигрыша на том уровне, который мы получили при работе со страховыми клиентами.
В плане борьбы с мошенничеством ситуация примерно та же. Общее повышение точности моделей на десятки процентов достигается за счет использования внешних данных. Здесь это связано с тем, что мы в социальных сетях можем найти какие-то конкретные точечные характеристики.
В целевом маркетинге, как правило, спектр интересов человека играет роль. В кредитном скоринге математика выискивают конкретные слова и словосочетания. В антифроде как правило ищут конкретные события, связанные с человеком. Например, некоторые банки нас просят проставить рейтинг - в какой степени человек подвержен алкоголю. Понятно, что им не хочется иметь дело с таким человеком. Или если человек такие поисковые запросы вбивал, которые дают понять, что ему интересно, как в плохой для него ситуации все же получить кредит. Если он это делал, то значит, что вероятность того, что ему стоит давать кредит, корректируется в сторону уменьшения.
В кейсе показано, что даже модели не было у клиента, что решения принимались на основе собранных внешних данных.
Во всех кейсах важно, чтобы аналитика умела работать с неструктурированными данными. Это, прежде всего, текстмайнинг. Выделение ключевых слов и словосочетаний, характерирующих текст. Например, интересы человека или выявление - "алкоголик" он или не "алкоголик". Первоначально данные просеиваются через математику, которая делает "бездушый" механический анализ. Результат фильтрации такого рода уже можно отправлять в "модели". На выходе рождается степень соответствия конкретного человека той или иной заданной тематике. Математика, например, нашла несколько ключевых слов и словосочетаний. Определяет степень соответствия человека этой теме. И это уже число. Это число идет в моделирование и повышает точность модели.
Есть второй способ, когда дальше садится лингвист, смотрит на эти слова-словосочетания. В специальной инфраструктуре он может доработать собранные данные до новых характеристик. Например, "вычислить", является ли человек "молодым родителем" или предприниматель. В общем, дойти до конкретики в отношении интерпретируемой сущности.
Как специалисты в аналитике мы применяем совокупность математики текстмайнинга и контекстно-семантического анализа, что дает те хорошие результаты, которые я вам показываю.
Внешние данные дают нам много дополнительной информации о взаимосвязях. Наши клиенты и без того анализируют связи между интересующими их персонами, например, анализируя совпадения адресов, телефонов и так далее. Последние наши проекты показывают, что если также смотреть связи человека в социальных сетях, это дает намного больший объем информации. Идея простая - строим граф связей, математика помогает выявить ваше конкретное окружение, выявить реальный круг общения, отсеяв разовые и редкие контакты. А круг общения, как правило, очень многое говорит о человеке. Математика делает это с помощью так называемого кластерного анализа, выделяя тесно связанные сообщества.
Это позволяет выявлять опасные для страховых компаний ситуации. То же касается и выдачи кредитов. Например, если 15% контактов среди окружения клиента - злостные неплательщики, это рассматривается, как риск повышения вероятности невозврата кредита клиентом и снижает его шансы получить кредит.
Big Data можно рассматривать и как инновационный подход к анализу, и как использование внешних данных. Здесь задействованы обе стороны темы - текстовая аналитика и умение работать с теорией графов.
Еще одна специфика моделирования. В целом ряде наших последних проектов мы столкнулись со следующей особенностью. Базово у наших заказчиков в процессе принятия решения задействовано вплоть до 100 показателей (маркетинг, антифрод, управление рисками). Иногда число показателей может быть до 1000.
После обогащения данных, число показателей с которыми необходимо работать, вырастает как правило до нескольких тысяч. В свежем проекте мы работаем с 9 тысячами показателей. Практика показала, что классические средства анализа более не справляются с ситуацией. Обычная система Data Mining не может работать с базой данных для миллиона клиентов. Получаются десятки или даже сотни ГБ данных, с которыми необходимо работать.
Здесь мы подошли к еще одному новому аспекту Big Data - к архитектурным инновациям. Вы, вероятно, уже слышали в контексте Big Data термин in-memory аналитика. Это как раз то, что стало необходимым из-за возрастания объемов обрабатываемых внешних данных.
Вы знаете Hadoop, как средство хранения данных в распределенной среде. Также вы должны понимать, что благодаря Big Data, углубленный анализ также должен "переехать" в распределенную среду. Наиболее быстро данные обрабатываются в оперативной памяти, поэтому самым быстрым сейчас является анализ данных, когда данные вначале поднимают в оперативную память распределенного кластера и там строятся нейронные сети и применяются другие алгоритмы углубленной аналитики. В десятки и сотни раз повышается скорость. И благодаря этому многие наши заказчики имеют возможность работать с Big Data. А без этого, они бы этой возможности не имели.
Если попытаться этот переход посчитать количественно... мы проводили переход даже без внешних данных. Кейс оператора связи - у него и так тысячи параметров на клиента. Если переселить аналитику из классической среды в распределенную высокопроизводительную среду, за счет того, что аналитик может перебрать большее количество настроек, применить более сложные алгоритмы. На десятки процентов повышается точность моделей. И, как следствие, точность решений. Есть даже расчеты, которые показывают эффект в деньгах.
Но следует помнить, что еще нужно будет работать с теми параметрами, которые придут к нам из внешних данных.
Мы говорили о "бездушной" прогнозной модели. Чистая математика. На выходе - набор вероятностей. И по этим вероятностям нужно пытаться принять решение.
Внешние данные дали существенный толчок к пониманию того, кто такие наши клиенты.
Собственно, так было всегда. Мы всегда говорили, что есть математика, а есть интерпретируемое понимание наших клиентов. Микросегментация - это не новость. Наши клиенты десятилетиями пытаются понять - где студент, а где пенсионер.
Раньше большой объем информации о клиентах был практически только у операторов связи. А теперь даже страховые компании, которые традиционно о своих клиентах знают мало что, теперь с учетом внешних данных могут разобраться кто есть кто. Используют соц.-дем. информацию, что у них есть. Добавляют то, что математика + лингвисты могут доставать из соц.сетей. И в итоге они уже способны отличить с кем имеют дело - с мамой ребенка или "бизнес леди".
После того, как вы разобрались с соц.демо сегментом, есть различные способы использовать собранную информацию. Во-первых, многие фиксируют эти сегменты и говорят о том, что теперь все решения относительно клиентов будут делаться в разрезе этого сегмента. Например, у нас есть модель кредитного скоринга. Мы разработаем ее вариации для каждого клиентского сегмента, поскольку закономерности, по которым мыслят люди, у каждого социально-демографического сегмента свои.
Альтернативно. Мы начинаем анализировать профиль потребления продуктов и услуг в каждом сегменте. И на основе этого, зачастую без особой математики, становится понятно, что делать с людьми.
Например, если в данном сегменте люди, которые приобрели продукт А и продукт Б, часто также приобретают продукт С, здесь математика не нужна, чтобы понять, что следует найти всех клиентов, которые купили А и Б, но еще не купили С, и сделать им соответствующее предложение.
Поэтому сейчас не редки маркетинговые кампании не на основе аналитических моделей, а на основе бизнес-правил/триггеров.
Мы немного разделяем... бизнес-правила они в целом характеризуют человека. Триггер - это некое событие во времени. Например, наш клиент посетил сайты более, чем трех банков. При этом у нас никакую услугу почему-то не потребил. Значит нужно начинать переживать об оттоке, срочно активизироваться.
Или, скажем, клиент моего банка ввел где-то в интернете запрос по поиску услуг кредитования. Т.е. он почему-то не обратился ко мне, но что-то ищет в интернете. Опять же стоит активизироваться.
Маркетологи традиционно не слишком доверяют математике. Тематика Big Data дает им возможность действовать как бы "по наитию".
Еще один пример того, когда подобный анализ дает нам прозрачное понимание - что следует делать. Задача - выделить сегмент клиентов, который обещает страховой компании существенные убытки. Построение такого сегмента стоит десятки миллионов рублей, поэтому на слайде не приведена вся информация, извините.
Но общую идею можно понять. Профиль "опасного клиента" - это такие "артисты", яппи. Профиль хорошо выделяется, с учетом внешних данных. Например, 86% сформированного нами в SAS сегмента приносят страховщикам убытки. Это тот случай, когда без всякой математики понятно, что с ними вообще не нужно заключать договоры КАСКО. Дополнительная информация из интернета существенно помогает и в определении этого профиля, и в его интерпретации.
Хочу подчеркнуть, что для построения профилей, таких, как описанный выше, необходима углубленная аналитика. Такой профиль нельзя просто "собрать" в виде дополнительных характеристик человека из социальных сетей. Нужно сидеть и моделировать. Только совсем в другой среде. Мы разделяем интерфейсы на те, что для математиков, которые строят в нашей терминлогии "бездушные модели", и отдельные интерфейсы для специалиста, который разбирается в предметной области. Который знает, что такое КАСКО, как выглядит процесс страхования. Он должен разбираться в предметной области, даже если он при этом не является математиком. Перебирая характеристики и строя такие профили, анализируя типовые последовательности потребления услуг, люди могут выделять профили с максимальными убытками, например. Здесь "замешано" много аналитики, но людям удается это делать.
Ключевое значение имеет поддержка in-memory аналитики, поскольку для человека очень важна возможность интерактивности при общении с таким инструментом, чтобы можно было оперативно перебирать характеристики клиента, выстраивая значимый клиентский профиль.
Помните, что Big Data - это не только обмен данными между организациями. Это инфраструктурные инновации, инновации в подходах к обработке данных.
Многие называют такой подход к сбору информации - 360 градусов Customer View.
Далеко не про все проекты могу рассказать, но вот еще пара примеров. Сейчас идет очень интересный проект. Корпоративные клиенты. Их много как можно анализировать. Во-первых, у корпоративного клиента всегда есть представитель. У него тоже есть поведение в социальных сетях и многие это анализируют.
Сейчас у нас есть крупный банк - заказчик. Для него мы, глядя в текстовое поле "назначение платежа", которое клиенты указывают в транзакции, точечно определяем область действия компании. Например, кто среди клиентов - это фермеры. И так по каждому - чем предположительно компания-клиент в основном занимается. Банку хочется такую информацию о клиентах иметь. Теперь этот банк всю свою стратегию общения с клиентами выстраивает, исходя из этого понимания.
Еще. Считается, что если научиться распознавать переговоры клиентов и операторов контактного центра, то можно ожидать до 30% роста эффективности в управлении оттоком. К сожалению, в России ни один заказчик не смог нам в адекватном виде представить массив таких данных. Между тем, это базовое правило - перед тем, как покупать внешние данные, почему бы вам не попробовать воспользоваться внутренними данными.
Несколько других кейсов, чтобы абстрагироваться от темы сбора информации о конкретных физических или юридических лицах.
На картинке пример анализа "умного города". Например, здесь поступает в онлайн-режиме информация со всех водосчетчиков. Две задачи. Во-первых, в любой момент любой потребитель должен иметь возможность посмотреть прогнозный счет по итогам месяца для целей планирования своих расходов.
Во-вторых, с точки зрения управления городом выявляются статистические профили потребление воды, а отклонения от них позволяет с уверенностью говорить об обнаружении аварий - на ранних этапах детектируются любые "нештатные ситуации".
Про планирование транспортных потоков говорить не буду, вы наверняка об этом не раз слышали.
Еще один пример, российский клиент. Big Data, напомню, это во-многом инновационный процесс решения задач. Нередко бывает так, сделала организация у себя Big Data лабораторию. Возможно с задачей анализа внешних данных. Но теперь, лишь возникает какая-то инновационная задача у какого-то департамента, даже не связанная с внешними данными, все вспоминают, что у компании есть развития аналитическая инфраструктура. Поэтому конечно Big Data лабораторию попросят проверить - нельзя ли решить задачу инновационными методами.
Например, мы проверяли - сколько конкретно специалистов какой конкретной специализации нужно посадить в конкретное отделение банка, чтобы удовлетворить клиентопоток. Это успешно удается просчитать. Математика в таком кейсе хорошо работает, позволяет прогнозировать клиентопоток по дням, выбрав баланс между доходом, расходом на ресурсы и лояльностью абонентов. Чисто математический кейс.
В целом аналитика Big Data обладает высоким потенциалом для планирования.
Пример для разнообразия. Интернет можно не только мониторить, как сейчас многие делают, но и исследовать. В Швеции, например, изучают форумы, где посетителями являются многие, кто связан с потреблением и продажей наркотиков. И анализируют, например, способы перевозки наркотиков. Текстовая аналитика позволяет выделять слова и словосочетания, которые встречаются рядом, какие из них можно считать ключевыми, какие не являются ключевыми. Например, идет поиск по слову package и анализ - какие слова с ним связаны. Быстро выявляется, что часто употребляется название контейнеров для завтраков, которые перевозчики наркотиков облюбовали для своей деятельности. Благодаря такого рода анализу, полиции удается выявить на ранних этапах маршруты перевозки наркотиков. Например, когда стали усердно проверять самолеты, прилетающие из соседних Нидерландов, текстовый анализ форумов позволил быстро выявить, что трафик привоза наркотиков сместился из Нидерландов на Канаду. Это подтвердили и досмотры, предпринятые в аэропортах.
Кейсов, конечно, намного больше, они весьма разнообразны. В частности, очень много кейсов сейчас в госуправлении. Возможности Big Data обширны, это тот инструмент, которым нужно пользоваться.
+ +