Скоринговая модель

image
Сейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.
Для этого есть несколько причин:

  • Коэффициенты регрессии можно легко объяснить в отличие от «черных ящиков» вроде бустинга, куда может входить более 500 переменных
  • Машинное обучение всё еще не вызывает доверия у менеджмента из-за сложности в интерпретации моделей
  • Существуют неписанные требования регулятора к интепретируемости моделей: в любой момент, например, Центробанк может попросить объяснения — почему было отказано в кредите заемщику
  • Компании используют внешние data mining программы (например, rapid miner, SAS Enterprise Miner, STATISTICA или любой другой пакет), которые позволяют быстро научиться строить модели, даже не имея навыков программирования

Эти причины делают практически невозможным использование сложных моделей машинного обучения в некоторых сферах, поэтому важно уметь «выжимать максимум» из простой логистической регрессии, которую легко объяснить и интерпретировать.
В этом посте мы расскажем о том, как при построении скоринга мы отказались от внешних data mining пакетов в пользу open source решения в виде Python, увеличили скорость разработки в несколько раз, а также улучшили качество всех моделей.

Процесс построения скоринга

Классический процесс построения скоринговых моделей на регрессии выглядит так:
image
Он может меняться от компании к компании, но главные этапы остаются постоянными. Нам всегда необходимо производить биннинг переменных (в отличие от парадигмы машинного обучения, где в большинстве случаев нужно лишь категориальное кодирование), их отсев по Information Value (IV), и ручную выгрузку всех коэффициентов и бинов для последующей интеграции в DSL.
Такой подход к построению скоринговых карт отлично работал в 90-е, однако технологии классических data mining пакетов сильно устарели и не позволяют использовать новые методики, такие как, например, L2-регуляризация в регрессии, которые позволяют значительно улучшить качество моделей.
В один момент в качестве исследования мы решили воспроизвести все этапы, которые аналитики делают при построении скоринга, дополнить их знаниями Data Scientist’ов, а также максимально автоматизировать весь процесс.

Улучшение в Python

В качестве инструмента для разработки мы выбрали Python за его простоту и хорошие библиотеки, и начали воспроизводить все этапы по порядку.

Первым делом необходим сбор данных и генерация переменных – этот этап составляет значительную часть работы аналитиков.
В Python загрузить из базы собранные данные можно с помощью pymysql.
Далее мы заменяем редкие и пропущенные значения отдельной категорией для предотвращения ovefitting’а, выбираем целевую, удаляем лишние колонки, а также делим на трейн и тест.
Теперь начинается самой важный этап в скоринге для регресии – необходимо написать WOE-binning для числовых и категориальных переменных. В открытом доступе мы не нашли хороших и подходящих для нас вариантов и решили написать сами. За основу числового биннинга взяли эту статью 2017 года, а также эту, категориальный написали сами с нуля. Результаты получились впечатляющими (Gini на тесте поднимался на 3-5 по сравнению с алгоритмами биннинга внешних data mining программ).
После этого можно посмотреть на графиках или таблицах (которые мы потом запишем в excel), как переменные разбились по группам и проверить монотонность:
image
image
Отдельно была написана функция для ручного биннинга, которая полезна, например, в случае с переменной «версия ОС», где все телефоны на Android и iOS были сгруппированы вручную.
Следующим этапом идёт отбор переменных по Information Value. Стандартным значением является кат офф 0.1 (все переменные ниже не имеют хорошей предсказательной силы).
После осуществлялась проверка на корреляцию. Из двух коррелирующих переменных нужно удалить ту, у которой IV меньше. Кат офф по удалению был взят 0.75.
image
Помимо отбора по IV мы добавили рекурсивный поиск оптимального количества переменных методом RFE из sklearn.
Как мы видим на графике – после 13 переменных качество не изменяется, а значит лишние можно удалить. Для регрессии более 15 переменных в скоринге считается плохим тоном, что в большинстве случаев исправляется с помощью RFE.
image
Далее строилась регрессия и оценивались её метрики на кросс-валидации и тестовой выборке. Обычно все смотрят на коэффициент Gini (хорошая статья про него ).
image
Когда мы удостоверились в том, что качество модели нас устраивает, необходимо записать все результаты (коэффициенты регрессии, группы бинов, графики стабильности Gini и переменных и т.д.) в excel. Для этого удобно использовать xlsxwriter, который может работать как с данными, так и с картинками.
Примеры листов экселя:
image
image
Итоговый excel в конце еще раз смотрится менеджментом, после чего отдаётся в IT для встраивания модели в продакшен.

Итог

Как мы увидели, почти все этапы скоринга можно автоматизировать так, чтобы аналитикам не нужны были навыки программирования для построения моделей. В нашем случае, после создания данного фреймворка от аналитика требуется лишь собрать данные и указать несколько параметров (указать целевую переменную, какие колонки удалить, минимальное количество бинов, коэффициент отсечения для корреляции переменных и т.д), после чего можно запустить скрипт на python, который построит модель и выдаст excel с нужными результатами.

Конечно же, иногда приходится исправлять код под нужды конкретного проекта, и одной кнопкой запуска скрипта при моделировании не обойдешься, однако даже сейчас мы видим качество лучше, чем у применяемых на рынке data mining пакетов благодаря таким техникам как оптимальный и монотонный биннинг, проверка на корреляцию, RFE, регуляризированная версия регрессии и т.д.
Таким образом, благодаря использованию Python мы значительно сократили время разработки скоринговых карт, а также уменьшили затраты труда аналитиков.

модель SCORE

Мы уже делились одной из методик для быстрого погружения в проект, которую часто применяем на практике. Сегодня покажем, как работает ещё одна методика — модель SCORE. Её суть в том, чтобы фокусироваться на определённых точках и благодаря этому собрать информацию за меньшее количество шагов. Изначально модель использовалась в психотерапии, но потом стала применяться и для бизнес-переговоров.

Наш генеральный директор Арсений Кутовой узнал во время обучения в Высшей школе брендинга от куратора Сергея Леликова о методологии применения SCORE в брендинге. От теории в ВШБ перешёл к практике — стал применять в реальной работе, и даже начальные результаты произвели на него впечатление.

SCORE: 5 основных фокус-точек

Symptom (актуальное состояние) — то, что происходит сейчас.
Cause (причина) — что привело к тому, что происходит сейчас.
Outcome (желаемое состояние) — куда стремится и что хочет, чтобы происходило.
Resource (ресурс) — что нужно, чтобы перейти от актуального состояния к желаемому.
Effect (эффект) — что даст переход к желаемому состоянию.

SCORE

Актуальное состояние — это не проблема, если человека всё устраивает. Разбираться со всем остальным нужно, когда возникает желание изменить текущее положение дел на другое. Первым делом, нужно выяснить причины, которые привели к текущему состоянию. Затем разобраться, чего человек хочет достичь, с помощью каких действий и какую выгоду он получит от этого, что конкретно ему даст достижение желаемого результата. Всё просто 🙂

Как и когда использовать методику

Фактически нужно задать всего 5 вопросов. Они могут задаваться в разной последовательности, иногда требуются дополнительные и наводящие вопросы. Главное — выяснить то, что нужно.

Чаще всего мы используем эту методику для проведения глубинных интервью с клиентами. Также она может быть полезна для аудита текущего состояния внутри компании или с продуктом/услугой, когда явной (озвученной вслух) потребности в изменениях нет, но есть понимание, что люди чего-то недоговаривают:) Не потому, что они работают под прикрытием, а потому, что мы часто пропускаем важные подробности. Так устроено наше мышление и, как следствие, речь. Для нас эти подробности кажутся очевидными вещами, а на самом деле они важны до степени критичности.

Какие вопросы необходимо задать

  1. С каким проблемами или трудностями сталкивается ваш бренд (компания, отдел и т.п.)?
  2. Как вы думаете в чем причина этих проблем?
  3. К каким результатам вы стремитесь как компания, как бренд?
  4. Какие ресурсы необходимы, чтобы достичь этих результатов?
  5. Что даст достижение этих целей, каков будет эффект?

Как работает методика

Рассмотрим работу методики на примере из нашей практики. По понятным причинам мы не станем озвучивать название компании и показывать конечные стратегические решения.

Задача

Разработать платформу бренда и стратегию коммуникации для компании-разработчика программного обеспечения в сфере промышленной автоматизации.

Процесс: глубинные интервью по методике

Мы провели 9 глубинников со всеми ключевыми сотрудниками: от собственника и топов до специалистов операционного уровня. Каждое интервью длилось от 30 минут до часа. И вот несколько советов, как помочь человеку расслабиться, уйти от ощущения, что есть правильные и неправильные ответы, дать свободу высказать своё мнение, помочь наводящими вопросами.

Где проводить интервью

Выбирайте спокойное место (переговорка, отдельная комната), где вы сможете поговорить один на один. Если вокруг ходят люди, вам или собеседнику постоянно звонят или вас отвлекают, то создать доверительную и спокойную атмосферу не получится.

Как правильно задавать вопросы

Все люди уникальны, но у нас есть определенные модели поведения и общие черты. Одна из первых задач в начале беседы — понять, какой человек перед нами. Если это человек-процедура интровертного типа, склонный мыслить системно и последовательно, то можно вести беседу по плану: от симптомов к эффектам. Если это человек-возможности экстравертного типа, фонтанирующий идеями и забегающий вперед, то можно поговорить об эффектах и ожиданиях, а потом (как выдохнется), плавно вернуться к симптомам и т. п.

Во время интервью нужно придерживаться структуры методики, чтобы при расшифровке можно было структурировать информацию. Но сами формулировки вопросов можно и нужно корректировать по ситуации. Например, не всем нравится вопрос: «С какими проблемами вы сталкиваетесь при работе с брендом?». Зачастую ответ звучит так: «У нас нет никаких проблем». Можно спросить по-другому: «Как вам кажется, есть ли на данный момент какие-либо неудобства или трудности при работе с брендом?». Это помогает людям не воспринимать себя как «инсайдера», который «сливает» информацию на сторону, и быть более открытыми.

Как выявлять неочевидное

Когда люди погружены в свой продукт, им свойственно мышление в стиле «мне это нравится, потому что я это сделал» или «это так, потому что так всегда было».
Большая часть информации для них очевидна, и это создает барьеры в получении подробностей: человек чувствует себя Капитаном Очевидность. Вторая причина — способ выражения мыслей. Мы все регулярно используем три приема в процессе разговора: опущение, искажение, обобщение. Классический пример: «ну, вы понимаете, что я имею ввиду, да?», «все мужики — …», «все знают, что…», «я уверен, что он то-то и то-то».

Пример выдержки из реального диалога по бренду в сфере промышленной автоматизации со специалистом, который вначале чувствовал себя Капитаном Очевидность 🙂

— С какими сложностями вы сталкиваетесь, работая с брендом ХХ?

— Да ни с какими.

— Может быть проблемы при общении с целевой аудиторией бренда, с людьми. Бывают какие-то сложности?

— Нет. Не могу сказать ни про проблемы, ни про сложности. Тут вопрос в чем: вот есть продукт, я его знаю и рекламирую. Если необходима какая-то фича, дополнительные вопросы возникают у заказчика, я их коммутирую на конкретных инженеров, а они уже дальше решают, общаются.

Становится понятно, что нужно немного развернуть тему, отвлечь человека и всё-таки выявить проблему, так как проблем нет только у трупов 🙂
Через 10–15 минут:

— Я так понимаю, что одна из проблем, с которыми вы сталкиваетесь — это на данный момент отсутствие у ХХ большого опыта внедрений в тех сферах, где приходится продавать, зачастую.

— Да. У нас нет вот такого массового рынка. Да, нет такого, что продали и отработали до конца. Там где мы продаем по УУУ — там уже отработано и там уже продается. А куда вширь? Продажи не идут… И они не идут именно по причине того, что мы не знаем. Тут завязано: сперва нужно продать, отработать и потом уже дальше распространять.

— Да, я просто не знаю, что предложить клиенту. С чем заходить. Мы знаем, что можем все реализовать, но нельзя прийти к клиенту и сказать: «Мы сделаем вас счастливыми. Мы сделаем всё что хотите.». А что всё? Мы не знаем, что надо.

— И узнать можно только установив?

— Да. Либо с каждым клиентом долго общаться, выяснять.

— У них нет на это времени?

— Да.

анализ информации

Обработка информации по структуре SCORE

Все записи расшифровали в текст — получилось в среднем по 15 страниц информации от каждого из 9 респондентов. Дальше с помощью таблиц Excel, рук и головы мы провели анализ по структуре SCORE.

В первую таблицу собрали ответы каждого респондента по фокус-точкам. Выглядит она довольно просто, но информация становится более наглядной и её проще анализировать дальше. Примеры:

Респондент 1 Респондент 2
Симптомы. Сложности, трудности Мы не сфокусированы чётко по продукту: что именно мы продаем Отсутствие системной стратегии продаж и понимания будущей нагрузки
Причины сложностей Невозможно стоять на всех четырех опорах (две руки, две ноги) и ещё пытаться сделать какое-то действие.
Пытаемся объять необъятное и в этом основная проблема
Не хватает общего видения, чёткой цели: куда мы идем, что строим?
Результаты. К чему стремимся внутри бренда Участие в интересных новых, сложных проектах, которых вчера не было Эволюция продукта в сторону системы аналитики, а не учета
Эффекты. Что мы получим, что я получу Перейдем на новый уровень — создатели своего продукта Если я добьюсь такого развития предприятия, то состоюсь в жизни
Ресурсы. Что нужно делать, какие действия предпринимать Выбрать стратегию позиционирования:
сфокусироваться, куда бежать и над чем работать. И дальше просто работать. Всё
Выбрать цель:
Нам нужно четкое понимание, куда мы идём

Во вторую таблицу собрали всю информацию о целевой аудитории с точки зрения сотрудников компании. Все данные мы не можем привести, но можно посмотреть примеры из сводки:

Респондент 1 Респондент 2
Опишите целевую аудиторию, сегменты Человек, который отвечает за оптимальную работу бизнес-процессов. На стыке технических и экономических вопросов Человек который на заводе каком-нибудь отвечает за энергохозяйство.
Где-то это вообще уровень завхоза, продвинутого или не очень
Барьеры, страхи «Зоопарк»:
это будет еще один софт у нас? Нам это зачем?
Страх малознакомого продукта: с одной стороны, это недостаточно инсталляций, опыта, продукт молодой из-за этого многие заказчики смотрят с недоверием, что это может быть на коленке разработано
Мотивы, драйверы Простота. Интуитивно понятные процессы. Люди не хотят учиться по большому счету Наблюдать за своим энергохозяйством от и до
Инсайты Я не верю данным, которые мне дают подчинённые Я хочу получать отчеты в том формате, к которому привык, и не хочу ничего менять

В третью таблицу собрали всё о конкурентах с точки зрения компании.

Респондент 1 Респондент 2

Преимущества

Надёжность и стабильность за счет обилия внедрений

Референс большой, большое кол-во внедрений. За счет большого кол-ва внедрений и существования на рынке — надежность, стабильность работы

Специализация на отрасли

Они больше ориентированы на что-то одно

Недостатки

Not friendly с клиентами и людьми

За счёт старости продукта компании некая инертность, для каких-то клиентов, даже самых крупных, они не идут на уступки. Клиент должен смириться и принять их продукт, как есть

Not friendly с клиентами и людьми

Что про YYY, что про ZZZ я бы сказал, что они не клиентоориентированные. Они не будут под конкретного заказчика делать отчет или ещё что-то. У них есть набор готовых формул. Там хоть распечатывай и с этих форм вручную списывай. Такая даже идея, что эти данные учёта не должны редактироваться, они вроде добавили какой-то генератор отчетов по многочисленным просьбам, но изначально нажал кнопку, получил оракл формс, которую можно только напечатать или в пдф выгрузить. И делай что хочешь

Отдышались, отдохнули, перечитали. Можно анализировать дальше.
Нужно внимательно всё прочитать, осмыслить, постараться найти причинно-следственные связи и подвести итоги. Тут понадобятся внимательность и аналитический ум, а лучше — несколько, так что зовите коллег 🙂
С помощью информации из «результатов» ищем гипотезы для видения будущего (куда мы должны прийти) и позиционирования бренда, в «эффектах» — базу для формулировки ценностей и миссии, в «ресурсах» — основу для дальнейшего плана действий.

Результаты

Проблемы клиента

Основная проблема клиента, с которым мы работали по этой методике, — непонимание продукта, который он производит. Для собственника — это прорывное отраслевое решение на рынке, для отдела продаж — продукт, которому не хватает уникального предложения, а для разработчиков — это сырой, но перспективный проект, который они собрались менять в ближайшее время 🙂

Чем глубже мы копали, тем очевиднее становилось, что отраслевые спецы просто не понимают, к какой категории относить собственный продукт и кому его предлагать, как и с кем они конкурируют. Люди озвучивали проблему так: «Все предлагают то же, что и мы, но у нас есть то-то и то-то».

Во время бесед про аудиторию стало понятно, что мы имеем классический случай: «производственное мышление». По сути, производители не понимали, что именно движет их клиентами, что их цепляет, что беспокоит и что им реально нужно.

кардиограмма

Решение проблем

В процессе работы нам понадобилась дополнительная информация. Мы выявили людей, которые реально являются целевой аудиторией продукта, провели с ними глубинные интервью, расшифровали и получили настоящие данные об их мотивах и драйверах. Большая её часть стала открытием для компании.

Оказалось, например, что клиенты очень не любят, когда им не хватает самостоятельности в доработке продукта, или, что они чувствуют себя уязвленными, когда вынуждены обращаться в техподдержку.

Для анализа конкурентов мы выполнили собственное исследование, которое помогло лучше понять их позиционные заявления и собрать больше данных об их услугах. Провели более детальный анализ рыночной категории программного обеспечения в сфере промышленности и его разновидностей.

Мы смогли создать уникальную сегментацию целевой аудитории по таким критериям, которых ещё не было на рынке, и дать заказчику полное понимание, с кем и почему ему необходимо работать на различных стадиях развития компании.

В результате у нас было достаточно информации, чтобы разработать платформу бренда:

  • что из себя представляет продукт, какие цели достигаются при его внедрении;
  • кто целевая аудитория, их ключевые ценности, как с ними строить коммуникацию с примерами сообщений;
  • как позиционировать продукт, какая у бренда миссия, видение, ценности;
  • подобрали слоган и составили принципы коммуникаций.

SCORE — один из методов разработки, который мы применяли в этом проекте. И, хотя он не закрывает полностью весь цикл проекта по стратегическому брендингу, это очень эффективный инструмент диагностики ситуации, в первую очередь, внутри компании. В результате вы получаете систематизированные данные от реальных людей об их собственном бизнесе и продукте. А это лучший способ создавать эффективные и работающие стратегии.

Бонус для тех, кто дошёл до конца

Результаты применения метода SCORE для брендинга вдохновили нас изучать его и дальше. Сергей Леликов, носитель этого метода, согласился нам помочь глубже изучить теорию и подготовить более подробную статью о применении метода SCORE.

P.S. Автор статьи — генеральный директор студии Арсений Кутовой выражает благодарность своему преподавателю в Высшей школе брендинга, бренд-консультанту, директору «Школы практического брендинга BRANDEFFECT» Сергею Леликову, который дал основы применения в брендинге модели диагностики SCORE.

Синонимы: Модель скоринга

Разделы: Бизнес-задачи, Алгоритмы

Loginom: Логистическая регрессия (обработчик)

Решения: Loginom Scorecard Modeler

Скоринговые модели используются кредитными организациями для определения кредитоспособности потенциального заемщика. На вход такой модели подаются определенные характеристики клиента (возраст, доход, стаж работы и т.д.), а на выходе формируется интегрированный показатель (score), который определяет вероятность возврата или невозврата кредита.

Скоринговая модель является главным инструментом кредитного скоринга. Фактически она связывает параметры клиента с суммой, которую можно выдать ему, или степенью кредитного риска в конкретных условиях через систему скоринговых баллов. Очевидно, что для различных условий рынка могут потребоваться различные скоринговые модели.

Например, модель, хорошо зарекомендовавшая себя в условиях экономической стабильности, может оказаться совершенно несостоятельной в условиях кризиса, когда вероятность потери работы или снижения дохода клиентов возрастает, а риск дефолта по кредиту соответственно увеличивается.

Аналитические технологии Data Mining содержат эффективные средства построения скоринговых моделей — нейронные сети и деревья решений. С помощью логистической регрессии осуществляется разработка скоринговых карт.

Повлиять на решение банка о выдаче займа может страница клиента в соцсетях, его общительность и наличие нового телефона.

Для оценки заемщика специалисты кредитных организаций традиционно используют банковский скоринг. Это автоматическая система оценки человека в баллах по ответам, которые он дает в специальной анкете. После оценки и проверки каждой характеристики формируется некий общий балл, который показывает приблизительную надежность клиента. К примеру, у банка есть недобросовестные клиенты с определенными параметрами – уровнем дохода, отсутствием или наличием машины, уровнем образования и пр. И по аналогии банк считает, что люди с такими же характеристиками вряд ли будут более дисциплинированными и может принять решение об отказе в выдаче кредита.

Более тщательные проверки проводятся при выдаче займа компаниям – обязательно проверяется не замешано ли ее руководство в каких-либо финансовых скандалах. Проверяется абсолютно все: реестры судебных решений, реестры недвижимого и движимого имущества и пр.

С недавнего времени кредитные организации стали использовать разработки в сфере big data, обратившись к мобильным операторам за услугой мобильного скоринга. Операторы не дают банкам никакой конкретной информации о человеке, только общую оценку, составленную на основе определенных характеристик. Оценивать могут по самым различным параметрам: трафик в роуминге, количество звонков в день рождения, сумма максимальных платежей, часто ли человек попадает под блокировку и выходит из нее, данные геолокации и пр. Всего учитывается около 400 параметров, которые влияют на общий балл.

Также кредитные компании обращаются к профилям в социальных сетях. Во-первых, с целью дополнительно удостовериться в личности заемщика, его месте работы. Во-вторых, чтобы сопоставить информацию из профилей для подтверждения уровня доходов.

Мобильный скоринг позволил значительно усилить качество отбора заемщиков, поэтому от изучения профилей в соцсетях многие банки уже начинают отказываться. Тем не менее, кредитные организации все еще используют социальные сети, изучая вкусы, образ жизни заемщика – это все учитывается в подборе предложений других продуктов компании и каналов коммуникации с клиентом.

Напомним, ранее мы писали о том, что получить кредит в 2019 году украинцам будет сложнее из-за ужесточения требований банков.

Добавить комментарий