Мудрый Экономист

Скоринг против мошенничества: (не)обязательное звено системы принятия решений

"Банковский ритейл", 2014, N 3

Комплекс процедур противодействия мошенничеству в качестве ключевого элемента включает в себя скоринговые системы оценки мошенничества. Если цикл выдачи кредита полностью не реализован в интернет-канале вашего банка и бизнес-процесс включает кредитного аналитика, то как разграничить роли и зоны ответственности между ним и скоринговой системой: выявление каких типов мошенничества является функцией кредитного аналитика, а каких - скоринговой системы? Как научить скоринговую карту распознавать мошеннические схемы?

Скоринг против мошенничества, или antifraud-скоринг, все чаще становится звеном системы принятия решений в розничном кредитовании наряду с уже привычным application-скорингом. Подобные скоринговые оценки вероятности мошенничества предоставляются кредитными бюро в рамках специализированных сервисов, а также создаются самими банками на основе собственных данных и наработок. Что это - лишь модный тренд, возникший в рамках общей потребности в снижении рисков, или реальный инструмент оптимизации системы принятия решений и, как следствие, повышения экономической эффективности?

Совсем немного истории

Впервые получив широкое распространение в США во время Второй мировой войны из-за острого дефицита кредитных аналитиков (многие из них были призваны на фронт), практика использования формализованных процедур для оценки кредитного качества потенциальных заемщиков быстро прижилась в банках. Важно, что на тот момент, на том этапе развития банковской системы качество формализованной процедуры оказалось выше, чем качество субъективного решения, принимавшегося кредитным аналитиком. Пришедшая позднее эпоха персональных компьютеров дала второй импульс развитию банковского скоринга, одновременно позволив существенно сократить время рассмотрения заявки и влияние человеческого фактора - а значит, в десятки раз уменьшив стоимость процедуры рассмотрения заявки.

Человек или машина?

Из этой истории, кстати, не следует однозначный вывод, что процедура автоматического скоринга всегда превосходит по качеству результаты, к которым на основе тех же данных может прийти кредитный аналитик. Пожалуй, первостепенным фактором в этом противостоянии оказалась именно скорость принятия решения - это преимущество компьютерной процедуры неоспоримо. Однако есть еще один важный аспект: в реальности у кредитного аналитика и скоринговой системы никогда не бывает идентичного набора информации. Кредитный аналитик получает огромный пласт информации о клиенте за счет непосредственного контакта: он может оценить, как клиент одет, как ведет себя, как отвечает на вопросы и соответствует ли все это информации, которую предоставляет клиент. Эта информация субъективна, и любые попытки в максимальном объеме ее "оцифровать" в любом случае приведут к потере или искажению. Существуют разные подходы к решению данной проблемы. Два наиболее полярных подхода заключаются в том, что (1) кредитный аналитик заполняет максимально развернутый блок анкеты, содержащий формализованные описания множества аспектов внешнего вида и поведения клиента, либо (2) кредитный аналитик формирует со своей стороны единственное заключение о возможности/невозможности кредитования клиента. Оба подхода требуют серьезной проработки процедуры обучения кредитных аналитиков, но обучение это будет различным. В первом случае критическое значение имеют унификация заполнения анкеты и единая трактовка всех возможных вариантов заполнения всеми сотрудниками банка - без этого данные, попадающие далее на автоматический скоринг, не будут валидны. Во втором случае цель - принятие на уровне кредитного эксперта максимально достоверного решения всеми доступными способами.

Вероятно, ни один из этих подходов не является однозначно верным, а оптимальным является некоторый комбинированный подход. Но есть важный вывод из этого противоречия: не все функции кредитного аналитика могут быть легко переложены на автоматизированную систему.

"Принеси то - не знаю что"

До настоящего момента мы ничего не говорили о мошенничестве и его предупреждении. Однако все написанное выше имеет большое значение для решения вопроса о целесообразности построения antifraud-скоринга. Дело в том, что огромную роль в процессе пресечения выдачи кредитов мошенникам играют именно кредитные аналитики. А значит, полноценная модель antifraud-скоринга на самом деле может быть нужна тогда, когда кредитные аналитики не справляются с этой своей функцией или выполняют ее крайне неэффективно. Либо в ситуации, когда этих кредитных аналитиков нет - то есть, например, когда полный цикл выдачи кредита реализован в интернет-канале с минимальным человеческим участием (забегая вперед, отметим, что на сегодняшний день это наиболее значимый сегмент, когда построение специализированных antifraud-моделей в системе принятия решений однозначно целесообразно).

Если же кредитные аналитики в бизнес-процессе присутствуют, важно правильно разделить роли и зоны ответственности: выявление каких типов мошенничества является функцией кредитного аналитика, а каких - скоринговой системы (часть типов может быть общей зоной ответственности). И если на кредитного аналитика можно возложить ответственность вообще за все виды мошенничества, не углубляясь в их классификацию, то для скоринговой модели это не так. Чтобы построить скоринговую модель - любую, предсказывающую вероятность неплатежа по кредиту, вероятность дождя в ближайшие выходные или вероятность похищения Элвиса Пресли инопланетянами, - нужно, говоря математическим языком, сформулировать целевую переменную. Или максимально точно описать, какой исход мы хотим предсказать. В этом смысле простую "вероятность дождя в ближайшие выходные" предсказывать бессмысленно - где-то на планете дождь наверняка случится. А вот вероятность дождя в Венеции 15 февраля, если вы запланировали туда поездку на эту дату, куда более важна для вас, имеет больше практического смысла. Так и в случае построения скоринга: правильно описанная целевая переменная крайне важна - она будет гарантировать соответствие модели бизнес-задаче.

Вторая причина, почему важно определить типы мошенничества для модели antifraud-скоринга, кроется в специфике скоринговых моделей как таковых. В отличие, например, от нейронных сетей, для которых "родной" является задача кластеризации, или распознавания образов, скоринговая модель в классическом варианте отвечает на вопрос: какова вероятность конкретного исхода? Это все равно как если бы врач, к которому вы пришли с вопросом "Доктор, я подцепил грипп или это обычная простуда?" (постановка задачи кластеризации), ответил вам: "Вероятность гриппа 17,4%" (оценка вероятности конкретного исхода).

Поскольку характерные "почерки" в различных схемах мошенничества сильно различаются, "натаскивание" скоринговой карты одновременно на все типы мошенничества приведет, скорее всего, к снижению общего качества модели. Примерно то же самое, что тренировать одну и ту же собаку днем обнаруживать наркотики в аэропорту, а по ночам искать в лесу трюфели: качество такого обучения будет очевидно ниже, чем качество одного специализированного обучения. Другой, более жизненный, пример - специализация врачей по направлениям, когда точный диагноз о наличии конкретного заболевания должен ставить именно профильный специалист. Совмещение этих функций в универсальном "семейном докторе" - отражение необходимости снижения операционных издержек, но кому при прочих равных вы поверите больше - одному "универсалу" или команде профессионалов в отдельных областях?

Мы так подробно останавливаемся на этом факторе по одной причине: он имеет решающее влияние на то, как именно будет строиться ваша модель antifraud-скоринга и какова будет ее эффективность. Для того чтобы построить по-настоящему эффективную скоринговую модель прогнозирования мошенничества, вам потребуется не только большое количество исторических данных о мошеннических кредитах, ранее выданных в банке, но и классификация по типам мошенничества, наложенная на эти кредитные договоры.

Численная оценка объемов данных примерно такова: если скоринговая карта против мошенничества содержит хотя бы 20 переменных, то для ее качественного обучения выборка должна содержать как минимум порядка 10 000 записей, из которых хотя бы около 1000 - случаи мошенничества. Нужно учесть также, что для antifraud-карт, помимо традиционных переменных из кредитной анкеты, важную роль играют специализированные переменные (например, совпадают ли адреса регистрации и проживания заемщика или указал ли он номер стационарного телефона по месту работы).

Если у вас уже есть и данные, и классификация мошенничества, но по каким-то причинам еще нет скоринга против мошенничества, - вы уже знаете, с чего начать. Фактически ваша задача свелась к уже известной задаче построения обычных скоринговых карт. Гораздо более частый случай - либо один, либо оба ингредиента для построения "идеального antifraud-скоринга" отсутствуют, и тогда нужно либо жертвовать идеальностью и пытаться приготовить модель из того, что есть, либо вообще отказаться от подобных кулинарно-математических экспериментов.

Столкновение с реальностью

Если у вас отсутствует классификация типов мошенничества или возможность классифицировать по ней исторические договоры с подтвержденным мошенничеством, это вполне рабочая ситуация, исходя из которой можно двигаться дальше. В первую очередь классификацию нужно создать или обновить, и такое методическое упражнение полезно уже само по себе. Далеко не со всеми типами мошенничества имеет смысл бороться скоринговыми моделями. Зачастую эффективными и дающими те самые 80% результата мерами будут организационные решения на уровне кредитных специалистов ("мы не выдаем кредиты людям, пришедшим в сопровождении третьих лиц в кожаных куртках и с наколками, даже если это просто "друзья подвезли до офиса") или аналогичные простые риск-правила на уровне автоматизированной системы. Классификация позволяет пройтись по перечню типовых мошеннических схем и сделать формальное самотестирование: все ли известные вам типы мошенничества закрываются (полностью или частично) текущими процедурами, эффективна ли текущая процедура (экспертно) и соответствует ли она тому уровню риска, который вы готовы принять.

Когда классификация готова и новые случаи мошенничества типизируются в соответствии с ней, встает вопрос: можно ли что-нибудь получить из имеющихся исторических данных? Простой вариант - типизировать все исторические случаи мошенничества - может оказаться невозможным из чисто экономических соображений (нет ни денег, ни людей для выполнения этой задачи), а также привести к тому, что выборка мошеннических договоров окажется слишком маленькой для эффективного обучения скоринговой карты. Или вообще окажется, что напрямую выделить мошеннические договоры среди исторических дефолтов невозможно. Если скоринговую карту построить все-таки хочется, единственный выход - искусственно увеличивать выборку либо объединением схожих типов мошенничества в единые наборы, либо введением синтетических определений мошенничества, которые дадут необходимые объемы на общей выборке. В качестве таких искусственных определений могут выступать, например, "договоры, допустившие просрочку 90 и более дней на первом платеже", "договоры, допустившие просрочку 90 и более дней на первом или втором платеже" и т.п. Срок в 90 дней является скорее данью традиции и системе Базельских соглашений - в зависимости от объемов и глубины исторических данных эту величину также можно менять в разумных пределах.

Параллельный процессинг

Какой бы подход к получению целевой выборки мошеннических договоров для тренировки скоринговых карт вы ни избрали, на пути к ее внедрению нужно учитывать несколько факторов.

Во-первых, на сегодняшний день не существует идеального алгоритма разработки скоринговых карт, гарантирующего 100%-ный результат. Как создание любой сложной математической модели, это в определенной степени область математического искусства, где качественный результат потребует участия как профессионала в области скоринга, так и специалиста по противодействию мошенничеству (и это очень редко один и тот же человек). И будьте готовы, что потребуется несколько итераций проб и ошибок, прежде чем будет получена рабочая модель.

Во-вторых, бессмысленно оценивать качество модели antifraud-скоринга отдельно от основного скоринга. Несколько ваших моделей скоринга будут работать не только в связке друг с другом, но и в контексте всех других процедур поддержки кредитного решения, существующих в вашем банке. Это означает, что не только отдельная модель должна уметь предсказывать мошенничество, но и общее качество системы принятия решений с учетом новой встраиваемой модели должно возрасти - это ключевой критерий!

В-третьих, и как следствие предыдущего пункта, если банк начинает использовать несколько параллельных моделей оценки качества заемщика (здесь мы говорим именно об одновременно исполняемых моделях), они должны быть согласованы между собой. Желательно, чтобы одна модель как минимум учитывала наличие другой - хорошим правилом, например, является исключение мошеннических кредитов из учета основной модели application-скоринга (снова в силу принципа специализации моделей). Также при одновременном использовании нескольких моделей требуется создать отдельное правило, которое "подружит" оценки этих моделей между собой и даст возможность сформулировать итоговое кредитное решение.

Давайте жить дружно

Наличие нескольких специализированных скоринговых карт создает дополнительные сложности при выработке окончательного решения по кредитной заявке. Если в случае единственного балла, характеризующего заемщика, при определении порога отсечения мы решали простую задачу однопараметрической оптимизации, то несколько скоринговых баллов превращают ее в многопараметрическую - а значит, имеющую бесконечное пространство решений.

Согласно теории коллегиального принятия решений у нас есть два пути: демократия или монархия. Путь демократии состоит в том, чтобы учесть все скоринговые баллы одновременно. Для этого нужно привести все имеющиеся скоринговые оценки к единому знаменателю. В случае банковского скоринга в качестве такого знаменателя почти всегда можно взять деньги. Какова ожидаемая величина прибыли/потерь в зависимости от каждой из прогнозируемых вероятностей? Если при построении системы из нескольких карт вы проработали вопрос их независимости, задача сильно упрощается. Условно говоря, если вы исключили из application-скоринга вероятность мошенничества, то вы можете просто сложить две оценки вероятности, умноженные на приведенные денежные потоки по ним, и получить итоговую оценку прибыли/потерь от выдачи кредита. Если же ваша система скоринговых карт является сильно коррелированной, причем эту корреляцию нельзя исключить (например, когда вы используете собственный кредитный скоринг, а вместе с ним аналогичные скоринговые оценки от различных кредитных бюро), вполне возможно, что демократия - не ваш метод.

Более простой в реализации путь монархии состоит в том, что вы назначаете одну скоринговую карту главной, а все остальные - вспомогательными. Решение фактически будет приниматься по баллу главной карты (чаще всего это собственная карта application-скоринга), а остальные баллы будут учитываться только в том случае, если их значения превышают некоторые установленные пороги, - в этом случае решение главной карты может быть скорректировано. В практике автора баллы antifraud-скоринга использовались для перевода кредитной заявки на верификацию при оценке вероятности мошенничества от 5% и на "жесткий" отказ при оценках порядка 10 - 20% и выше. Конкретные значения все равно будут зависеть от риск-аппетита банка по кредитному продукту, на который подается заявка.

Поле для экспериментов

Использование дополнительных скоринговых баллов только для отсечения по пороговым значениям фактически является реверансом в сторону единственной скоринговой карты и сопутствующей системы риск-правил. По сути, вместо того чтобы отдать задачу построения таких риск-правил исключительно профильным экспертам, мы привлекли к ней еще специалиста по скорингу и получили более сложную и абстрактную модель. Но и это еще не предел! Выше мы уже упоминали, что нейронные сети являются инструментом распознавания образов - то есть потенциально могут быть весьма эффективными как раз для выявления отдельных типов мошенничества. Ложек дегтя, к сожалению, сразу две. Первая - вам нужно по-настоящему много данных для тренировки модели. Настолько много примеров одного типа мошенничества, что вы к этому моменту уже должны суметь найти другой эффективный способ борьбы. Вторая - в том, что сама модель нейронной сети является абсолютно непрозрачной для аналитика, и никогда не знаешь наверняка, где заканчиваются границы ее устойчивости. Поэтому, если такая модель начинает использоваться "в бою", ее эксплуатация должна сопровождаться еще более пристальным и детальным контролем, чем в случае традиционных скоринговых моделей.

Выводы

Нужно признать, что на сегодняшний день построение полноценных собственных моделей antifraud-скоринга является уделом крупных игроков рынка, будь то имеющие большие объемы выдач розничные банки или ведущие кредитные бюро. Именно они в состоянии преодолеть основную проблему, являющуюся стоп-фактором для разработки таких моделей, - проблему объемов исторических данных. При этом, однако, даже приближенное и частичное решение этой задачи поднимает множество вопросов качества данных и сопряженных с ними бизнес-процессов, решение которых само по себе позволяет существенно снизить риск мошенничества и повысить операционную эффективность независимо от итогового решения о целесообразности построения скоринга противодействия мошенничеству для кредитной организации.

С.Е.Попов

Банковский эксперт