Мудрый Экономист

Разработка скоринговых карт

"Банковский ритейл", 2007, N 3

Мы предлагаем вниманию читателей статью, посвященную актуальным проблемам разработки скоринговых карт как инструмента оценки уровня риска в розничном бизнесе банков. Данная статья основана на материалах недавно вышедшего в свет методического пособия известных авторов-практиков "Скоринговые карты: от разработки до внедрения", содержащего практические рекомендации по поэтапной разработке скоринговых карт от первого этапа запуска банком собственного проекта, сбора и очистки данных, настройки скоринговых моделей до рекомендаций по их внедрению, мониторингу и корректировке. Редакция благодарит авторов за предоставленную возможность ознакомить читателей журнала с некоторыми положениями пособия.

В Европе существует большое количество стран, где кредитный скоринг применяется очень успешно, а проблемы мошенничества или отсутствия корректной информации в кредитных бюро или внутренних базах данных банка стоят не менее остро, чем в России.

Кредитный скоринг, как и другие предикативные модели, является инструментом для оценки уровня риска заемщика. Применяя различные статистические и вероятностные подходы, мы назначаем заемщикам скоринговые баллы, разделяя их на "хороших" и "плохих". Эти скоринговые баллы наряду с другими финансовыми характеристиками, такими как ожидаемый уровень выдачи кредитов, прибыль, потери, помогают в конечном итоге принять решение.

Простейшая скоринговая карта, которая используется при выдаче новых кредитов, состоит из набора характеристик, достаточно значимых со статистической точки зрения, способных разделять данные на "хорошие" и "плохие". В данной статье мы представляем традиционный формат скоринговой карты. Подобный формат наиболее распространен в банковской отрасли, и это имеет следующие обоснования:

Скоринговые модели в бизнес-контексте - это инструмент принятия разнообразных кредитных решений, элемент общей стратегии розничного банка. Скоринговые модели в потребительском кредитовании используются на различных этапах работы с клиентом, начиная с получения первой заявки от заемщиков, через организацию работы с текущими заемщиками, и заканчивая прогнозированием возможного уровня потерь в кредитном портфеле и созданием необходимых резервов.

В статье речь в основном идет о построении скоринговых карт для новых заявок - точно такая же логика может быть применена и к построению других видов скоринговых карт.

Процесс построения и внедрения скоринговой карты: этапы и ресурсы

Итак, имея некоторую кредитную историю собственных заемщиков, банк создает собственные скоринговые карты, с помощью которых будет оптимизирована работа розничного бизнес-подразделения, а значит, увеличена эффективность всего кредитного портфеля банка. Что же включает в себя процесс разработки и внедрения скоринговых карт и какие неотъемлемые компоненты должны присутствовать в банке для успешного внедрения проекта? Обобщение всех этапов приведено в таблице 1.

Таблица 1

Этапы построения и внедрения скоринговой карты

-------------T---------------T-----------------T------------------
¦ Подготовка ¦ Работа с данными¦ Техническое
¦ проекта ¦ ¦ внедрение
-------------+---------------+-----------------+------------------
Этапы ¦Постановка ¦Сбор данных; ¦Доработка
¦задачи; ¦очистка данных; ¦программного
¦определение ¦анализ данных; ¦обеспечения;
¦приоритетов; ¦применение ¦внедрение
¦планирование ¦аналитических ¦стратегии
¦проекта; ¦методов; ¦в программное
¦формирование ¦построение ¦обеспечение
¦команды; ¦скоринговых карт;¦
¦оценка ¦валидация карт ¦
¦ИТ-систем ¦ ¦
-------------+---------------+-----------------+------------------
Минимальное ¦2 недели ¦6 недель ¦4 недели
время ¦ ¦ ¦
-------------+---------------+-----------------+------------------
Необходимые ¦Руководитель ¦Разработчик ¦Руководитель
человеческие¦проекта ¦скоринговой карты¦проекта;
ресурсы ¦ ¦и специалисты по ¦ИТ-менеджер
¦ ¦обработке данных ¦
-------------+---------------+-----------------+------------------
Технические ¦ - ¦Программное ¦Фронт-офисное
ресурсы ¦ ¦обеспечение для ¦решение для
¦ ¦проведения ¦скоринга новых
¦ ¦аналитического ¦заявок, или
¦ ¦исследования и ¦коллекторское ПО,
¦ ¦построения карт ¦или CRM-системы
¦ ¦ ¦для работы с
¦ ¦ ¦существующими
¦ ¦ ¦клиентами банка
-------------+---------------+-----------------+------------------

Распределение ролей в процессе работы

Процесс построения скоринговой карты - это синтез информационных технологий (IT) и статистического исследования данных. Только подобная комбинация в сочетании с аналитикой и пониманием бизнес-задач может гарантировать успешный результат. В отличие от уже готовой карты самостоятельно построенная банком скоринговая карта - это не "черный ящик". Опыт показал, что если формирование скоринговых баллов происходит изолированно, то это может привести к различным проблемам наподобие включения характеристик, данные по которым больше не собираются или являются недостаточно достоверными и которые в результате приводят к всевозможным "сюрпризам", а зачастую просто неприменимы. Поскольку процесс построения скоринговой карты комплексный, то на разных стадиях, соответственно, задействованы разные специалисты. Успешное завершение проекта возможно лишь при условии, что есть четкое понимание, какие ресурсы необходимы, и обеспечение наличия этих ресурсов в нужный момент в нужном месте.

Анализ ситуации. Создание бизнес-плана и выбор стратегии

Существует ошибочное мнение, что разработка скоринговой карты начинается со сбора данных. Это в корне неверно. Прежде всего необходимо идентифицировать цели проекта и соответствующий состав участников проекта.

Идентификация цели помогает расположить задачи по степени их важности: например, увеличение дохода - уменьшение потерь. Это повышает жизнеспособность проекта, устраняя возникновение сюрпризов, когда, например, банк неожиданно принимает решение об уменьшении балла отсечения с целью выдачи большего количества кредитов или об увеличении того же балла с целью сокращения потерь. Таким образом, цель должна быть определена заранее, что поможет избежать проблем в будущем, будь то:

В конечном итоге цель также влияет на процесс валидации и внедрения построенной скоринговой карты, определяя "лучшую" скоринговую карту из имеющихся в наличии. Как правило, на практике приходится сталкиваться сразу с несколькими целями из тех, что были перечислены выше.

Бизнес-план определяет, какие скоринговые карты будут использоваться в проекте, внутренние (построенные в процессе проекта) или внешние (готовые), и обосновывает этот выбор. Готовые карты используются не только тогда, когда в банке нет достаточной кредитной истории. Подобное решение может быть также вызвано отсутствием определенных ресурсов, необходимых для проекта, или отсутствием опыта построения скоринговой карты для специфического продукта, сжатыми сроками по времени или стоимостью внутренней разработки.

Готовые карты бывают также полезны, когда компания предлагает новый продукт, по которому еще не имеется никаких данных в прошлом, но существуют данные по отрасли; когда объем продаж того или иного продукта не покрывает стоимости построения скоринговой карты.

Бывают также случаи, когда статистически невозможно использовать скоринговые карты, ни внутренние, ни внешние. Это происходит обычно из-за очень низких объемов продаж, которые не оправдывают затраты, связанные с любой скоринговой картой. Встречаются также продукты, для которых не существуют готовые скоринговые модели. При таких обстоятельствах модель строится на базе так называемого экспертного мнения.

Развитие такой модели также включает в себя селективный отбор характеристик, обладающих (предположительно) хорошей прогнозной силой, и назначение баллов по каждому признаку, как это происходит со статистическими моделями. Однако внедрение подобной модели производится на основе коллективного опыта, а получающаяся модель отражает проводимую банком политику. В любом случае формирование таких субъективных моделей должно происходить при участии департаментов маркетинга, управления рисками и других соответствующих структур.

Наличие и сбор данных

По времени это наиболее длительный этап, требующий привлечения большого количества ресурсов. На этом этапе определяется, насколько выполним проект по формированию скоринговой карты, а также его основные параметры. Параметры включают в себя исключения, определение цели, выборку и окна "созревания".

На втором этапе оценивается пригодность данных: их качество и количество. Для построения скоринговой карты необходимы надежные и чистые данные с минимальным числом отсутствующих значений, повторных записей и т.п. Этот процесс можно сделать более эффективным, если данные размещать в специальных хранилищах или витринах данных.

Очевидно, что для решения различных скоринговых задач разработчиками скоринговых карт используются различные данные. Как правило, характеристики для скоринговой карты могут быть выбраны как из одного, так и из нескольких источников данных. Суммируя описание данных, которые могут быть использованы для построения различных скоринговых моделей, можно сказать, что данные всегда разделены на две части: в первой - все переменные, которые используются для предсказания того или иного события (например, дефолта), во второй - переменная, характеризующая наступление того или иного события.

Количество необходимых данных может быть разным, но в целом оно должно удовлетворять требованиям статистической значимости и хаотичности. На этом этапе точное количество данных не имеет значения, так как это зависит от определения "плохого" заемщика, которое будет установлено на следующем этапе. Однако по правилам для корректного построения скоринговой карты претендента достаточно приблизительно 2 тыс. "плохих" записей и 2 тыс. "хороших", которые могут быть случайно выбраны для каждой скоринговой карты из набора заемщиков, получивших кредит в течение определенного интервала времени. Для поведенческих скоринговых карт это будет уже другой набор данных, отражающий "платежное" поведение клиента, а для скоринговых карт должников используются записи со статусом просрочки платежа. Данные об отказах (2 тыс. записей) также могут применяться для построения скоринговой карты. Количество заявлений и отчеты по потерям/просрочкам платежей дают первоначальную идею относительно цели и степени ее достижения. На практике труднее найти достаточное количество "плохих" записей, чем "хороших".

Проектная команда также должна определить, насколько "надежны" внутренние данные, предназначенные для разработки скоринговой карты. Демографические данные, а также неподтвержденные публичные данные, например доход, указанный самим заемщиком, могут оказаться искаженными, в то время как данные кредитного агентства, сведения о регистрации недвижимого имущества, финансовая отчетность и т.д. являются более достоверными и реально могут использоваться. Если решено, например, что данные о заемщиках, предоставленные филиалами, ненадежны, то скоринговая карта может быть построена исключительно на данных кредитного бюро.

Банк решает самостоятельно - разработать скоринговую карту на основе только внутренних данных или добавить к этим данным еще и внешние источники, такие как кредитные бюро и внешние информационные провайдеры. Предпочтительно иметь эти данные в электронном виде, хотя в российской банковской практике, к сожалению, до сих пор практикуется "бумажный" вариант анкет заемщика, которые буквально вручную приходится вносить в компьютер. Естественно, это требует дополнительных ресурсов и задерживает процесс разработки. При этом любопытен тот факт, что региональные отделения в этом вопросе зачастую оказываются более "подкованными" и "продвинутыми" по сравнению с центром. Один из чешских банков составил даже рейтинг своих филиалов по критерию качества данных о заемщике (полнота информации, количество заполненных полей, процент ошибок и т.д.), в итоге пражский филиал этого банка оказался на 27-м месте.

Определившись с типом данных, следует переходить к непосредственному их сбору. Собирать их необходимо в строго определенном формате, отражающем параметры проекта разработки скоринговой карты.

Проектные параметры прежде всего включают в себя определение "хороших" и "плохих" заемщиков, временной горизонт и ограничения (исключения) в использовании определенных данных при создании выборки и непосредственно в процессе разработки карты.

Есть поля, обязательные к заполнению, а есть опционные. В первую очередь нас интересуют следующие поля, извлеченные из данных:

При разработке скоринговой карты поведения заемщика учитывается вся информация на протяжении определенного временного интервала, обычно за последние 6 - 12 месяцев.

В зависимости от бизнес-целей карты в нее могут добавляться всевозможные другие данные, в том числе демографические: возраст, регион, время проведения определенных акций, индикаторы на основе данных бюро и любые другие критерии, которые могут оказаться полезными при создании всестороннего профиля клиентской базы вашего банка.

Данные формируются в структуре, соответствующей задаче проекта. Например, эти банковские данные могут быть размещены с многократными строками для каждой комбинации продукта/учетной записи или с отдельной строкой для каждой учетной записи и многократных столбцов для каждого продукта.

Подготовка данных занимает 90% ресурсов проекта. В принципе, процесс моделирования мог бы принести гораздо большую выгоду, но после изнурительной фазы подготовки данных времени, чтобы провести очистку моделей предсказания, как правило, просто не остается.

Угроза срыва проекта кроется на стадии подготовки данных, когда они идентифицируются, трансформируются и собираются из различных источников, преобразуются и объединяются. Во многих случаях получение данных занимает столько времени, что на выполнение других задач, в том числе и анализа данных, его уже практически не хватает.

Качество и очистка данных. Определение параметров проекта. Период "созревания"

Скоринговые карты строятся исходя из предположения о том, что "прошлое отражает будущее". Таким образом, базируясь на данных об открытых ранее кредитах и анализируя имеющуюся информацию, можно предсказать результат (поведение) будущих заемщиков. Для того чтобы корректно выполнить этот анализ, нужно собрать необходимые данные за определенный промежуток времени, а затем осуществить их мониторинг в течение другого определенного отрезка времени и оценить, были они хорошими или плохими. Собранные данные (переменные) наряду с соответствующей классификацией (цель: "хороший"/"плохой") составляют основу для разработки скоринговой карты.

Процесс определения временного горизонта может быть представлен следующим образом. Предположим, что очередной кредит был предоставлен 1 февраля 2006 г. В некоторый момент времени в будущем (например, через 90 дней) вы должны будете определить, был ли этот заемщик "хорошим" или "плохим". "Окно созревания" представляет собой тот промежуток времени, когда заемщик, собственно говоря, имел возможность себя проявить (цель: 90+). "Окно выборки" представляет собой тот промежуток времени, когда те или иные заемщики отбираются для анализа (попадают в выборку). Рекомендуется также проанализировать, какой период "созревания" является идеальным для того или иного продукта (региона, типа клиента и т.п.). В некоторых случаях, таких как мошенничество и банкротство, временной период уже известен или предопределен. Но тем не менее вышеописанный анализ полезно выполнить для того, чтобы определить идеальное "окно созревания".

Самый простой способ определить "окна созревания" и "выборки" состоит в том, чтобы проанализировать портфель на предмет просроченной задолженности и применить различные сценарии "плохих" случаев в течение определенного времени: просрочка более 30/60/90 дней. Хороший источник для подобных данных - ежемесячная или ежеквартальная отчетность, имеющаяся в любом отделе кредитных рисков.

Пример временного анализа (Vintage analysis) для просроченной задолженности свыше 90 дней и "окна созревания" 9 месяцев приведен в таблице 2. Данные, выделенные жирным шрифтом, показывают текущий статус просрочки платежа на определенный отчетный период времени.

Таблица 2

Пример временного анализа (Vintage analysis), %

---------T-----T------T------T------T-------T-------T-------T-------T--------
Дата ¦ 1 ¦ 2 ¦ 3 ¦ 4 ¦ 5 ¦ 6 ¦ 7 ¦ 8 ¦ 9
¦месяц¦месяца¦месяца¦месяца¦месяцев¦месяцев¦месяцев¦месяцев¦месяцев
---------+-----+------+------+------+-------+-------+-------+-------+--------
Январь ¦ 0,00¦ 0,44 ¦ 0,87 ¦ 1,40 ¦ 2,40 ¦ 2,80 ¦ 3,20 ¦ 3,60 ¦ 4,10
---------+-----+------+------+------+-------+-------+-------+-------+--------
Февраль ¦ 0,00¦ 0,37 ¦ 0,88 ¦ 1,70 ¦ 2,30 ¦ 2,70 ¦ 3,30 ¦ 3,50 ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Март ¦ 0,00¦ 0,42 ¦ 0,92 ¦ 1,86 ¦ 2,80 ¦ 3,00 ¦ 3,60 ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Апрель ¦ 0,00¦ 0,65 ¦ 1,20 ¦ 1,90 ¦ 2,85 ¦ 3,05 ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Май ¦ 0,00¦ 0,10 ¦ 0,80 ¦ 1,20 ¦ 2,20 ¦ ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Июнь ¦ 0,00¦ 0,14 ¦ 0,79 ¦ 1,50 ¦ ¦ ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Июль ¦ 0,00¦ 0,23 ¦ 0,88 ¦ ¦ ¦ ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Август ¦ 0,00¦ 0,16 ¦ ¦ ¦ ¦ ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------
Сентябрь¦ 0,00¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦
---------+-----+------+------+------+-------+-------+-------+-------+--------

Таблица имеет достаточно простую интерпретацию. Так, на первой строчке 2,4% заемщиков, получивших кредит в январе 2003 г., "выпали в просрочку" более 90 дней через 5 месяцев.

Таким образом, правильно подобранная выборка помогает избежать серьезных ошибок, возникающих, когда не "вызрело" еще ни одной просрочки. Или, например, если мы используем выборку по кредитам, полученным 7 месяцев назад, то процент просрочки составит лишь 4,5%, в то время как при обновленном наборе данных он у нас составит 6%. Это означает, что при неправильной выборке некоторые (а именно 1,5%) заемщики этого периода, которые являются "плохими", были бы ошибочно отнесены к "хорошим".

Временной горизонт "созревания" зависит от определения "плохого" заемщика, которое, в свою очередь, зависит от средней продолжительности кредита (18 - 24 месяца для кредитных карт; 36 месяцев для нецелевых кредитов и т.п.). Необходимо также учитывать, что портфели по кредитным карточкам имеют по своей природе более высокий риск, чем другие виды кредита, и поэтому достигают того же самого уровня просрочки намного быстрее. В случае отсутствия денег клиенты гораздо чаще прекращают платить по кредитной карте, чем по обеспеченному кредиту. Аналогично процент просрочки на меньший срок (30 дней) значительно превышает уровень просрочки 60 или 90 дней.

"Поведенческие" скоринговые карты предусматривают, как правило, "окно созревания" из расчета 6 - 12 месяцев, в то время как модели по сбору долгов базируются на данных одного месяца (а для большей точности используются более короткие временные интервалы - до двух недель).

Возможен также вариант, когда размер "окна созревания" для предикативных моделей определяется регулятором (надзорными органами) (например, для вычисления Predicted PD/LGD/EAD), что предусмотрено требованиями соглашения Базеля II.

Возможно также проведение анализа по определению "когда-либо плохой" (в случае если заемщик когда-либо выпадал в просрочку, а затем произвел необходимую оплату) или "окончательно плохой" (для безнадежных долгов). Пример просроченной задолженности по одному заемщику показан в таблице 3, где в графе "Просрочка" указано количество дней, выпадавших в определенном месяце.

Таблица 3

24-месячная история просрочки платежа

----------T---T---T---T----T----T----T---T----T----T----T----T----
Месяц ¦ 1 ¦ 2 ¦ 3 ¦ 4 ¦ 5 ¦ 6 ¦ 7 ¦ 8 ¦ 9 ¦ 10 ¦ 11 ¦ 12
----------+---+---+---+----+----+----+---+----+----+----+----+----
Просрочка¦ 0 ¦ 0 ¦ 1 ¦ 1 ¦ 0 ¦ 0 ¦ 0 ¦ 1 ¦ 2 ¦ 3 ¦ 0 ¦ 0
----------+---+---+---+----+----+----+---+----+----+----+----+----
Месяц ¦ 13¦ 14¦ 15¦ 16 ¦ 17 ¦ 18 ¦ 19¦ 20 ¦ 21 ¦ 22 ¦ 23 ¦ 24
----------+---+---+---+----+----+----+---+----+----+----+----+----
Просрочка¦ 0 ¦ 0 ¦ 1 ¦ 2 ¦ 0 ¦ 0 ¦ 0 ¦ 1 ¦ 0 ¦ 1 ¦ 0 ¦ 0
----------+---+---+---+----+----+----+---+----+----+----+----+----

Определение "плохого" заемщика

Если в случае банкротства или мошенничества определение "плохой" является однозначным, то при оценке заемщика все претенденты делятся на три основные группы: "плохой", "хороший" и "неопределенный". Относительно просроченной задолженности возможны разные интерпретации в зависимости от уровня просрочки платежа. Так, если "плохим" считать заемщика с просрочкой "два раза по 30 дней" или с однократной просрочкой в 60 дней, то каждый раз мы будем получать разный результат.

Определение "плохого" заемщика базируется на следующих факторах:

После того как банк определится с понятием "плохой", ему необходимо провести дальнейший анализ для того, чтобы удостовериться, что выявленные заемщики действительно "плохие". Для этого возможно применение экспертизы или анализа, а также комбинации того и другого в зависимости от имеющихся в распоряжении ресурсов и доступных данных. Конечно, не существует панацеи от всех бед, но некоторые указанные ниже методы могут существенно помочь при проведении анализа.

Метод "Консенсус" заключается в том, что в результате совместного обсуждения определения "плохой заемщик" отделами риска, маркетинга и кредитных операций принимается формулировка, кого именно считать "плохим", принимая во внимание опыт и различные точки зрения подразделений.

Существуют различные аналитические методы для того, чтобы подтвердить предполагаемое определение "плохого" заемщика:

  1. анализ изменения;
  2. сравнительный анализ (текущий уровень задолженности по отношению к наихудшему).

В дополнение к этим двум методам рекомендуется также использовать анализ доходности, который поможет убедиться, что определенные банком "плохие" заемщики действительно нерентабельны или имеют отрицательную чистую приведенную стоимость (NPV). Стоит также отметить, что на практике это гораздо легче проверить на отдельных продуктах (например, пластиковые карты), чем на банковском уровне в целом.

Анализ изменения. Данный метод заключается в сравнении наихудшего уровня просрочки за указанные предыдущие "x" месяцы с последующими "x" месяцами. Затем вычисляется процент заемщиков, которые поднимаются с наихудшего уровня в другие группы просрочек, т.е. "улучшаются".

Например, в таблице 4 показан статус просрочки возобновляемой кредитной линии за 24-месячный период, разбитый на два равных 12-месячных периода: "предыдущий" и "следующий". Очевидно, что наихудшая просрочка платежа за "предыдущий" двенадцатимесячный период наблюдалась в октябре (десятый месяц) - три просроченных месяца. Кроме того, просрочку в два месяца мы наблюдали на 16-м месяце уже в следующем двенадцатимесячном периоде.

Таблица 4

Статус просрочки возобновляемой кредитной линии за 24-месячный период

------------------------------------------------------------------
Предшествующие 12 месяцев
-----------T----T----T----T---T---T---T----T---T---T----T----T----
Месяц ¦ 1 ¦ 2 ¦ 3 ¦ 4 ¦ 5 ¦ 6 ¦ 7 ¦ 8 ¦ 9 ¦ 10 ¦ 11 ¦ 12
-----------+----+----+----+---+---+---+----+---+---+----+----+----
Просрочка ¦ 0 ¦ 0 ¦ 1 ¦ 1 ¦ 0 ¦ 0 ¦ 0 ¦ 1 ¦ 2 ¦ 3 ¦ 0 ¦ 0
-----------+----+----+----+---+---+---+----+---+---+----+----+----
Последующие 12 месяцев
-----------T----T----T----T---T---T---T----T---T---T----T----T----
Месяц ¦ 13 ¦ 14 ¦ 15 ¦ 16¦ 17¦ 18¦ 19 ¦ 20¦ 21¦ 22 ¦ 23 ¦ 24
-----------+----+----+----+---+---+---+----+---+---+----+----+----
Просрочка ¦ 0 ¦ 0 ¦ 1 ¦ 2 ¦ 0 ¦ 0 ¦ 0 ¦ 1 ¦ 0 ¦ 1 ¦ 0 ¦ 0
-----------+----+----+----+---+---+---+----+---+---+----+----+----

Основная цель здесь состоит в том, чтобы распознать ту "роковую черту", когда уровень просрочки заемщика становится безнадежным. На практике мы сталкиваемся с тем, что большинство задолженностей, достигших 90 дней просрочки, уже не восстанавливаются, а становятся только хуже (на "последующем" периоде), подтверждая, таким образом, определение.

Например, только 18% заемщиков, которые когда-либо имели просрочку в 30 дней за предыдущие 12 месяцев, попали в просрочку 60 и 90 дней. Однако почти 70% просрочек, которые достигают 90-дневного срока, остаются в наихудшей группе. В этом случае определение "просрочка когда-либо более 90 дней" для "плохого" заемщика имеет больше смысла, поскольку она действительно изолирует "безнадежных" должников. Наоборот, 30-дневное определение "плохого" не будет адекватным, поскольку большинство таких просрочек восстанавливается. Очевидно, именно по этим причинам Базельское соглашение определило "неплатеж более 90 дней" как период, после которого банк рассматривает клиента как должника и, соответственно, "плохого" заемщика (некоторые регуляторы могут изменить это определение до 180 дней для определенных продуктов).

Сравнительный анализ (текущий уровень задолженности по отношению к наихудшему). Этот метод в принципе похож на предыдущий, но более простой в выполнении. Мы сравниваем наихудшую (когда-либо) просрочку с ее текущим статусом. Как и в предыдущем методе, основная цель здесь состоит в том, чтобы найти "точку невозвращения".

Рассмотрим пример. Таблица 5 показывает, что из всех заемщиков, которые когда-либо имели просрочку 30+, большинство (84%) не имеют просрочек в настоящее время. И наоборот, 60% всех 90-дневных просрочек сохраняются или становятся хуже. Это снова подтверждает, что 90- или 120-дневное определение "плохого" заемщика более корректное, поскольку за это время собирается уже достаточное число просрочек.

Таблица 5

Сравнение уровня текущей задолженности с наихудшим

------------------------------------------------------------------
Наихудшая задолженность, %
-------------T--------T------T------T------T-----T------T---------
¦ ¦Сейчас¦ 30 ¦ 60 ¦ 90 ¦ 120 ¦Списание
¦ ¦ ¦ дней ¦ дней ¦ дней¦ дней ¦
+--------+------+------+------+-----+------+---------
¦Сейчас ¦ 100 ¦ 84 ¦ 53 ¦ 16 ¦ 7 ¦
+--------+------+------+------+-----+------+---------
¦30 дней ¦ ¦ 12 ¦ 28 ¦ 10 ¦ 8 ¦
Текущая +--------+------+------+------+-----+------+---------
просрочка ¦60 дней ¦ ¦ 4 ¦ 11 ¦ 14 ¦ 10 ¦
+--------+------+------+------+-----+------+---------
¦90 дней ¦ ¦ ¦ 8 ¦ 44 ¦ 13 ¦
+--------+------+------+------+-----+------+---------
¦120 дней¦ ¦ ¦ ¦ 16 ¦ 62 ¦
+--------+------+------+------+-----+------+---------
¦Списание¦ ¦ ¦ ¦ ¦ ¦ 100
-------------+--------+------+------+------+-----+------+---------

Хотелось бы отметить, что описанные методы для формирования и подтверждения корректного определения "плохого" клиента применимы как для оценки заемщика, так и в поведенческом скоринге. Несмотря на то что "поведенческие" скоринговые карты обычно разрабатываются с использованием шестимесячного временного окна, тем не менее полезно выполнить этот анализ для того, чтобы определить действительно "плохого" клиента.

"Серая" зона

Когда "плохие" заемщики окончательно определены, можно применить тот же самый анализ для определения "хороших". Напомним еще раз, что определение должно соответствовать бизнес-стратегии банка и организационным целям, оговоренным ранее. Определение "хороших" заемщиков является менее аналитическим и, как правило, очевидно:

Стоит также отметить, что в то время как "хорошие" записи должны сохранять свой статус на протяжении всего "периода вызревания", "плохие" заемщики проявляются, лишь достигая указанной стадии просрочки в любое время в пределах "окна вызревания" (согласно определению "когда-либо").

Неопределенные, или "серые", заемщики - это те, которые в результате не попадают в категорию ни "хороших", ни "плохих". Эти записи не имеют достаточной кредитной истории для их классификации или имеют некоторую небольшую просрочку, поэтому их нельзя отнести к "хорошим", но и к "плохим" они также пока не попали. "Серую" зону заемщиков можно описать следующим образом:

Конечно, самое простое, что можно сделать, - исключить данные "серых" заемщиков из анализа. Но при этом следует убедиться, что они составляют не более 10 - 15% кредитного портфеля. "Серая" зона повышает процент ошибок при классификации заемщиков, когда мы можем ошибочно отнести неопределенного заемщика к "хорошим".

В зависимости от проводимого анализа "серая" зона может быть очень большой, а может вообще отсутствовать (например, скоринг банкротства). Большая "серая" зона означает, что имеется существенное количество неактивных счетов. Следовательно, необходимо выяснить причины подобной ситуации, возможно, существуют другие кредитные карты с более высокими лимитами или с более низкими процентными ставками, которые потенциальный клиент счел более привлекательными. После выявления причин необходимо принять соответствующие действия для того, чтобы исправить ситуацию (например, увеличение лимита или снижение процентных ставок для "хороших" клиентов, начисление "бонусных" баллов для постоянных клиентов, предложение скидок для дополнительных кредитных продуктов или отмена кредитных карточек для бездействующих клиентов).

Таким образом, при построении скоринговой карты используются только записи, определенные как "хорошие" и "плохие" (и записи об "отказниках"). После окончательного определения "плохого" заемщика нужно зафиксировать их количество в портфеле, вычисляя текущий процент просроченной задолженности, который будет использоваться при моделировании будущей просрочки.

Следует отметить, что если в анализе используются данные об "отказниках", то общий процент просрочки меняется, и это также следует учитывать.

Исключения

Определенные записи о заемщиках должны быть исключены из выборки, используемой для разработки скоринговой карты. В целом набор данных для скоринга должен отражать обычную (нормальную) ситуацию и реальных заемщиков, которые ежедневно обращаются в банк с целью получения кредита. Скоринговые карты, разрабатываемые для определенных целей, например выявление мошенничества, могут также использовать некоторые дополнительные критерии и, соответственно, особые выборки. Подобные наборы данных специфичны и имеют определенную направленность: это работники самого банка, VIP-клиенты, зарубежные клиенты, "отказники" по кредитам, заемщики с утерянными/похищенными карточками, несовершеннолетние или умершие. Заметим, что некоторые программные разработчики скоринговых карт (например, SAS) сознательно включают данные об "отказниках" для того, чтобы восстановить реальный портрет клиента с улицы. С точки зрения логики это является наилучшим подходом.

Если банк прекратил свою деятельность в определенном регионе, например, из-за убыточности продукта, то применять подобные данные при разработке скоринговой карты недопустимо. Например, один из крупнейших российских банков после долгой и безуспешной выдачи автокредитов на автомобили отечественного производства пришел к выводу, что рентабельными могут быть лишь ссуды на иномарки. В результате не только были изменены условия выдачи автокредитов, но и исключены из анализа все записи об автомобилях российского производства, так как они больше не являлись объектами для получения автокредита.

Другой способ применения метода исключений состоит в том, что можно рассматривать только определенный сегмент (однородную аудиторию, которая принимается за типичную). Например, если задача состоит в построении скоринговой карты для больших городов, то туда не стоит включать записи о заемщиках, проживающих в сельской местности. Точно так же любой регион в силу своих демографических и географических (климатических) особенностей заслуживает разработки собственной скоринговой карты на основе данных о клиентах исключительно данного региона.

Сегментация клиентской базы

Исходя из вышесказанного, мы подошли к проблеме так называемой сегментации клиентской базы. Иногда использование нескольких скоринговых карт для одного портфеля обеспечивает лучшее дифференцирование риска, чем использование одной скоринговой карты. Практика показывает, что это происходит каждый раз, когда мы имеем дело с "разношерстной" аудиторией, состоящей из различных групп, и одна и та же скоринговая карта не может работать достаточно эффективно для всех, поскольку различные характеристики предсказывают риск для различных групп. Процесс идентификации этих групп называют сегментацией. Известны два основных способа сегментации клиентов:

  1. деление на группы производится на основе опыта и отраслевых знаний, а затем проверяется аналитическим путем;
  2. сегментация производится статистическими методами типа кластерного анализа или "дерева решений".

В любом случае полученные сегменты должны быть достаточно большими в целях получения достоверной выборки для разработки отдельной скоринговой карты. Не менее важно, чтобы сегментация производилась не просто по демографическим признакам, а на основе результата работы. Основная цель состоит в том, чтобы определить сегменты, основанные на реализации риска, а не только на профиле риска.

Выявление "нестандартного" поведения, однако, не является достаточной причиной для проведения сегментации. Различия среди заемщиков должны существенно влиять на результат (например, выделение сегмента с более низкими потерями или более высоким процентом просрочки).

Несмотря на то что сегментация базируется на данных "прошлого", она должна "смотреть в будущее", поскольку скоринговые карты разрабатываются для будущих заемщиков.

Базельское соглашение также уделяет соответствующее внимание сегментации, определяя сегменты как "однородные группы риска". Требования Базеля II не указывают каких-то определенных подходов к вопросам сегментации, оставляя финансовым учреждениям право на выделение собственных уникальных сегментов, отражающих специфику данного банка.

Эвристическая сегментация

Данный метод весьма популярен в практике российских консалтинговых компаний, поскольку использует бизнес-знания и практический опыт банковской индустрии. Источниками для возникновения идей могут служить:

На практике сегментация базируется на следующих факторах:

Итак, допустим, у банка сформировались некоторые идеи насчет возможной сегментации клиентов, и теперь необходимо подтвердить их, проанализировав поведение одной и той же характеристики для различных сегментов. Если одна и та же характеристика в каждом сегменте дает различные прогнозы, то это указывает, что предположения о необходимости сегментации имеют веское основание. Однако если характеристика предсказывает один и тот же уровень риска независимо от сегмента, то разработка дополнительной скоринговой карты не требуется, поскольку никакого дифференцирования не наблюдается.

В таблице 6 приведен пример сегментации заемщиков по возрасту, при этом процент просрочки несегментированной аудитории указан в столбике справа.

Таблица 6

Процент просроченной задолженности: сегментация на основе возраста

------------------------------------------------------------------
Процент просроченной задолженности
-------------------T--------------T--------------T----------------
Образование ¦ Возраст > 30 ¦ Возраст < 30 ¦Без сегментации
¦ лет ¦ лет ¦
-------------------+--------------+--------------+----------------
Среднее/среднее ¦ 3,8 ¦ 4,8 ¦ 3,2
специальное ¦ ¦ ¦
-------------------+--------------+--------------+----------------
Неполное высшее ¦ 2,1 ¦ 2,5 ¦ 2,9
-------------------+--------------+--------------+----------------
Высшее ¦ 1,3 ¦ 1,8 ¦ 1,4
-------------------+--------------+--------------+----------------

В примере есть различия для разных групп заемщиков. Одна и та же информация (то есть признаки "Высшее образование" и "Среднее образование") предсказывает просроченную задолженность по-разному для старших и более молодых претендентов. Заметим, что если бы сегментация не применялась, то все заемщики получили бы одинаковые баллы, а так они получают разные баллы в соответствии с их уровнем риска.

Так, мы видим, что заемщики в возрасте до 30 лет имеют уровень просроченной задолженности выше среднего. Причем этот факт прослеживается во всех группах, что указывает на то, что сегментация заемщиков по возрасту имеет смысл.

Другой способ подтверждения своих идей по поводу сегментации и идентификации уникальных сегментов состоит в том, чтобы посмотреть на уровень просроченной задолженности в различных отобранных группах. Анализируя просрочку для различных признаков в отобранных характеристиках, можно идентифицировать соответствующие сильно различающиеся сегменты.

Этот способ проиллюстрирован в таблице 7, где показана типичная сегментация по стажу работы, наличию недвижимости и типу клиента. Похоже, что сегментация по признаку наличия недвижимости имеет смысл. Более точные группировки для стажа на текущем месте работы могут также быть полезными, и очевидно, что групп должно быть более двух.

Таблица 7

Процент просрочки по сегментам

----------------------------------T-------------------------------
Характеристика ¦ Процент просрочки
----------------------------------+-------------------------------
Стаж работы ¦
----------------------------------+-------------------------------
До 1 года ¦ 6,9
----------------------------------+-------------------------------
От 1 до 3 лет ¦ 4,3
----------------------------------+-------------------------------
От 3 до 6 лет ¦ 3,1
----------------------------------+-------------------------------
От 6 до 10 лет ¦ 1,9
----------------------------------+-------------------------------
Свыше 10 лет ¦ 0,8
----------------------------------+-------------------------------
Наличие недвижимости ¦
----------------------------------+-------------------------------
Да ¦ 2,9
----------------------------------+-------------------------------
Нет ¦ 5,6
----------------------------------+-------------------------------
Тип клиента ¦
----------------------------------+-------------------------------
Работник банка ¦ 0,5
----------------------------------+-------------------------------
Корпоративный клиент ¦ 1,2
----------------------------------+-------------------------------
Внешний клиент (физлица) ¦ 4,8
----------------------------------+-------------------------------

Подобный анализ сегментаций достаточно прост в применении и может проводиться ежеквартально с целью идентификации потенциальных характеристик для просрочки платежа.

Статистическая сегментация (кластеризация)

Объединение в кластеры - довольно широко используемый способ идентификации групп, схожих по определенным признакам (переменным). Кластеризация баз данных заключается в размещении объектов в различные группы (кластеры) в зависимости от самих данных. Объекты внутри группы имеют тенденцию быть схожими по определенному признаку, а объекты из различных групп отличаются.

Два наиболее известных метода, применяемых в кластерном анализе, это метод К-средних и самоформирующиеся карты (SOMs). Кластеризация может быть произведена на основе Евклидовых расстояний, вычисляемых из одной или нескольких количественных переменных. Далее каждый кластер должен быть детально проанализирован. Последующий анализ может включать распределение характеристик для каждого кластера, что в итоге позволяет получить ряд правил, определяющих каждую уникальную группу.

Альтернативно объединение в кластеры может быть основано на любой из других характеристик, обеспечивающей дифференцирование между группами.

Еще один способ выполнения статистической сегментации - "дерево решений". Сегментация производится на основе результатов (то есть заемщики делятся на "хороших" и "плохих"). Помимо идентификации характеристик для сегментации "дерево решений" также идентифицирует оптимальные "точки разбиения" для каждой характеристики. В результате мы получаем четыре возможных сегмента для данного портфеля, основанных на критериях: существующий/новый клиент, длительность кредита и возраст.

Сравнение методов

Итак, для сегментации можно применять как эвристические, так и статистические методы. Какой из них работает лучше и когда?

Есть довольно простой метод для того, чтобы оценить, насколько эффективна сегментация. Первый шаг состоит в измерении прогнозирующей силы модели благодаря сегментации, которая отражается статистическими показателями, такими как критерий Колмогорова - Смирнова, метод с-статистики и т.д. Таблица 8 показывает пример такого анализа с использованием с-статистики, где мы имеем несегментированную скоринговую карту и 6 сегментированных карт. Очевидно, что сегментация действительно имеет смысл.

Таблица 8

Эффективность сегментации

-------------------T---------------T------------------T-----------
Сегмент ¦ Общая ¦ Сегментированная ¦Улучшение,
¦ с-статистика ¦ с-статистика ¦ %
-------------------+---------------+------------------+-----------
Возраст < 30 ¦ 0,65 ¦ 0,69 ¦ 6,15
-------------------+---------------+------------------+-----------
Возраст > 30 ¦ 0,68 ¦ 0,71 ¦ 4,41
-------------------+---------------+------------------+-----------
Срок < 2 лет ¦ 0,67 ¦ 0,72 ¦ 7,46
-------------------+---------------+------------------+-----------
Срок > 2 лет ¦ 0,66 ¦ 0,75 ¦ 13,64
-------------------+---------------+------------------+-----------
Золотая карточка ¦ 0,68 ¦ 0,69 ¦ 1,47
-------------------+---------------+------------------+-----------
Платиновая ¦ 0,67 ¦ 0,68 ¦ 1,49
карточка ¦ ¦ ¦
-------------------+---------------+------------------+-----------
Несегментированная¦ 0,66 ¦ - ¦ -
скоринговая карта ¦ ¦ ¦
-------------------+---------------+------------------+-----------

Интересно заметить, что сегментация платиновых/золотых карточек не привела к существенному усовершенствованию. Вероятно, потому что клиенты этих групп достаточно однородны. Поэтому пользователь должен сам решить, какой уровень сегментации является достаточно существенным для того, чтобы гарантировать более эффективный результат. В конечном итоге решение о том, была ли сегментация эффективной, принимается на основе бизнес-практики, поскольку нас интересует не максимальное значение с-статистики или KS, а "рабочие" индикаторы: процент одобрения, процент прибыли, размер потери и т.д. Поэтому было бы полезно преобразовать улучшенную прогнозирующую силу в ожидаемое выполнение портфеля.

В таблице 9 сравниваются два критерия качества работы: процент принятия положительных решений и ожидаемый уровень неплатежей для каждой сегментированной скоринговой карты. Из таблицы виден также приблизительный размер каждого сегмента. Именно по этим значениям мы можем решить, являются ли комбинации размера сегмента и улучшения работы достаточными для того, чтобы ввести сегментацию скоринговой карты. Зная ожидаемый уровень выдач и просрочек, мы сможем вычислить предполагаемый экономический эффект от сокращения реальных потерь (в рублях).

Таблица 9

Реальные преимущества сегментации, %

--------------T--------T--------------------T---------------------
¦ ¦ До сегментации ¦ После сегментации
--------------+--------+----------T---------+----------T----------
Сегмент ¦ Размер ¦ Получили ¦Неплатежи¦ Получили ¦Неплатежи
¦ ¦ кредит ¦ ¦ кредит ¦
--------------+--------+----------+---------+----------+----------
Итого ¦ 100 ¦ 70 ¦ 3,5 ¦ 70 ¦ 4,1
--------------+--------+----------+---------+----------+----------
Возраст < 30 ¦ 65 ¦ 70 ¦ 4,1 ¦ 70 ¦ 6,3
--------------+--------+----------+---------+----------+----------
Возраст > 30 ¦ 35 ¦ 70 ¦ 2,7 ¦ 70 ¦ 3,6
--------------+--------+----------+---------+----------+----------
Срок < 2 лет ¦ 12 ¦ 70 ¦ 4,2 ¦ 70 ¦ 5,7
--------------+--------+----------+---------+----------+----------
Срок > 2 лет ¦ 88 ¦ 70 ¦ 2,1 ¦ 70 ¦ 2,9
--------------+--------+----------+---------+----------+----------
Золотая ¦ 23 ¦ 70 ¦ 3,9 ¦ 70 ¦ 4,3
карточка ¦ ¦ ¦ ¦ ¦
--------------+--------+----------+---------+----------+----------
Платиновая ¦ 77 ¦ 70 ¦ 3,1 ¦ 70 ¦ 3,8
карточка ¦ ¦ ¦ ¦ ¦
--------------+--------+----------+---------+----------+----------

Почему же на практике банки не спешат осуществлять сегментирование, которое кажется столь очевидным и прибыльным? Причины могут быть следующие:

Для больших портфелей вышеуказанные затраты окупаются довольно быстро. Однако при меньших портфелях и в небольших финансовых организациях такой анализ может быть связан со значительными затратами, которые, возможно, не окупают столь сложной работы.

Н.В.Катилова

Независимый эксперт

А.С.Кордичев

Заместитель директора

департамента розничного бизнеса

ОАО АКБ "Росбанк"