Правила участия в Чемпионате среди Data Scientists

1. ОПИСАНИЕ ЗАДАЧИ

Для каждого клиента рассчитать вероятность его ухода в отток в течение месяца, следующего за месяцем построения модели.

Пример: входные данные для построения модели – это 3 полных месяца: март, апрель, май. Анализ по данной модели строится в июне на данных за март, апрель, май. В результате работы модели должен быть получен бинарный прогноз (1 или 0) того, что клиент прекратит использование услуг банка в течение июля.

2. ТРЕБОВАНИЯ К УЧАСТНИКАМ

Участвовать в Чемпионате могут любые физические лица, группы физических лиц или юридические лица при условии подписания ими специального Соглашения о неразглашении, которое нужно будет распечатать и прислать Почтой России по адресу: ПАО Сбербанк, 117997, г. Москва, ул. Вавилова, д.19. На конверте указывается полное ФИО Участника Чемпионата и наименование предмета: «Участие в чемпионате. Подписанное Соглашение о конфиденциальности». Текст Соглашения участники получают на электронную почту после оформления заявки на участие

При этом претендовать на Призовой фонд в 100 000 рублей смогут только те из них, кто наряду с прогнозом предоставит аннотированный исходный код модели на языке Python на условиях, определяемых MIT License, и ссылки на внешние источники данных, и библиотеки, использованные при составлении модели.

3. ОПИСАНИЕ ДАННЫХ

1. Общая информация

  1. Общее количество файлов: 6
  2. Наименование файлов: train.csv; column_names_train.csv; target_train.csv; column_names_target_train.csv; target_test.csv; column_names_target_test.csv

2. Детальное описание

  1. column_names_train.csv
    Файл содержит название колонок файла train.csv
  2. train.csv
    Файл содержит обезличенные данные о клиенте. Всего 58 показателей (Y1-Y58) и 4 ID (ID_1_1, ID_1_2, ID_2_1, ID_2_2). Каждая пара (ID_1_1 и ID_1_2) или (ID_2_1 и ID_2_2) характеризует только одного клиента
  3. column_names_target_train.csv
    Файл содержит название колонок файла target_train.csv
  4. target_train.csv
    Файл содержит информацию о целевом событии (поле target) для клиентов из файла train.csv. Отток клиентов определяется неким условием, назовем его условием А. Считается, что клиент ушел в отток в текущем месяце, если в каждом из последующих 3-х месяцев выполняется условие А.

    Важно: существуют клиенты, для которых целевое событие из файла train.csv не определено.

    Пара идентификаторов (ID_1 и ID_2) характеризует только одного клиента. Пара идентификаторов (ID_1 и ID_2) – это либо пара (ID_1_1 и ID_1_2), либо (ID_2_1 и ID_2_2)
  5. column_names_target_test.csv
    Файл содержит название колонок файла target_test.csv
  6. target_test.csv
    Файл содержит список клиентов, характеризующихся парой идентификаторов (ID_1 и ID_2). Для каждого из данных клиентов необходимо проставить значение в поле target о целевом событии: 1 – клиент ушел в отток, 0 – клиент не ушел в отток.

Описание цели: Для каждого клиента из файла target_test.csv проставить значение 0 или 1 в поле Target

Использование внешних источников данных (например, находящейся в свободном доступе информации об экономическом состоянии регионов) допустимо, но должно явно указываться в описании алгоритма и не должно нарушать ничьих авторских и других прав.

4. ОЦЕНКА РЕЗУЛЬТАТОВ И НАГРАЖДЕНИЕ ПОБЕДИТЕЛЕЙ

Оценка результатов работы модели будет производиться по нормализованному коэффициенту Gini

Итоговый файл участников Чемпионата – это файл test.csv с заполненным полем target, в котором должна содержаться следующая информация: 1 – клиент уйдет в отток, 0 – клиент не уйдет в отток

Каждый участник до 23:59 (UTC+03:00) 16 сентября 2015 года должен предоставить итоговый файл test.csv с прогнозом. Кроме того, участники претендующие на Призовой фонд должны предоставить исходный код модели в соответствии с Пунктом 2 настоящих Правил и описание используемых внешних источников данных.

По прогнозу, построенному в файле test.csv, судьями будет рассчитан коэффициент Gini. Победителем будет признан участник с наибольшим Gini.

Объявление топ 5 финалистов и главного победителя состоится в 16:00 на площадке конференции ICBDA 18 сентября 2015 года.

Участники Чемпионата, приславшие модель, отвечающую требованиям качества организаторов, получают один бесплатный билет на конференцию. Остальные участники команд и не прошедшие отбор могут зарегистрироваться с 20% скидкой.

5. СРОКИ ПРОВЕДЕНИЯ И ЭТАПЫ ЧЕМПИОНАТА

Регистрация участников: до 23:59 (UTC+03:00) 4 сентября 2015 года

Анализ данных: 10:00 (UTC+03:00) 7 сентября 2015г. - 23:59 (UTC+03:00) 16 сентября 2015 г.

Подведение итогов: 16:00 (UTC+03:00) 18 сентября 2015 г.

Данные правила являются публичной офертой.

Для того, чтобы подать заявку от физического лица или команды, заполните специальную форму до 23:59 (UTC+03:00) 4 сентября.

Регистрация на Чемпионат среди Data Scientists

ПРИЕМ ЗАЯВОК ОКОНЧЕН
ИДЕТ ЧЕМПИОНАТ
РЕЗУЛЬТАТЫ В 16:00 НА КОНФЕРЕНЦИИ ICBDA 18 СЕНТЯБРЯ