Сегментация торгового пространства

Модель сегментации торгового пространства

Автоматически определяет, к какому из сегментов бизнеса относится та или иная торговая точка (касса)

  • внедряется в контур обработки данных ОФД
  • дает возможность формировать панельные выборки торговых точек с управляемым качеством
  • позволяет анализировать динамику отдельных рынков (FMCG, Beauty, Fashion и др.)
  • 0,75

    Гарантированная точность модели, которая проверяется специалистами Algorithmics

  • 10 000+

    Размеченных торговых точек — размер обучающей выборки

  • ~140

    Сегментов в готовом одноуровневом списке, который мы используем для работы модели

Имеем систему подготовки, управления и балансировки обучающих выборок, штат специально обученных разметчиков и инфраструктуру распределенных вычислений — что позволяет размечать данные большого объема в сотни миллионов строк.

  • На входе

    Данные за конкретный месяц

  • Модель сегментации

    Данные за конкретный месяц

  • На выходе

    Ежемесячное определение сегментов торговых точек

Для предсказания наша модель использует множество признаков

  • Эконометрические показатели торговой точки (средний чек, количество чеков в день, сумма продаж и др.)
  • Семантика продаж в чеках (очистка, лемматизация, корпус текста, работа с токенами и др.)
  • ОКВЭДы торговых точек (основные и дополнительные)

Как мы решаем задачи?

Компания «Умные кассы» обладает большим объемом данных о кассовых чеках (сотни тысяч касовых аппаратов, ежедневная актуализация данных, миллиарды транзакций).

Поставила перед нами следующую задачу: определить тип торговых точек (продуктовый магазин, автосервис, спа-салон и др. — всего 150 типов) на основе данных о продажах в кассовых чеках в нескольких торговых точках.

Проведя EDA, мы обнаружили ряд ограничений, с которыми мы смогли справиться:

Аватар
По продажам торговых точек невозможно понять, к какому сегменту бизнеса она принадлежит
Аватар
Для этого мы разработали модель ML, определяющую тип торговой точки по эконометрическим данным и текстовому названию товаров в чеках
Аватар
Но названия товаров в чеках указывают сами продавцы, названия не единообразны, не структурированы, в 50% позиций название вообще отсутствует. Как модель имеет такую высокую точность?
Аватар
Данные продаж в чеках сначала проходят тщательную подготовку, проводится анализ семантики на предмет различных проблем (разнообразие описаний товаров и услуг, некорректный ввод данных, выявление аномалий и др.), а затем данные проходят через алгоритм чистки текста (очистка текстов от шумовых символов, формирование «белого» списка слов и др.)
Аватар
А еще в полученных данных выборка торговых точек не сбалансирована относительно генеральной совокупности, показатели регионов смещены относительно всей страны
Аватар
Для повышения репрезентативности и точности данных, а также для исключения возможных погрешностей мы обязательно проводим калибровку данных (адаптивное RIM-взвешивание), экстраполяцию продаж на выборки (город, регион, страну) и применяем нашу динамическую систему управления качеством данных, прежде чем запускать модель.

По итогу наша модель сегментации для компании «Умные кассы» показала точность определения сегментов от 86% до 97% в зависимости от типа торговой точки (всего 150 типов торговых точек).

И теперь с помощью сегментации торговых точек мы можем построить аналитику продаж в канале, тренды категории, проанализировать динамику отдельных рынков (FMCG, Beauty, Fashion и др.), чтобы решить новые задачи.

Решим и вашу задачу!