Сегментация торгового пространства

Модель сегментации торгового пространства

Автоматически определяет, к какому из сегментов бизнеса относится та или иная торговая точка (касса)

внедряется в контур обработки данных ОФД
дает возможность формировать панельные выборки торговых точек с управляемым качеством
позволяет анализировать динамику отдельных рынков (FMCG, Beauty, Fashion и др.)

0,75

Гарантированная точность модели, которая проверяется специалистами Algorithmics
10 000+

Размеченных торговых точек — размер обучающей выборки
~140

Сегментов в готовом одноуровневом списке, который мы используем для работы модели

Имеем систему подготовки, управления и балансировки обучающих выборок, штат специально обученных разметчиков и инфраструктуру распределенных вычислений — что позволяет размечать данные большого объема в сотни миллионов строк.

На входе

Данные за конкретный месяц
Модель сегментации

Данные за конкретный месяц
На выходе

Ежемесячное определение сегментов торговых точек

Для предсказания наша модель использует множество признаков

Эконометрические показатели торговой точки (средний чек, количество чеков в день, сумма продаж и др.)
Семантика продаж в чеках (очистка, лемматизация, корпус текста, работа с токенами и др.)
ОКВЭДы торговых точек (основные и дополнительные)

Как мы решаем задачи?

Компания «Умные кассы» обладает большим объемом данных о кассовых чеках (сотни тысяч касовых аппаратов, ежедневная актуализация данных, миллиарды транзакций).

Поставила перед нами следующую задачу: определить тип торговых точек (продуктовый магазин, автосервис, спа-салон и др. — всего 150 типов) на основе данных о продажах в кассовых чеках в нескольких торговых точках.

Проведя EDA, мы обнаружили ряд ограничений, с которыми мы смогли справиться:

По продажам торговых точек невозможно понять, к какому сегменту бизнеса она принадлежит

Для этого мы разработали модель ML, определяющую тип торговой точки по эконометрическим данным и текстовому названию товаров в чеках

Но названия товаров в чеках указывают сами продавцы, названия не единообразны, не структурированы, в 50% позиций название вообще отсутствует. Как модель имеет такую высокую точность?

Данные продаж в чеках сначала проходят тщательную подготовку, проводится анализ семантики на предмет различных проблем (разнообразие описаний товаров и услуг, некорректный ввод данных, выявление аномалий и др.), а затем данные проходят через алгоритм чистки текста (очистка текстов от шумовых символов, формирование «белого» списка слов и др.)

А еще в полученных данных выборка торговых точек не сбалансирована относительно генеральной совокупности, показатели регионов смещены относительно всей страны

Для повышения репрезентативности и точности данных, а также для исключения возможных погрешностей мы обязательно проводим калибровку данных (адаптивное RIM-взвешивание), экстраполяцию продаж на выборки (город, регион, страну) и применяем нашу динамическую систему управления качеством данных, прежде чем запускать модель.

По итогу наша модель сегментации для компании «Умные кассы» показала точность определения сегментов от 86% до 97% в зависимости от типа торговой точки (всего 150 типов торговых точек).

И теперь с помощью сегментации торговых точек мы можем построить аналитику продаж в канале, тренды категории, проанализировать динамику отдельных рынков (FMCG, Beauty, Fashion и др.), чтобы решить новые задачи.

Решим и вашу задачу!

Сегментация торгового пространства

Модель сегментации торгового пространства

Хочу мерч

Стать партнёром

Мы получили ваше сообщение!

Мы получили
ваше сообщение!