Модуль 2 Урок 6

Модуль 2 Типы спроса и источники данных
Урок 6. Откуда берутся данные для прогноза: источники и ловушки

Прогноз — это не магия, а функция данных.

Когда мы строим прогноз (например, сколько продастся кофе или хлеба в следующем месяце), мы используем прошлые данные, чтобы предсказать будущее.
Но есть важное правило: качество прогноза зависит не только от математической модели, но и от качества данных.

Представь ситуацию:

Ты хочешь предсказать, сколько тебе нужно продуктов для вечеринки:
  • Если у тебя правильный список гостей (точные данные), ты легко рассчитаешь еду.
  • Но если список грязный (дубли, неточные имена, кто-то уже отказался, но ты не знаешь) → ты либо купишь лишнего, либо еды не хватит.
То же самое с прогнозами в бизнесе:
  • Если данные неполные или с ошибками, модель не поможет. Даже если это супер-алгоритм на базе искусственного интеллекта.

🧠 Формула успеха
Прогноз = Модель × Качество данных

Модель — метод, который мы используем (ARIMA, ML, AI).
Качество данных — насколько чистые, полные и точные данные мы подаем в модель.

👉 Если хотя бы один элемент «плохой» (например, данные грязные), весь прогноз будет ошибочным.

Аналогия с кулинарией
  • Хороший повар (модель) не приготовит вкусное блюдо, если продукты испорчены (данные грязные).
  • Даже если повар — мастер шеф, из гнилых овощей суп не получится.
Простой вывод

Не бывает хорошего прогноза на плохих данных.
Это главный принцип, который нужно запомнить.
Forecast data sources
📌 Источники данных для прогноза с примерами

1. Исторические продажи (Historical Sales)

Описание: данные о фактических продажах по SKU, каналам и регионам.
Почему важны: база для моделей временных рядов (MA, ES, ARIMA).
Ограничение: не учитывают OOS (Out of Stock), каннибализацию.
Пример:
Nestlé использует 3-летнюю историю продаж по регионам для прогноза кофе.

2. Заказы и CRM (Sales Orders, Customer Signals)

Описание: предварительные заказы и прогнозы отдела продаж.
Плюсы: ранний сигнал по крупным клиентам.
Минус: завышенные цифры из-за KPI.
Пример:
B2B-сегмент Danone: прогноз по сетям строится на заказах из CRM, но корректируется статистической моделью.

3. POS-данные (Point of Sale)

Описание: реальные данные с кассы ритейлеров (что купили конечные потребители).
Плюсы: ближе к реальному спросу.
Минус: задержка 1–2 недели.
Пример:
Unilever использует данные Walmart POS для улучшения прогноза по бытовой химии.

4. Промо и маркетинг (Marketing Inputs)

Описание: акции, скидки, рекламные кампании.
Почему важны: промо может увеличить продажи на +50–200%.
Пример:
Coca-Cola: интеграция промо-календаря в ARIMA + регрессионные модели → точность +12%.

5. Мастер-данные (Master Data)

Описание: справочники SKU, единицы измерения (UoM), иерархии категорий, клиентские сегменты.
Почему критично: ошибки → дубли SKU, неверные размеры упаковок.
Пример:
Кейс Target Canada: дубли SKU и ошибки в мастер-данных привели к убыткам $2 млрд.

6. Производственные и логистические данные

Описание: остатки на складах, ограничения мощностей, сроки поставок.
Пример:
Mars корректирует прогноз на основе доступных мощностей при пиках сезона.

7. Финансовые данные

Описание: план продаж в деньгах, маркетинговые бюджеты.
Пример:
BIC синхронизирует прогноз с финансовыми целями через процесс IBP (Integrated Business Planning).

8. Внешние данные (External Data)

Что входит:
Погода: температура, осадки (пример: мороженое).
Экономика: курс валют, инфляция.
Тренды: поисковые запросы, соцсети.
Пример:
Nestlé: интеграция погодных API → точность прогноза мороженого +15%.

9. Digital Signals и eCommerce

Описание: данные с маркетплейсов, онлайн-заказы, добавления в корзину.
Пример:
PepsiCo использует данные Amazon и Walmart.com для прогнозирования D2C-канала.

10. IoT и сенсоры

Описание: данные от «умных полок» в ритейле, датчиков в производстве.
Пример:
Starbucks подключает IoT-данные по температуре в кофейнях для управления запасами.

11. Социальные и трендовые данные

Описание: анализ соцсетей, отзывов, трендов (TikTok, Instagram).
Пример:
Unilever использует social listening для прогнозирования всплесков спроса на косметику.


Ключевая мысль:
Прогноз = функция данных.
Чем качественнее данные, тем точнее прогноз.
Ошибки в источниках → ошибки в прогнозе → потери на миллионы.

Реальный кейс: Target Canada (2013–2015)

Что произошло

Компания: Target, крупный ритейлер из США.
Решение: выйти на рынок Канады.
План: открыть 124 магазина за короткий срок.

Где ошибка
Для управления запасами и логистикой использовалась новая база данных, в которой:
дубликаты SKU (один и тот же товар под разными кодами);
неправильные коды и размеры упаковок;
несогласованные единицы измерения.

Эти ошибки означали:
❌ товары не приходили в нужные магазины;
❌ приходили в неправильном количестве;
❌ часть ассортимента отсутствовала на полках.

Последствия

Магазины пустые, клиенты недовольны → падение продаж.
Попытки срочно исправить ситуацию не помогли.

Финансовый результат: убытки более $2 млрд.
В 2015 году Target полностью закрыла бизнес в Канаде.

Главный вывод
Качество данных = вопрос выживания бизнеса.
Ни одна модель, ни одна стратегия не спасет, если в мастер-данных хаос.
🧠 Глоссарий

Historical Sales — Исторические продажи.
Данные о фактических продажах за прошлые периоды. Основная база для моделей временных рядов.

POS (Point of Sale) — Данные о продажах на кассе.
Фактические продажи конечным потребителям в ритейле (отличаются от отгрузок).

CRM (Customer Relationship Management) — Система управления клиентами.
Хранит заказы, контакты, историю взаимодействий; часто используется для прогнозов крупных B2B-клиентов.

Marketing Inputs — Маркетинговые данные (акции, реклама, кампании).
Включают промо-календарь, медиапланы, скидочные активности. Ключевой фактор для прогнозирования FMCG.

Master Data — Мастер-данные.
Справочники SKU, UoM (единицы измерения), клиентские и товарные иерархии. Основа для корректной интеграции данных.

OOS (Out of Stock) — Отсутствие товара на полке.
Важное отличие: продажи = 0, но спрос был → искажает прогноз, если не учитывать.

External Data — Внешние данные.
Погода, макроэкономика, поисковые тренды, социальные медиа. Используются для Demand Sensing.

Data Quality — Качество данных.
Определяется по критериям: полнота, актуальность, точность, согласованность (Completeness, Timeliness, Accuracy, Consistency).
🚫 Миф
«Данные внутри компании — всё, что нужно для точного прогноза».


✅ Реальность
Внутренние данные (история продаж, CRM, заказы) отражают прошлое, но не всегда показывают, что произойдёт в будущем.
Внешние факторы могут изменить спрос за дни или часы — и без них прогноз «ослепнет».


📌 Почему это заблуждение?
  • История ≠ будущее: если вчера продавали 100 единиц, это не значит, что завтра будет так же.
  • Поведение клиентов меняется мгновенно: тренд в соцсетях или акция конкурента — и продажи скачут.
  • Макроэкономика и погода сильнее внутренних планов: инфляция, снегопад, жара — всё это может «сломать» самый точный прогноз.



💡 Реальные примеры
  • Starbucks: учитывает погодные прогнозы и поисковые тренды для сезонных напитков. Без этих данных прогноз на PSL (Pumpkin Spice Latte) был бы на 20% ниже реального спроса.
  • Unilever: внедрила Demand Sensing, используя POS + соцсети + погодные данные. Результат: ошибка прогноза на коротком горизонте снизилась на 25%.
  • Nestlé: интеграция погодных API увеличила точность прогноза мороженого в жаркие месяцы на 15%.



✅ Вывод:
Big Data = конкурентное преимущество. Без внешних сигналов вы прогнозируете прошлое, а не будущее.


⚠ Ловушки при работе с Big Data в прогнозировании спроса


1. Шум и ложные корреляции
Почему опасно:
Загрузка сотен переменных без фильтрации может привести к «фальшивым» связям.
Пример: модель «нашла» зависимость спроса на мороженое от фазы луны — чистая случайность.
Реальный кейс:
Unilever столкнулась с проблемой в ML-модели, когда добавили локальные праздники Бразилии в прогноз для Европы. Ошибка выросла на 10%.
Решение:
  • Используйте feature selection (отбор факторов на основе статистической значимости).
  • Применяйте корреляционный анализ и тесты причинности (Granger Causality).


2. Данные без контекста
Почему опасно:
Рост поисков по слову «чай» может означать новый мем, а не спрос на напиток.
Или упоминания бренда в Twitter могут быть связаны с негативной новостью.
Решение:
  • Проводите валидацию гипотез с бизнес-командой.
  • Используйте Sentiment Analysis для анализа тона сообщений в соцсетях.


3. Запоздалые данные (Data Latency)
Почему опасно:
Разные источники имеют разную скорость обновления:
  • Соцсети → реагируют за минуты.
  • Макроэкономика → обновляется раз в месяц.
  • Если не учитывать лаги, прогноз будет искажён.
Решение:
  • Устанавливайте разные горизонты прогноза для разных факторов.
  • Настраивайте периодичность обновления данных в BI или ML-модели.


4. Отсутствие API-интеграции
Почему опасно:
Если загружать CSV вручную раз в месяц, данные устаревают → прогноз теряет актуальность.
Решение:
  • Настройте автоматическую интеграцию через API (OpenWeather, Google Trends).
  • Используйте ETL-процессы (Extract-Transform-Load) для стабильной передачи данных.


5. Необработанные погодные данные
Почему опасно:
Использование «средней температуры по больнице» может скрыть региональные колебания.
Пример: жара на юге и холод на севере → усреднённое значение не отражает реальности.
Решение:
  • Разделяйте прогноз по регионам (granularity).
  • Используйте географические координаты в API-запросах.


Вывод:
Big Data даёт мощный потенциал, но без правильной фильтрации и автоматизации может ухудшить прогноз
⚠️ Важное уведомление
Эти файлы были созданы с использованием приложений Microsoft Office (Word, PowerPoint и Excel).

Обратите внимание: визуальное оформление, диаграммы и макет могут отображаться иначе в Google Docs или Sheets.

Чтобы обеспечить корректное отображение и полную функциональность, рекомендуем открывать файлы в Microsoft Word, PowerPoint или Excel.
Made on
Tilda