Модуль 2 Урок 6

Модуль 2 Типы спроса и источники данных
Урок 6. Откуда берутся данные для прогноза: источники и ловушки

Прогноз — это не магия, а функция данных.

Когда мы строим прогноз (например, сколько продастся кофе или хлеба в следующем месяце), мы используем прошлые данные, чтобы предсказать будущее.
Но есть важное правило: качество прогноза зависит не только от математической модели, но и от качества данных.

Представь ситуацию:

Ты хочешь предсказать, сколько тебе нужно продуктов для вечеринки:
  • Если у тебя правильный список гостей (точные данные), ты легко рассчитаешь еду.
  • Но если список грязный (дубли, неточные имена, кто-то уже отказался, но ты не знаешь) → ты либо купишь лишнего, либо еды не хватит.
То же самое с прогнозами в бизнесе:
  • Если данные неполные или с ошибками, модель не поможет. Даже если это супер-алгоритм на базе искусственного интеллекта.

🧠 Формула успеха
Прогноз = Модель × Качество данных

Модель — метод, который мы используем (ARIMA, ML, AI).
Качество данных — насколько чистые, полные и точные данные мы подаем в модель.

👉 Если хотя бы один элемент «плохой» (например, данные грязные), весь прогноз будет ошибочным.

Аналогия с кулинарией
  • Хороший повар (модель) не приготовит вкусное блюдо, если продукты испорчены (данные грязные).
  • Даже если повар — мастер шеф, из гнилых овощей суп не получится.
Простой вывод

Не бывает хорошего прогноза на плохих данных.
Это главный принцип, который нужно запомнить.
Forecast data sources
📌 Источники данных для прогноза с примерами

1. Исторические продажи (Historical Sales)

Описание: данные о фактических продажах по SKU, каналам и регионам.
Почему важны: база для моделей временных рядов (MA, ES, ARIMA).
Ограничение: не учитывают OOS (Out of Stock), каннибализацию.
Пример:
Nestlé использует 3-летнюю историю продаж по регионам для прогноза кофе.

2. Заказы и CRM (Sales Orders, Customer Signals)

Описание: предварительные заказы и прогнозы отдела продаж.
Плюсы: ранний сигнал по крупным клиентам.
Минус: завышенные цифры из-за KPI.
Пример:
B2B-сегмент Danone: прогноз по сетям строится на заказах из CRM, но корректируется статистической моделью.

3. POS-данные (Point of Sale)

Описание: реальные данные с кассы ритейлеров (что купили конечные потребители).
Плюсы: ближе к реальному спросу.
Минус: задержка 1–2 недели.
Пример:
Unilever использует данные Walmart POS для улучшения прогноза по бытовой химии.

4. Промо и маркетинг (Marketing Inputs)

Описание: акции, скидки, рекламные кампании.
Почему важны: промо может увеличить продажи на +50–200%.
Пример:
Coca-Cola: интеграция промо-календаря в ARIMA + регрессионные модели → точность +12%.

5. Мастер-данные (Master Data)

Описание: справочники SKU, единицы измерения (UoM), иерархии категорий, клиентские сегменты.
Почему критично: ошибки → дубли SKU, неверные размеры упаковок.
Пример:
Кейс Target Canada: дубли SKU и ошибки в мастер-данных привели к убыткам $2 млрд.

6. Производственные и логистические данные

Описание: остатки на складах, ограничения мощностей, сроки поставок.
Пример:
Mars корректирует прогноз на основе доступных мощностей при пиках сезона.

7. Финансовые данные

Описание: план продаж в деньгах, маркетинговые бюджеты.
Пример:
BIC синхронизирует прогноз с финансовыми целями через процесс IBP (Integrated Business Planning).

8. Внешние данные (External Data)

Что входит:
Погода: температура, осадки (пример: мороженое).
Экономика: курс валют, инфляция.
Тренды: поисковые запросы, соцсети.
Пример:
Nestlé: интеграция погодных API → точность прогноза мороженого +15%.

9. Digital Signals и eCommerce

Описание: данные с маркетплейсов, онлайн-заказы, добавления в корзину.
Пример:
PepsiCo использует данные Amazon и Walmart.com для прогнозирования D2C-канала.

10. IoT и сенсоры

Описание: данные от «умных полок» в ритейле, датчиков в производстве.
Пример:
Starbucks подключает IoT-данные по температуре в кофейнях для управления запасами.

11. Социальные и трендовые данные

Описание: анализ соцсетей, отзывов, трендов (TikTok, Instagram).
Пример:
Unilever использует social listening для прогнозирования всплесков спроса на косметику.


Ключевая мысль:
Прогноз = функция данных.
Чем качественнее данные, тем точнее прогноз.
Ошибки в источниках → ошибки в прогнозе → потери на миллионы.

Реальный кейс: Target Canada (2013–2015)

Что произошло

Компания: Target, крупный ритейлер из США.
Решение: выйти на рынок Канады.
План: открыть 124 магазина за короткий срок.

Где ошибка
Для управления запасами и логистикой использовалась новая база данных, в которой:
дубликаты SKU (один и тот же товар под разными кодами);
неправильные коды и размеры упаковок;
несогласованные единицы измерения.

Эти ошибки означали:
❌ товары не приходили в нужные магазины;
❌ приходили в неправильном количестве;
❌ часть ассортимента отсутствовала на полках.

Последствия

Магазины пустые, клиенты недовольны → падение продаж.
Попытки срочно исправить ситуацию не помогли.

Финансовый результат: убытки более $2 млрд.
В 2015 году Target полностью закрыла бизнес в Канаде.

Главный вывод
Качество данных = вопрос выживания бизнеса.
Ни одна модель, ни одна стратегия не спасет, если в мастер-данных хаос.
🧠 Глоссарий

Historical Sales — Исторические продажи.
Данные о фактических продажах за прошлые периоды. Основная база для моделей временных рядов.

POS (Point of Sale) — Данные о продажах на кассе.
Фактические продажи конечным потребителям в ритейле (отличаются от отгрузок).

CRM (Customer Relationship Management) — Система управления клиентами.
Хранит заказы, контакты, историю взаимодействий; часто используется для прогнозов крупных B2B-клиентов.

Marketing Inputs — Маркетинговые данные (акции, реклама, кампании).
Включают промо-календарь, медиапланы, скидочные активности. Ключевой фактор для прогнозирования FMCG.

Master Data — Мастер-данные.
Справочники SKU, UoM (единицы измерения), клиентские и товарные иерархии. Основа для корректной интеграции данных.

OOS (Out of Stock) — Отсутствие товара на полке.
Важное отличие: продажи = 0, но спрос был → искажает прогноз, если не учитывать.

External Data — Внешние данные.
Погода, макроэкономика, поисковые тренды, социальные медиа. Используются для Demand Sensing.

Data Quality — Качество данных.
Определяется по критериям: полнота, актуальность, точность, согласованность (Completeness, Timeliness, Accuracy, Consistency).
🚫 Миф
«Данные внутри компании — всё, что нужно для точного прогноза».


✅ Реальность
Внутренние данные (история продаж, CRM, заказы) отражают прошлое, но не всегда показывают, что произойдёт в будущем.
Внешние факторы могут изменить спрос за дни или часы — и без них прогноз «ослепнет».


📌 Почему это заблуждение?
  • История ≠ будущее: если вчера продавали 100 единиц, это не значит, что завтра будет так же.
  • Поведение клиентов меняется мгновенно: тренд в соцсетях или акция конкурента — и продажи скачут.
  • Макроэкономика и погода сильнее внутренних планов: инфляция, снегопад, жара — всё это может «сломать» самый точный прогноз.



💡 Реальные примеры
  • Starbucks: учитывает погодные прогнозы и поисковые тренды для сезонных напитков. Без этих данных прогноз на PSL (Pumpkin Spice Latte) был бы на 20% ниже реального спроса.
  • Unilever: внедрила Demand Sensing, используя POS + соцсети + погодные данные. Результат: ошибка прогноза на коротком горизонте снизилась на 25%.
  • Nestlé: интеграция погодных API увеличила точность прогноза мороженого в жаркие месяцы на 15%.



✅ Вывод:
Big Data = конкурентное преимущество. Без внешних сигналов вы прогнозируете прошлое, а не будущее.


⚠ Ловушки при работе с Big Data в прогнозировании спроса


1. Шум и ложные корреляции
Почему опасно:
Загрузка сотен переменных без фильтрации может привести к «фальшивым» связям.
Пример: модель «нашла» зависимость спроса на мороженое от фазы луны — чистая случайность.
Реальный кейс:
Unilever столкнулась с проблемой в ML-модели, когда добавили локальные праздники Бразилии в прогноз для Европы. Ошибка выросла на 10%.
Решение:
  • Используйте feature selection (отбор факторов на основе статистической значимости).
  • Применяйте корреляционный анализ и тесты причинности (Granger Causality).


2. Данные без контекста
Почему опасно:
Рост поисков по слову «чай» может означать новый мем, а не спрос на напиток.
Или упоминания бренда в Twitter могут быть связаны с негативной новостью.
Решение:
  • Проводите валидацию гипотез с бизнес-командой.
  • Используйте Sentiment Analysis для анализа тона сообщений в соцсетях.


3. Запоздалые данные (Data Latency)
Почему опасно:
Разные источники имеют разную скорость обновления:
  • Соцсети → реагируют за минуты.
  • Макроэкономика → обновляется раз в месяц.
  • Если не учитывать лаги, прогноз будет искажён.
Решение:
  • Устанавливайте разные горизонты прогноза для разных факторов.
  • Настраивайте периодичность обновления данных в BI или ML-модели.


4. Отсутствие API-интеграции
Почему опасно:
Если загружать CSV вручную раз в месяц, данные устаревают → прогноз теряет актуальность.
Решение:
  • Настройте автоматическую интеграцию через API (OpenWeather, Google Trends).
  • Используйте ETL-процессы (Extract-Transform-Load) для стабильной передачи данных.


5. Необработанные погодные данные
Почему опасно:
Использование «средней температуры по больнице» может скрыть региональные колебания.
Пример: жара на юге и холод на севере → усреднённое значение не отражает реальности.
Решение:
  • Разделяйте прогноз по регионам (granularity).
  • Используйте географические координаты в API-запросах.


Вывод:
Big Data даёт мощный потенциал, но без правильной фильтрации и автоматизации может ухудшить прогноз
⚠️ Important Notice
These files were created using Microsoft Office applications (Word, PowerPoint, and Excel).
Please note that visual formatting, charts, and layout may appear differently in Google Docs or Sheets.
To ensure proper display and full functionality, we recommend opening the files in Microsoft Word, PowerPoint, or Excel.
Made on
Tilda