03-20 Forecasting with Incomplete Data

03-20 Forecasting with Incomplete Data

Reality: Data Is Rarely Perfect

In real life you almost never get a perfect, clean history for all SKUs and periods. You may have short history, gaps, changes in coding, or only POS data from one channel. :contentReference[oaicite:4]{index=4}

  • Short history (new product or new market).
  • Partial history (only retail POS, no e-commerce). :contentReference[oaicite:5]{index=5}
  • Irregular data (missing weeks or months).
  • Format changes (SKU codes merged, brands restructured).

The goal is not to “wait until data is perfect”, but to reasonably restore missing information and make your assumptions explicit. :contentReference[oaicite:6]{index=6}

Key Techniques for Incomplete Data

  • Interpolation – fill gaps using neighbouring periods (e.g. mean of previous and next month). :contentReference[oaicite:7]{index=7}
  • Extrapolation – extend a trend beyond available data (e.g. early launch months for a new SKU). :contentReference[oaicite:8]{index=8}
  • Proxy variables – use category, segment or analog SKU instead of missing data.
  • Analog data – borrow history from similar product, market or customer. :contentReference[oaicite:9]{index=9}
  • Smoothing outliers – correct suspicious spikes (hidden promo, stock-outs) to typical levels.

All of these techniques should be documented: which gaps you filled, which proxies you used, and how that influences the forecast.

Visual Example: Gaps, Interpolation and Proxy

Grey line — observed sales with gaps; blue — interpolated series; gold dashed — proxy category.

A typical workflow:

  • Check if interpolation is reasonable (no huge structural changes).
  • Where interpolation is risky, consider proxy data (category, similar SKU).
  • Build your forecasting model on the cleaned / reconstructed series.

Glossary

  • Interpolation – filling missing values using neighbouring periods.
  • Extrapolation – extending trend outside the historical range. :contentReference[oaicite:10]{index=10}
  • Proxy variables – indirect metrics used instead of missing data.
  • Analog data – data from similar products / markets used as a pattern. :contentReference[oaicite:11]{index=11}

Excel Practice: Filling Gaps with Interpolation & Proxy

Download an Excel file with:

  • 12 months of sales with gaps,
  • interpolated series (neighbour-based),
  • a proxy series (category / analog),
  • a combined “filled” series using proxy when actual data is missing,
  • an Explanation sheet (EN+RU) describing all columns and formulas. :contentReference[oaicite:12]{index=12}

Suggested exercise:

  1. Build a simple forecast (e.g. 3-month moving average) based on raw observed data.
  2. Repeat the same forecast using the interpolated series.
  3. Compare results and discuss whether filling gaps improved stability.
All interpolated and proxy-based values are calculated with live formulas — you can replace the input series with your own data.

Mini-Quiz

1. What is interpolation in the context of incomplete data?

2. What can be used as a proxy variable when SKU-level data is missing?

3. What is a good practice when you use interpolation or proxy data in forecasting?

Реальность: данные почти никогда не идеальны

В реальном бизнесе у планировщика редко есть идеальная история продаж по всем SKU и периодам. Часто:

  • история короткая (новый продукт или рынок),
  • есть только часть данных (например, только POS по ритейлу), :contentReference[oaicite:13]{index=13}
  • данные нерегулярные (пропуски по месяцам),
  • формат менялся (SKU объединяли, бренды перекладывали). :contentReference[oaicite:14]{index=14}

Задача — не ждать «идеальных» данных, а аккуратно восстановить недостающую информацию и явно зафиксировать допущения. :contentReference[oaicite:15]{index=15}

Основные приёмы при неполных данных

  • Интерполяция (Interpolation) — заполнение пропусков по соседним периодам. :contentReference[oaicite:16]{index=16}
  • Экстраполяция (Extrapolation) — продление тренда на будущие периоды (например, для новых SKU).
  • Прокси-переменные (Proxy Variables) — замена пропавших данных косвенными метриками (категория, аналог). :contentReference[oaicite:17]{index=17}
  • Данные-аналоги (Analog Data) — история похожего продукта, региона или клиента.
  • Сглаживание выбросов — корректировка аномально высоких/низких точек (скрытые промо, out-of-stock). :contentReference[oaicite:18]{index=18}

Любой такой шаг нужно документировать: где были пропуски, чем их заменили и как это повлияло на прогноз.

Пример: пропуски, интерполяция и прокси-ряд

Серый ряд — наблюдаемые продажи с пропусками; синий — интерполированный ряд; золотой пунктир — прокси-категория.

Типичный сценарий:

  • проверяем, можно ли безопасно применить интерполяцию;
  • там, где интерполяция сомнительна, используем прокси-данные (категорию, аналог);
  • строим модель прогноза уже по восстановленному ряду.

Глоссарий

  • Interpolation — заполнение пропусков по соседним значениям.
  • Extrapolation — продление тренда на будущее. :contentReference[oaicite:19]{index=19}
  • Proxy Variables — косвенные показатели, заменяющие отсутствующие данные.
  • Analog Data — данные похожих товаров или рынков. :contentReference[oaicite:20]{index=20}

Excel-практика: интерполяция и прокси

Скачайте Excel-файл, в котором:

  • 12 месяцев продаж с пропусками,
  • интерполированный ряд (по соседним месяцам),
  • прокси-ряд (категория / аналог),
  • ряд Filled_Proxy, где пропуски заменены прокси,
  • лист Explanation с описанием всех столбцов и формул на EN+RU. :contentReference[oaicite:21]{index=21}

Задание:

  1. Постройте простой прогноз (например, MA(3)) по исходному Observed_Sales.
  2. Повторите расчёт по Interpolated_Sales.
  3. Сравните динамику и стабильность прогноза до и после восстановления данных.
Интерполяция и заполнение прокси реализованы формулами — можно подставить свои данные и посмотреть, как меняется результат.

Мини-квиз

1. Что такое интерполяция при работе с неполными данными?

2. Что можно использовать как прокси, если нет данных по конкретному SKU?

3. Какое правило хорошо соблюдать при использовании интерполяции и прокси-данных?

Made on
Tilda