субота, 16 березня 2013 р.

Як покращити точність прогнозу?

Моделі поділяються на два типи: пояснювальні, які пояснюють минуле та прогностичні, які прагнуть передбачити майбутнє (Хороша візуалізація які методи і в яких випадках варто застосовувати тут http://www.saedsayad.com/data_mining_map.htm).
У випадку прогностичних моделей стикаємось з проблемою точності прогнозу.  Покращити її можна різними методами:

  • краще добирати змінні, які беруть участь в моделі
  • використовувати якісні дані
  • використовувати більше даних
  • тестувати різні моделі

Але є ще досить нетривіальний, хоча й досить логічний метод комбінування предікторів. Даний метод був використаний командою  BellKor's Pragmatic Chaos, які перемогли у змаганнях  Netflix Prize та виграли 1 мільйон доларів.

Суть методу:

Будується N незалежних прогностичних моделей. Кінцеве значення прогнозованої змінної визначається середнім значенням або "голосуванням" серед прогнозованих значень всіх моделей.
Тобто, якщо є 3 незалежні  моделі.
Реальні значення: 3; 3; 2; 1. Точність прогнозу будемо вимріювати з допомогою RMSE (кореня середньої квадратичної похибки)
Нехай прогнозовані  результати:
1 модель: 3; 4; 2; 1 RMSE: 0.5
2 модель: 3; 2; 1; 1  RMSE: 0.7
3 модель: 2; 3; 2; 1 RMSE: 0.5
Якщо врахувати, що кожна модель вносить 1/3 в загальний результат, будемо мати:
Прогноз:  2.7;  3;  2.3;  1 RMSE: 0.38.
Тобто просте комбінування предікторів дало кращий результат, ніж будь-яка модель. Чим більше моделей буде побудовано, тим кращим буде прогноз результуючої моделі.

Недоліки цієї моделі:

  1. Тяжко (або неможливо) інтерперетувати результати. Якщо при використанні лінійної регресії чи дерева регресії ви можете пояснити, як впливає кожна змінна на кінцевий результат (наприклад, кожен шматок торта збільшує вашу вагу на 300 грам), то у випадку комбінування пояснити модель неможливо.
  2. Потребує значних ресурсів для обчислення. Побудова кожної моделі, а також комбінування їхніх результатів вимагає часу та значних обчислювальних потужностей. Саме за рахунок цього, техніка комбінування, не дивлячись на дуже хороші результати по точності прогнозу не впроваджувалась компанією Netflix.

При написанні цього поста використовувались дані з курсу Data Analysis проекту Coursera.








Немає коментарів:

Дописати коментар