Категоріальні моделі.
Цими моделями ми оперуємо щодня. Все, що нас оточує відноситься до певних категорій. Наприклад: люди (чоловіки, жінки, діти, європейці, афроамериканці), транспорт (літак, поїзд, авто, велосипед). Використання різних категорій дозволяє виокремити частину предметів чи понять у більш вузьку й зрозумілішу групу.Приклад Є їжа: груша, тістечко, банан, пиріг, яблуко. Кожен продукт має певну кількість калорій:
Груша 100
Тістечко 250
Банан 110
Пиріг 350
Яблуко 90
Середня кількість калорій для цієї групи (100 + 250 + 110 + 350 + 90)/5 = 180. Порахуємо "відстань" кожного продукту до середнього значення. Кожну "відстань" піднесемо до квадрату. Сума таких значень дасть нам загальну варіацію (в статистиці "дисперсія"). Для нашої групи продуктів загальна варіація становить 53 200. Розділимо групу на дві категорії "фрукти" та "десерти".
Фрукти:
Груша 100
Банан 110
Яблуко 90
Середнє значення 100, варіація для групи 200.
Десерти:
Тістечко 250
Пиріг 350
Середнє значення 300, варіація 5 000.
Загальна варіація 53 200, сума варіацій для фруктів і десертів 5 200.
Який відсоток даних пояснює модель?
Для відповіді на це питання віднімемо від варіації до введення категорій варіацію після та поділимо на початкову варіацію: (53 200 - 5 200)/53 200 = 90.2 % Чим меншою стала варіація (сума квадратів відстаней від точок до середнього значення) після застосування моделі, тобто чим ближчий результат до 1, тим краще модель описує дані. В статистиці цей коефіцієнт позначається R^2(R квадрат).
Для відповіді на це питання віднімемо від варіації до введення категорій варіацію після та поділимо на початкову варіацію: (53 200 - 5 200)/53 200 = 90.2 % Чим меншою стала варіація (сума квадратів відстаней від точок до середнього значення) після застосування моделі, тобто чим ближчий результат до 1, тим краще модель описує дані. В статистиці цей коефіцієнт позначається R^2(R квадрат).
Лінійні моделі.
Маємо дві величини - незалежну X та залежну від неї Y. Тобто при зміні X певним чином змінюється й Y.Графічно це виглядає так:
Підбираємо лінію, яка описуватиме дані точки. Математично рівняння лінії описується так:
Y = k*X + b.
Лінія підбирається таким чином, щоб сума квадратів відстаней від точок до лінії була мінімальною, тобто має проходити максимально близько до точок.
Наскільки добре лінія описує наші точки описує згаданий вище коефіцієнт R^2. Для його обчислення спочатку рахуємо суму квадратів відстаней від прямої Y = середнє значення (Х), а тоді суму квадратів відстаней від нашої лінії. R^2 для прямої та набору даних на графіку вище становить 89.4 %
Приклад. Побудуємо модель залежності ціни телевізора від довжини діагоналі екрану.
Припустимо, залежність описується формулою Ціна = 150* Довжина діагоналі + 1000 грн.
Тобто, телевізор з екраном 32 дюйми коштуватиме 5800 грн, а з екраном 40 дюймів 7000 грн. Звичайно, ця модель досить приблизна, але дає уявлення про загальну поведінку.
Навіть така проста модель дозволяє краще розуміти дані та робити прогнози. Дослідження показують, що вона дає більш статистично значущі результати ніж прогноз експертів у даній області (Robyn Dawes 1979: “The Robust Beauty of Improper Linear Models in Decision Making, Mehl (1954), Sawyer (1966) ).
Може бути залежність не від одного фактора, а одночасно від декількох.
Y Результат екзамену
T Якість викладу матеріалу вчителем
Z Розмір класу
Y = c*T + d*Z + b
Логічно очікувати, що с > 0 (чим якісніше виклад матеріалу, тим краще учні здадуть екзамен), а d < 0.
Побудувати модель лінійної регресії можна за допомогою різних програмних інструментів, наприклад Excel, R, SAS, SPSS і т. д.
Для Excel для моделі, описаної вище, вивід результату може бути наступним:
R-квадрат вказує, який відсоток даних пояснює ця модель - 72%.
Стандартна помилка - корінь з варіації.
Кількість спостережень - 50.
Intercept(перетин) - значення Y, коли X1 та Х2 дорівнюють нулю.
Коефіцієнти при змінних вказують на скільки зміниться залежна змінна при зміні незалежних, тобто рівняння лінійної регресії виглядає так: Y = 20*T + 10* Z + 25. Бачимо, що всупереч нашим сподіванням збільшення розміру класу призводить до покращення оцінки. Якщо поглянемо на SE (Standart error - Стандартна похибка) то (враховуючи припущення про нормальний розподіл) з ймовірністю 65% коефіцієнт при Х2 знаходиться між 6 і 14, з ймовірністю 95 % між 2 і 18, з ймовірністю 99.75% між -2 та 22, тобто є ймовірність (0.25%), що цей коефіцієнт може бути від'ємним.
Р-значення вказує, яка ймовірність того, що коефіцієнт неправильний. Бачимо, що для Х2 така ймовірність 1.4 %.
Крім того, модель побудовано на результатах 50 спостережень, можливо якщо додати ще дані значення коефіцієнтів зміняться.
Нелінійні моделі.
Далеко не завжди дані мають лінійну залежність:
Можливі шляхи переходу від нелінійних до лінійних моделей:
Можливі шляхи переходу від нелінійних до лінійних моделей:
- Розбити дані на сегменти, які можна описати прямою.
- Ввести заміну (наприклад z = x^3) .
Великі коефіцієнти.
Чим більший коефіцієнт при змінній у лінійній моделі, тим більший вклад вносить ця змінна у результат.Наприклад,
дохід = 20*реклама на ТБ + 100*реклама в інтернет.
Тобто при розміщенні на один блок більше в інтернеті отримаємо на 100 од. доходу більше. Тому логічніше вкладати більше в інтернет-рекламу.
Алгоритм прийняття рішень такий:
- Будуємо модель
- Збираємо дані
- Визначаємо важливі коефіцієнти
- Змінюємо ці коефіцієнти
При наявності великої кількості даних (так званих "big data") алгоритм інший:
- Збираємо дані
- Визначаємо паттерн у цих даних
- Визначаємо важливі коефіцієнти
- Змінюємо ці коефіцієнти
Тобто, якщо у нас є велика кількість даних, то будувати модель не потрібно. Достатньо дослідити як взаємодіють існуючі дані між собою.
Великі коефіцієнти та "нова реальність".
"Нова реальність" передбачає введення зовсім нових факторів, які не задіяні в існуючій моделі. Наприклад, замість збільшення кількості автомобільних маршрутів запустити в місті метро.Як бачимо, використання досить простих моделей дозволяє краще зрозуміти дані та приймати оптимальніші рішення.
Немає коментарів:
Дописати коментар