Energy Blog: Невідомі значення деяких змінних. Що робити?

Часто трапляється що отриманий набір даних не містить даних по деякі значення змінних.

Наприклад:

Що робити в таких випадках? Можливі рішення:

Видалити рядки, які містять невідомі значення.

Коли і як застосувати: Варто використовувати коли частка рядків з невідомими значеннями мала порівняно з доступним набором даних.
Переваги: Надзвичайно просто реалізується
Недоліки: Втрачаємо частину даних, що може призвести до побудови некоректної моделі.

Заповнити найбільш ймовірним значенням.

Коли і як застосовувати: Якщо дані не мають викидів можна використовувати середнє значення. Якщо викиди є, краще використати моду - найбільш часте значення. Отримати ці значення можна з допомогою оглядової статистики.
Переваги: Легко й швидко реалізується.
Недоліки: Може викликати появу значних відхилень у даних і сприяти побудові неправильних моделей.

Заповнити використовуючи кореляцію між змінними.

Коли і як застосовувати: Знаходимо кореляцію між змінними, будуємо модель залежності змінних з відомими та невідомими значеннями. На основі моделі вираховуємо значення невідомих змінних.
Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням.
Недоліки: Дуже багато додаткових моделей і перетворень, тому краще використовувати при невеликій кількості змінних.

Заповнити невідомі значення використовуючи подібність між зразками даних (спостереженнями).

Коли і як застосувати: Шукаємо подібність між рядками. Мірою подібності може бути евклідова відстань. Якщо два рядки подібні, і один з містить невідомі значення то їх можна замістити відомим з подібного рядка.
Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням Недоліки: При збільшенні набору даних вимагає все більше обчислень.

При використанні мови R можна використати бібліотеку imputation, яка дозволяє автоматизувати вищенаведені способи. Підбір невідомих значень може здійснюватись з допомогою визначення середніх значень, алгоритмів k-Nearest Neighbor, Singular Value Decomposition, Singular Value Threshold, лінійних методів та побудови дерев.

При написанні поста була використана інформація з книги Data Minig with R: Learning with Case Studies, автором якої є Luis Torgo та курсу Data Analysis, який веде Jeff Leek на проекті Coursera.

Energy Blog

GitHub

вівторок, 26 лютого 2013 р.

Невідомі значення деяких змінних. Що робити?

Видалити рядки, які містять невідомі значення.

Заповнити найбільш ймовірним значенням.

Заповнити використовуючи кореляцію між змінними.

Заповнити невідомі значення використовуючи подібність між зразками даних (спостереженнями).

Немає коментарів:

Дописати коментар

GitHub

вівторок, 26 лютого 2013 р.

Невідомі значення деяких змінних. Що робити?

Видалити рядки, які містять невідомі значення.

Заповнити найбільш ймовірним значенням.

Заповнити використовуючи кореляцію між змінними.

Заповнити невідомі значення використовуючи подібність між зразками даних (спостереженнями).

Немає коментарів:

Дописати коментар

вівторок, 26 лютого 2013 р.