вівторок, 26 лютого 2013 р.

Невідомі значення деяких змінних. Що робити?

Часто трапляється що отриманий набір даних не містить даних по деякі значення змінних.
Наприклад:
Що робити в таких випадках? Можливі рішення:

Видалити рядки, які містять невідомі значення.

Коли і як застосувати: Варто використовувати коли частка рядків з невідомими значеннями мала порівняно з доступним набором даних.
Переваги: Надзвичайно просто реалізується
Недоліки: Втрачаємо частину даних, що може призвести до побудови некоректної моделі.

Заповнити найбільш ймовірним значенням.

Коли і як застосовувати: Якщо дані не мають викидів можна використовувати середнє значення.  Якщо викиди є, краще використати моду - найбільш часте значення. Отримати ці значення можна з допомогою оглядової статистики.
Переваги: Легко й швидко реалізується.
Недоліки: Може викликати появу значних відхилень у даних і сприяти побудові неправильних моделей.

Заповнити використовуючи кореляцію між змінними.

Коли і як застосовувати: Знаходимо кореляцію між змінними, будуємо модель залежності змінних з відомими та невідомими значеннями. На основі моделі вираховуємо значення невідомих змінних.
Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням.
Недоліки: Дуже багато додаткових моделей і перетворень, тому краще використовувати при невеликій кількості змінних.

Заповнити невідомі значення використовуючи подібність між зразками даних (спостереженнями).

Коли і як застосувати: Шукаємо подібність між рядками. Мірою подібності може бути евклідова відстань. Якщо два рядки подібні, і один з містить невідомі значення то їх можна замістити відомим з подібного рядка.
Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням Недоліки: При збільшенні набору даних вимагає все більше обчислень.


При використанні мови R можна використати бібліотеку imputation, яка дозволяє автоматизувати вищенаведені способи. Підбір невідомих значень може здійснюватись з допомогою  визначення середніх значень, алгоритмів k-Nearest Neighbor, Singular Value Decomposition, Singular Value Threshold,  лінійних методів  та побудови дерев.

При написанні поста була використана інформація з книги Data Minig with R: Learning with Case Studies, автором якої є Luis Torgo та курсу Data Analysis, який веде Jeff Leek на проекті Coursera.

Немає коментарів:

Дописати коментар