Часто трапляється що отриманий набір даних не містить даних по деякі значення змінних.
Наприклад:
Що робити в таких випадках? Можливі рішення:
Видалити рядки, які містять невідомі значення.
Коли і як застосувати: Варто використовувати коли частка рядків з невідомими значеннями мала порівняно з доступним набором даних.Переваги: Надзвичайно просто реалізується
Недоліки: Втрачаємо частину даних, що може призвести до побудови некоректної моделі.
Заповнити найбільш ймовірним значенням.
Коли і як застосовувати: Якщо дані не мають викидів можна використовувати середнє значення. Якщо викиди є, краще використати моду - найбільш часте значення. Отримати ці значення можна з допомогою оглядової статистики.Переваги: Легко й швидко реалізується.
Недоліки: Може викликати появу значних відхилень у даних і сприяти побудові неправильних моделей.
Заповнити використовуючи кореляцію між змінними.
Коли і як застосовувати: Знаходимо кореляцію між змінними, будуємо модель залежності змінних з відомими та невідомими значеннями. На основі моделі вираховуємо значення невідомих змінних.Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням.
Недоліки: Дуже багато додаткових моделей і перетворень, тому краще використовувати при невеликій кількості змінних.
Заповнити невідомі значення використовуючи подібність між зразками даних (спостереженнями).
Коли і як застосувати: Шукаємо подібність між рядками. Мірою подібності може бути евклідова відстань. Якщо два рядки подібні, і один з містить невідомі значення то їх можна замістити відомим з подібного рядка.Переваги: Підбирає більш точні значення ніж при заповненні найбільш ймовірним значенням Недоліки: При збільшенні набору даних вимагає все більше обчислень.
При використанні мови R можна використати бібліотеку imputation, яка дозволяє автоматизувати вищенаведені способи. Підбір невідомих значень може здійснюватись з допомогою визначення середніх значень, алгоритмів k-Nearest Neighbor, Singular Value Decomposition, Singular Value Threshold, лінійних методів та побудови дерев.
При написанні поста була використана інформація з книги Data Minig with R: Learning with Case Studies, автором якої є Luis Torgo та курсу Data Analysis, який веде Jeff Leek на проекті Coursera.
Немає коментарів:
Дописати коментар