- Збір даних;
- Підготовка даних;
- Аналіз даних;
- Тренування моделі;
- Тестування моделі;
- Використання.
При визначенні ціни квартири у Львові (http://energyfirefox.blogspot.com/2012/12/blog-post.html)
збір даних відбувався за таким алгоритмом:
- Конвертувати сторінку в excel-формат (.xls);
- Зберегти таким чином перших 10 сторінок видачі.
Підготовка даних:
Для кожної сторінки з допомогою редактора таблиць (LibreOffice Calc, Excel, Google Spreedsheet):
- Відкинути поля "Стіни", "Назва", "Соток", оскільки вони не містять даних;
- Відкинути поля "Агенція", "Користувач", "Телефон" та "Опис", оскільки вони не будуть використовуватись при побудові моделі;
- Конвертувати дані в .csv формат.
- Об'єднати всі .csv частини в один датафрейм;
- Після оглядового аналізу даних
відкидаємо квартири, ціна яких менша 18000 у.о. та де число кімнат більше 5, як нетипові чи отримані при помилковому введені данихsummary(flobj)
flobj <- flobj[flobj$Ціна >= 18000 & flobj$Кімнат < 6, ]
flobj <- flobj[complete.cases(flobj), ]
Недоліки, виявлені в процесі збору даних:
- при конвертації в .xls ціни береться лише цифра без вказання валюти, а враховуючи, що з 1.01.2013 ціни стали вказуватись в гривнях (до того були в доларах), то побудувати коректну модель зараз неможливо;
- при перетворенні в .xls відсутні дані про тип стін та тип будинку, хоча на сайті вони є;
- занадто багато ручної праці (збереження .xls, видалення полів, перетворення в .csv).
Немає коментарів:
Дописати коментар