Показ дописів із міткою статистика. Показати всі дописи
Показ дописів із міткою статистика. Показати всі дописи

неділя, 18 серпня 2013 р.

Як вивчити R? Мій досвід.

R - мова програмування і середовище для аналізу, статистичної обробки та візуалізації даних, якою  я зацікавилась приблизно 3 роки тому. На той час мене цікавило питання прогнозування кількості дзвінків у call-центр. R обрала з таких міркувань:

  • є бібліотеки для роботи з часовими рядами
  • широкі можливості для візуалізації
  • безкоштовна
  • працює під Linux
Яким би прикладним питанням статистики чи аналізу даних ви не займались, є дуже висока ймовірність, що існує R бібліотека, яка значно полегшить вам роботу.
Для прикладу:
  • machine learning - e1071, randomForest, повний список тут
  • прогнозування часових рядів - zoo, forecast
  • інтерактивний дешборд  - shiny, rHighchartsggplot2
  • візуалізація даних - ggplot2, lattice
  • трансформація даних - reshape2, plyr
  • дослідження текстів (text mining) - tm
  • отримання даних з Twitter - twitteR
  • пошук оптимального інвестиційного портфеля - fPotfolio
Повний список доступних бібліотек можна переглянути тут.
Основний недолік R - всі дані зберігаються  в оперативній пам'яті, тому обробка великих об'ємів даних  дуже обмежена. Хоча зараз з'явилась підтримка паралельних обчислень та можливість зберігати частину даних на диску. Детальніше про це можна прочитати в книзі Parallel R.
З чого почати вивчення?
Перш за все, підівчити англійську мову принаймі до рівня розуміння текстів, оскільки документація і більшість книг англійською. 
Російськомовних ресурсів не так вже й багато:
Статті:
Статті на Habrahabr http://habrahabr.ru/hub/r/
Блоги:
Група у Вконтакті: http://vk.com/club8142131

Якщо рівень англійської дозволяє читати книги й дивитись відео, вивчати R значно простіше і цікавіше. Почати можна з уроків від Code School: http://tryr.codeschool.com/ або серії відео від Google Developers .  Курси від Coursera не лише дозволять вивчити R, але й застосовувати для можливості цієї мови для вирішення проблем аналізу в різних сферах:
Ресурс http://www.r-bloggers.com/ - агрегатор блогів з R різними мовами, при бажанні можна додати свій.
Книг є величезна кількість, почати можна з серії UseR! від Springer і Beginner's Guide to R зокрема.
Безкоштовна IDE RStudio полегшить розробку та супровід програм.
Також можна підписатись на RSS-потік питань на StackOverflow  та CrossValidated і вчитись через допомогу іншим.

понеділок, 31 січня 2011 р.

Візуалізація. Зміна інструментів

Близько року займаюсь візуалізацією статистики роботи техпідтримки.   Спочатку це був Google Docs - результати sql-скриптів копіювались туди, далі - побудова графіків і т. д. Багато доводилось робити вручну. Перейшла на Excel - pivot tables - чудова річ ( http://www.youtube.com/watch?v=7zHLnUCtfUk), яка дозволяє робити обробку даних безпосередньо в Excel, дані з бази імпортуються майже автоматично.  Але в Excel, як і в Google Docs та інших їхніх аналогах обмежений набір графіків. Наразі статистику перенесла в R. Це надпотужний інструмент зацікавив тим, що дозволяє робити як статистичний аналіз даних, так і data mining. Крім того, має величезні можливості візуалізації, а також інтеграцію з базами даних.

 З R багато речей можна зробити досить швидко та красиво. Наприклад, статистика за один з років по зареєстрованих зверненнях клієнтів, згрупована по днях тижня:
Графік - коробчаста діаграма.  По осі Х - дні тижня, починаючи з неділі. З даного графіка можемо зробити висновки:

  1. у вихідні дні звернень реєструється менше;
  2. у будні дні середня кількість звернень практично однакова
  3. велика кількість аномальних даних  у вівторок, четвер та п'ятницю - можливо в ці дні аварійні ситуації  виникають частіше;