вівторок, 17 червня 2014 р.

Doing Data Science. Огляд

"Doing Data Science. Straight talk from frontline."
написана на основі курсу "Introduction to Data Science" в Columbia University. Під час курсу на лекції запрошували експертів, тому це в певній мірі набір впорядкованих статей у різних сферах.
Найбільше сподобались розділи:

Chapter 7 Extracting Meaning from Data (співатвор William Cukierski, data scientist з Kaggle) - власне про Kaggle та методи підбору факторів, які дозволяють зробити правильні прогнози.

Chapter 11 Causality. Багато авторів обов'язково вказують, що наявність кореляції між двома змінними не означає, що один з факторів є причиною іншого (correlation doesn't imply casuation).
Цей розділ якраз про методи віднаходження причинно-наслідкового зв'язку між факторами. Як приклад - медичні експерименти та A/B тестінг.
Chapter 13 Lessons Learned from Data Competitions: Data Leakage and Model Evaluation (cпівавтор Claudia Perlich). Як можна вигравати змагання з data science використовуючи "дірки" які виникли при підготовці даних (наприклад коли id користувача впливає на результат).

Chapter 14 Data Engineering: MapReduce, Pregel, and Hadoop - безпосередньо про зберігання та роботу з даними.

Деякі цитати:

"Example: friend recommendations on Facebook don’t optimize you accepting friends, but rather maximizing the time you spend on Facebook. Look closely: the suggestions are surprisingly highly populated by attractive people of the opposite sex." 

"For example, a recent Nature study, “Unique in the Crowd: the privacy bounds of human mobility” by Yves-Alexandre de Montjoye, et al., on a dataset of 1.5 million cell-phone users in Europe showed that just four points of reference were enough to individually identify 95 percent of the people."

"By some estimates, one or two patients died per week in a certain smallish town because of the lack of information flow between the hospital’s emergency room and the nearby mental health clinic."

"The goal of this chapter is to clear up some of the mysteriousness surrounding MapReduce. It’s become such a buzzword, and many data scientist job openings are advertised as saying “must know Hadoop” (the open source implementation of MapReduce). We suspect these ads are written by HR departments who don’t really understand what MapReduce is good for and the fact that not all data science problems require MapReduce."

Одним словом, дуже раджу )

Немає коментарів:

Дописати коментар