вівторок, 22 липня 2014 р.

Agile Data Science. Огляд

Цільова аудиторія - fullstack data science спеціалісти, які не лише проводять дослідження та будують моделі, але й займаються їх імплементацією (тобто поєднують ролі інженера, дослідника, data science спеціаліста та DevOps інженера). 

В якості прикладу використано модель побудови додатку для аналізу електронної пошти в межах Agile підходу. Спочатку створюються базовий додаток з такими кроками:
  • отримати вміст власної Gmail скриньки 
  • серіалізація на Avro
  • аналіз на Pig Latin
  • збереження даних в Mongo DB
  • використання Elastic Search
  • завертання результатів аналізу у веб-додаток використовуючи Python/Flask
Далі перенесення в хмари (Amazon Web Services) та поступове покращення кожного кроку в піраміді:
Загалом цікаво.
Плюси:
  • практичні рецепти побудови, описане середовище можна використовувати для розгортання власних додатків у майбутньому
  • приклад Data Science моделі повного циклу (від ідеї до сервісу)
  • гарне пояснення як адаптувати класичний Waterfall процес Data Science до Agile методології
Мінуси:

  • Нових знань з Data Science ви тут не отримаєте, це швидше Data Engineering
  • Не всі приклади працюють, як описано в книжці 


Немає коментарів:

Дописати коментар