неділя, 28 серпня 2016 р.

Data Science в Нідерландах

Під час відпустки сходили на зустріч PyData Amsterdam. Зустріч відбувалася в офісі GoDataDriven(який є частиною компанії Xebia). Сама локація знаходиться в іншому для мене Амстердамі - з широкими магістралями та великими технологічними будівлями.

В офісі - скельний тренажер:

А тепер про сам мітап. Говорили про Deep Learning для NLP.

Maarten Versteegh з команії Textkernel займається нормалізацією резюме з використанням deep learning.  Його доповідь містила загальний короткий огляд deep learning. Наприкінці був набір практичних порад з імплементації: як проводити початкову ініціалізацію ваги, робити нормалізацію і т д. Загалом, нічого нового: convolutional networks з використанням keras (на прикладі Newsgroup Dataset)

Друга доповідь Privacy laws and machine learning @ ING від Kees van der Fliert з банку ING була про практичну проблему підготовки даних для аналізу. Суть проблеми: вибірка транзакцій для аналізу може містити дані приватних осіб. Якщо фізичну особу можна з мінімальними зусиллями ідентифікувати, то це може призвести до судових позовів. Тому дані фізосіб мають вилучатись на етапі формування вибірки. Якщо ці особи не є клієнтами банку, то не вистачає інформації, щоб розрізнити фізичних та юридичних осіб. Класифікатор будується на основі тексту транзакції, який містить назву юридичної/фізичної особи.

 Доповідачі в Україні відпрацьовують всі деталі дуже ретельніше і стараються зробити вау-доповідь. За рахунок цього data science зустрічі у Львові відбуваються досить рідко, бо на підготовку вау-доповіді треба витрати багато часу та зусиль. В Амстердамі це виглядало більше як зустріч data science комюніті з піцою та пивом + доповіді для обговорення. Це трохи відбивається на доповідях - на базовому рівні до аудиторії доноситься суть проблеми та пропоновані шляхи вирішення. Можливо, деякі деталі можна було б допрацювати, але сама ідея цілком зрозуміла.

Про саме комюніті: не було питань, основне призначення яких - демонстрація знань та ерудиції, того, хто запитує. Тобто сама культура відвідувачів, які пробують зрозуміти доповідача, а не розповісти про власне (правильне ;-)) бачення та підняти самооцінку, вказавши на мінорні недопрацювання (на відміну від переважної більшості українських зустрічей).

понеділок, 18 січня 2016 р.

Morning@Lohika: Introduction to Data Science

В суботу, 16 січня говорили про data science і як з цим жити. Слайди:

А також досліджували злочинність у Сан-Франциско і визначали найбільш небезпечні місця. Код тут.

середа, 30 грудня 2015 р.

Аналізуємо статті з NIPS 2015

На kaggle запустили змагання для аналізу статтей з конференції NIPS 2015 (Neural Infromation Processing Systems). NIPS це одна з найбільших конференцій з machine learning.

вівторок, 29 вересня 2015 р.

Data Manipulation at Scale: Systems and Algorithms

Якщо раніше проблемою було знайти інформацію для навчання, то зараз тяжко зорієнтуватись у величезній кількості онлайн курсів та спеціалізацій. Настала осінь і ресурсів  для навчання стало ще більше.
Якщо ви хочете зрозуміти як працюють алгоритми  data science та зрозуміти, як їх можна застосовувати для великих об'ємів даних,  то спеціалізація Data Manipulation at Scale: Systems and Algorithms   від Вашингтонського університету - хороший вибір. Спеціалізація побудована на основі курсу, який пропонувався в 2013 році.
За мету автори ставлять навчити студентів:

  1. Describe common patterns, challenges, and approaches associated with data science projects, and what makes them different from projects in related fields. 
  2. Identify and use the programming models associated with scalable data manipulation, including relational algebra, mapreduce, and other data flow models. 
  3. Use database technology adapted for large-scale analytics, including the concepts driving parallel databases, parallel query processing, and in-database analytics 
  4. Evaluate key-value stores and NoSQL systems, describe their tradeoffs with comparable systems, the details of important examples in the space, and future trends. 
  5. “Think” in MapReduce to effectively write algorithms for systems including Hadoop and Spark. You will understand their limitations, design details, their relationship to databases, and their associated ecosystem of algorithms, extensions, and languages. write programs in Spark 
  6. Describe the landscape of specialized Big Data systems for graphs, arrays, and streams

Перший курс спеціалізації почався вчора.

понеділок, 27 липня 2015 р.

ICML 2015

ICML (International Conference of Machine Learning)  - друга по значущості в світі в галузі машинного навчання (link)
Основна аудиторія: дослідницькі групи університетів та компаній. Компаніїї діляться на дві категорії: ті, що презентують алгоритми(серед них Facebook, Google), і ті, які хочуть використовувати найновіші досягнення у своїх рішеннях (помітила Netflix, Booking). На жаль, українських університетів ну було. Були українські PhD студенти з інших країн та компанії Grammarly i V.I.Tech.
Цьогорічна конференція складалась з трьох частин: