понеділок, 30 січня 2017 р.

Не такі страшні перших 80% створення онлайн курсу, як останніх 80%

Станом на сьогодні на курс "Аналіз даних та статистичне виведення на мові R"  на Prometheus записалося вже 10032 слухачі (~ 2000 після закінчення активної фази курсу) і нарешті є час описати процес створення курсу.

Наприкінці 2015 зі мною сконтактував Олексій Молчановський і запропонував зробити курс з статистики. Ми домовились про наступні кроки: в січні базовий перелік тем, в лютому детальний, весна - розробка лекцій і запис лекцій. Літо - лабораторні роботи та тести. Виглядало цілком поєднуваним з сім"єю та роботою.

Що хотілося досягнути?

  • Показати практичне застосування статистики
  • Дати початкові знання та показати, де можна вивчати статистику крім українських вузів
  • Зробити внесок в українську освіту :)

Початковий план виглядав так:





План та матеріали третього тижня допомагала робити Олена Медвєдєва.  Однак, з кінця квітня в гру вступила реальність. Практично подальша підготовка курсу тривала до релізу.
На початок травня були презентації по трьох лекціях. Які дуже відрізнялись від теперішніх :) Далі ми почали узгоджувати та планувати запис. Фактично розробка презентацій останніх тижнів + різні варіанти запису (в студії, скрінкасти)  + покращення існуючих тривали майже все літо.
Лише запис скрінкастів прийнятної (не ідеальної) якості тривав більше місяця (запис щодня по дві години).
Як ви могли помітити, Prometheus ставить на меті робити курси кращої якості ніж edX та Coursera, що вимагає від автора більше зусиль. В останній тиждень перед запуском я зрозуміла, що треба робити детальні конспекти (початковий план включав лише основні формули). Конспект + завдання лабораторної роботи – це 20-30 сторінок тексту щотижня. Не дивлячись на те, що це вимагало значно більше часу, вважаю що дуже покращило курс.
Після запуску курсу та першого тижня, стало зрозуміло, що серед слухачів є люди з зовсім іншим способом мислення, які розуміють завдання інакше. Тому завдання наступних тижнів допомагали тестувати Олена Мєдведєва, Таня Кодлюк, Олег Суховірський та Саша Руппельт. Саша ще допомагав з підтримкою форуму. Відповіді на форумі, навіть з моїм кількарічним досвідом роботи в саппорті, були найбільш тяжким випробуванням :) Тут морально допомагала моя сім'я.

Трохи статистики:

  • станом на сьогодні 10032 зареєстровані слухачі
  • більше 80% мають ступінь бакалавра або вище
  • відсоток тих, хто отримав сертифікат 7.42% (середній відсоток закінчення для Coursera, EdX, Udacity ~ 2%)
  • середній вік слухачів 29 років
  • загалом від моменту домовленості про створення курсу до завершення активної фази пройшло 11 місяців
  • протягом цього року було змінено три роботи :)

Висновки та поради тим,  хто думає над створенням свого курсу:

Цільова аудиторія: при створенні курсу вважала, що цільова аудиторія це студенти ВУЗів. Насправді 80% слухачів вже мало вищу освітою (також серед слухачів були й викладачі ВУЗів, які хотіли закрити для себе питання застосування статистики).
Різниця між "живим" виступом і онлайн-курсом: при "живому" виступу є фідбек від аудиторії і є можливість на це зреагувати та щось на ходу змінити, в онлайн-відео все зразу має бути ідеально.
Оцінка часу: час підготовки однієї хорошої презентації на кількість тижнів курсу. Запис відео - як мінімум, стільки ж (реалістичніше 2x)
Деталі: конспекти, лабораторні, тести. Приблизно половина часу підготовки презентацій. Вимагають тестування.
Тестування: - хороший варіант прочитати курс кілька разів для невеликих груп перед запуском.
Команда: можливо кращий варіант розділити курс на окремі частини між кількома особами. Це можуть бути модулі або підготовка однотипного матеріалу(презентації, озвучення презентацій, конспекти, завдання і т. д.). Однак, тут треба зводити все до спільного знаменника та координувати роботу всіх залучених.





неділя, 28 серпня 2016 р.

Data Science в Нідерландах

Під час відпустки сходили на зустріч PyData Amsterdam. Зустріч відбувалася в офісі GoDataDriven(який є частиною компанії Xebia). Сама локація знаходиться в іншому для мене Амстердамі - з широкими магістралями та великими технологічними будівлями.

В офісі - скельний тренажер:

А тепер про сам мітап. Говорили про Deep Learning для NLP.

Maarten Versteegh з команії Textkernel займається нормалізацією резюме з використанням deep learning.  Його доповідь містила загальний короткий огляд deep learning. Наприкінці був набір практичних порад з імплементації: як проводити початкову ініціалізацію ваги, робити нормалізацію і т д. Загалом, нічого нового: convolutional networks з використанням keras (на прикладі Newsgroup Dataset)

Друга доповідь Privacy laws and machine learning @ ING від Kees van der Fliert з банку ING була про практичну проблему підготовки даних для аналізу. Суть проблеми: вибірка транзакцій для аналізу може містити дані приватних осіб. Якщо фізичну особу можна з мінімальними зусиллями ідентифікувати, то це може призвести до судових позовів. Тому дані фізосіб мають вилучатись на етапі формування вибірки. Якщо ці особи не є клієнтами банку, то не вистачає інформації, щоб розрізнити фізичних та юридичних осіб. Класифікатор будується на основі тексту транзакції, який містить назву юридичної/фізичної особи.

 Доповідачі в Україні відпрацьовують всі деталі дуже ретельніше і стараються зробити вау-доповідь. За рахунок цього data science зустрічі у Львові відбуваються досить рідко, бо на підготовку вау-доповіді треба витрати багато часу та зусиль. В Амстердамі це виглядало більше як зустріч data science комюніті з піцою та пивом + доповіді для обговорення. Це трохи відбивається на доповідях - на базовому рівні до аудиторії доноситься суть проблеми та пропоновані шляхи вирішення. Можливо, деякі деталі можна було б допрацювати, але сама ідея цілком зрозуміла.

Про саме комюніті: не було питань, основне призначення яких - демонстрація знань та ерудиції, того, хто запитує. Тобто сама культура відвідувачів, які пробують зрозуміти доповідача, а не розповісти про власне (правильне ;-)) бачення та підняти самооцінку, вказавши на мінорні недопрацювання (на відміну від переважної більшості українських зустрічей).

понеділок, 18 січня 2016 р.

Morning@Lohika: Introduction to Data Science

В суботу, 16 січня говорили про data science і як з цим жити. Слайди:

А також досліджували злочинність у Сан-Франциско і визначали найбільш небезпечні місця. Код тут.

середа, 30 грудня 2015 р.

Аналізуємо статті з NIPS 2015

На kaggle запустили змагання для аналізу статтей з конференції NIPS 2015 (Neural Infromation Processing Systems). NIPS це одна з найбільших конференцій з machine learning.

вівторок, 29 вересня 2015 р.

Data Manipulation at Scale: Systems and Algorithms

Якщо раніше проблемою було знайти інформацію для навчання, то зараз тяжко зорієнтуватись у величезній кількості онлайн курсів та спеціалізацій. Настала осінь і ресурсів  для навчання стало ще більше.
Якщо ви хочете зрозуміти як працюють алгоритми  data science та зрозуміти, як їх можна застосовувати для великих об'ємів даних,  то спеціалізація Data Manipulation at Scale: Systems and Algorithms   від Вашингтонського університету - хороший вибір. Спеціалізація побудована на основі курсу, який пропонувався в 2013 році.
За мету автори ставлять навчити студентів:

  1. Describe common patterns, challenges, and approaches associated with data science projects, and what makes them different from projects in related fields. 
  2. Identify and use the programming models associated with scalable data manipulation, including relational algebra, mapreduce, and other data flow models. 
  3. Use database technology adapted for large-scale analytics, including the concepts driving parallel databases, parallel query processing, and in-database analytics 
  4. Evaluate key-value stores and NoSQL systems, describe their tradeoffs with comparable systems, the details of important examples in the space, and future trends. 
  5. “Think” in MapReduce to effectively write algorithms for systems including Hadoop and Spark. You will understand their limitations, design details, their relationship to databases, and their associated ecosystem of algorithms, extensions, and languages. write programs in Spark 
  6. Describe the landscape of specialized Big Data systems for graphs, arrays, and streams

Перший курс спеціалізації почався вчора.