четвер, 9 січня 2014 р.

Mahout: встановлення і знайомство.

Mahout - відкрита бібілотека для машинного навчання від Apache.  Це фреймоворк, написаний на Java, який дозволяє використовувати можливості Hadoop для паралелізації алгоритмів машинного навчання.  Відокремився у 2008 році від проекту Apache Lucene (відкрита бібліотека швидкого повноготестовго пошуку)
Основні завдання, які допомагає вирішувати Mahout:
  • Рекомендаційна система
  • Кластеризація
  • Класифікація
Реалізовані алгоритми:

  • User-user та item-item алгоритми колаборативної фільтрації
  • Рекомендаційні алгоритми на основі факторизації матриці уподобань користувачів
  • k-means та fuzzy k-means кластеризація
  • Latent Dirichlet Allocation
  • Singular Value Decomposition
  • Логістична регресія
  • Наївний класифікатор Байеса
  • Random forest

Ознайомитись з повним переліком алгоритмів можна тут: https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
Для того, щоб поекспериментувати з Mahout, можна почати з тьюторіала від IBM:
http://www.ibm.com/developerworks/ru/library/j-mahout/.
Для того, щоб запрацювали приклади з цієї статті достатньо встановити JDK, Ant та завантажити приклад коду.
В Ubuntu 12.04 все досить просто:
Встановлюємо JDK:
 sudo apt-get update  
 sudo apt-get install openjdk-7-jdk  
Вказуємо JAVA_HOME:
 export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64  
Розпаковуємо приклад коду:
 unzip sample.zip  
 cd apache-mahout-examples  
Запускаємо
 ant install  
для того, щоб скомпілювати код та завантажити датасет, який містить близько 2.5Гб  інформації з Вікіпедії. Час обробки залежить від пропускної здатності інтернет-з'єднання. Якщо все пройшло успішно, вас чекає подібне до цього повідомлення:
 BUILD SUCCESSFUL  
 Total time: 104 minutes 16 seconds  
Після цього мають працювати всі приклади, описані в статті.
В наступних статтях розглянeмо встановлення Mahout + Maven + Hadoop  та огляд книги Mahout in Action.

Немає коментарів:

Дописати коментар