Основні завдання, які допомагає вирішувати Mahout:
- Рекомендаційна система
- Кластеризація
- Класифікація
- User-user та item-item алгоритми колаборативної фільтрації
- Рекомендаційні алгоритми на основі факторизації матриці уподобань користувачів
- k-means та fuzzy k-means кластеризація
- Latent Dirichlet Allocation
- Singular Value Decomposition
- Логістична регресія
- Наївний класифікатор Байеса
- Random forest
Ознайомитись з повним переліком алгоритмів можна тут: https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
Для того, щоб поекспериментувати з Mahout, можна почати з тьюторіала від IBM:
http://www.ibm.com/developerworks/ru/library/j-mahout/.
Для того, щоб запрацювали приклади з цієї статті достатньо встановити JDK, Ant та завантажити приклад коду.
В Ubuntu 12.04 все досить просто:
Встановлюємо JDK:
sudo apt-get update
sudo apt-get install openjdk-7-jdk
Вказуємо JAVA_HOME: export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64
Розпаковуємо приклад коду: unzip sample.zip
cd apache-mahout-examples
Запускаємо ant install
для того, щоб скомпілювати код та завантажити датасет, який містить близько 2.5Гб інформації з Вікіпедії. Час обробки залежить від пропускної здатності інтернет-з'єднання. Якщо все пройшло успішно, вас чекає подібне до цього повідомлення: BUILD SUCCESSFUL
Total time: 104 minutes 16 seconds
Після цього мають працювати всі приклади, описані в статті.В наступних статтях розглянeмо встановлення Mahout + Maven + Hadoop та огляд книги Mahout in Action.
Немає коментарів:
Дописати коментар