Introduce Mahout

얼마전부터 오랜시절부터 나의 영원한 꿈이었던 머신러닝과
Collaborative Filtering 관련 일을 하게 되었다. 이미 DuineFramework를
사용하여 Recommendation system을 만들었었는데 구현도중 대용량
데이터를 이용하는 데이터마이닝과 필터링에 많은 좌절과 역경을 가졌었던
나로서는 Mahout이 워낙 반갑지 않을 수 없다. 소스 코드를 대충 살펴보니
Collaborative Filtering부분은 DuineFramework와 많이 유사하지만
필요한 부분만 쏙 가져와서 구현한 느낌이 든다. 따른 클러스터링 알고리즘
역시 구글 세미나등에서 많이 봤던 내용들….
어쨋든 좀더 일찍 알았더라면 많은 도움이 되었을껄 괜히 고생했던
시간들이 아깝기 까지 한 느낌.. 역시 대세는 분산 시스템과 병렬처리인듯…
몇년전부터 관심을 가져왔던 분야이지만 한국에서는 별로
많은 관심을 갖는이가 없는듯…

조만간 내가 만들었던 시스템(자체 개발한 map/reduce
with multi-processors & threads를 이용한 추천 시스템)
에서 hadoop + mahout + cassandra로 갈아타야겠다.
시간과 자금이 허락된다면 말이다. 현재 시스템이 결코 떨어진다는
얘기는 아니다. 현재 개발한 시스템도 몇십만 유저의 데이터를 아주
나이스 하고 정확하게 제어하고 있다.

밑에는 mahout 관련 리소스 정보들 아주 유용한 정보가 많이 존재한다.
mahout은 scalable한 머신러닝 라이브러리로 아파치 hadoop을
위에서 map/reduce을 이용해서 대용량 데이터를 아주 나이스하고
빠르게 핸들링 한다. mahout을 이용한다면 collaborative filtering을 통한
여러가지 재미있는 서비스를 만들수 있을 것이다.

근데 hadoop도 mahout도 cassandra도 다 java인데..
C++ 구루인 나한테는 조금 뭔가 맘에 들지 않는 부분이다. 누가 자금과 시간만 나에게
허락해 준다면 C++버젼으로 아주 나이스 하고 클린하게 개발할수 있을텐데
하는 조그마한 희망이 있는데…. hadoop이후에 가장 기대되는
아파치 오픈 소스 프로젝트이다.

한국어로 되어 있는 mahout소개 내용

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: