最高速度かましたい

学生エンジニア見習い。何でも書きます。

Hadoop勉強会行って来た

テーマ:トライアンドエラーでロジックまで落とし込もう!

 

丁度学生向けにHadoopの勉強会があったので、お邪魔してきました。

内容はWEBにだしてはいけないとのことなので、感想と心に残ったメモだけ。

 

◆◆感想◆◆

Hadoopのロゴは薬局っぽい

Hbaseのロゴは厨二っぽい

(^ω^)

 

そもそもデータマイニングetcの知識が全然なかったんですが、

 

・テキストを輪切り→

・レジュメ事にベクトル化→

・潜在的に近いか判定

 

がデフォ(でいいんだよね・・・?)

 

単語をしぼり(ノイズを除去)、できるだけ頻出・テキストを象徴するような単語を定義することが1番難しい。

そして過去の応募履歴etcをもとに相関性をスコアでだし、学習できる環境をつくる。

 

へえーって思ったことは、コールドスタート(:初訪問、閲覧etcをしたことのない人)に対してのレコメンドは、外部から買って来たデータでレコメンドさせるらしい。

そのIPアドレスのデータってのは市区町村レベルであり、(存在すれば)まずは住んでいる市区町村のものをレコメンドしてくるらしいです。。

ふおおおお

 

◆リアルタイムレコメンドがムネアツ。

1ページ見てその前のページに戻ったらすでにレコメンド内容が変わっているらしい・・・!

 

◆機会学習によるメール振り分け

面接通過のメールか、落ちたのかを見て、レコメンドされるんだとか。。

 

◆時代魁

Apache DRILL

cloudera IMPALA

 

◆参考ページ

Mahout:

http://mahout.apache.org/

 

WEB Hive:

https://github.com/recruitcojp/WebHive