db tech showcase Hivemall メモ

db tech showcase 2015にてHivemallについて聴いてきたのでメモ。会場が寒すぎて死にそうでした・・。

このメモは私自身の思考も入り混じって記載されています。話者の内容をそのまま記述したものではありませんのであしからずご了承ください。

SQLでMachineLearningを実行できる。

サポートしている機能

  • クラス分類、回帰分析で利用されるアルゴリズムなど。 * Anomaly Detection
  • 新しめの機械学習のアルゴリズムもサポート
  • Matrix factorization
  • Outlier Detection

事例

  • オンラインの広告業界(広告クリック率の推定(CTR Prediction))
  • 不動産価格の推定(Livesense)
  • センサーデータを持っている企業

どのようにHivemallを使うか

  • Training + Prediction
  • TrainingはHadoopで行いモデルを構築して、Prediction(PostgreやMySQL上)にてモデルを適用する
  • MySQL上で、リアルタイムにPredictionを取得することができる

コスト

  • Amazonの場合、モデルを構築するときにコストかかる
  • 現行のコストはPredictionを行う時に$0.1/1000 Req.
  • さらにReal-Time Prediction は $0.0001/Req.
  • Hivemallの場合自社のMySQLなどで行えるのでよい
  • Indexなど適切にはっていればRealTimeも可能