第16回オープンソーステクノロジー勉強会
昨日GREEで開催された第16回オープンソーステクノロジー勉強会に参加してきました。非常に参考になりました。ざっくりと感じたことや気になったことを書いておきます。公開資料を読みながらust見ると理解も深まると思います。
動画その2
Hadoopの概要と最新の動向
Preferred Infrastructureの太田さんによるHadoopの概要はかなりシンプルにまとめられており非常にわかりやすかったです。以前読んだ「Googleを支える技術」に書かれてあった内容と重複するところもあったのですんなり聞けました。やっぱり膨大なデータ解析では必須の技術になりそう。インデックス作るだけで数時間とかはやっぱダメっすね。しかしustが途中から録画されているのはナゼ。
雑感メモ
- Hadoopの象アイコンはダサい
- SOSPは計算機のシステムソフトウェアでは最高峰の学会
- 最新技術の動向を観察するのによさそう
- NTTレゾナントと共同で解析資料を作成 http://preferred.jp/pub/hadoop.html
- PerlやRubyでラッパー書けるけど、Javaネイティブで書いた方が速いしスレッドを考慮したプログラミングをすればより最適化できる
- 最新版のHadoopは新機能の実装や構成変更が行われててまだ不安定
- keyに対し、valueをappendできるようになってたり
- HDFS(GFSのクローン)はNameNodeがSPOFになっちゃう?
- 「Googleを支える技術」にこの辺の分散の仕組みが書いてた気がするので再読する
- Yahoo, Facebook, Amazonで既に使用事例がある
- ログ解析やデータマイニングで利用してるぽい
- はてなも使ってる
- 直接メールで質問してくる方もいるとか
HadoopとEC2による、『安くて簡単』大規模データ処理
データマイニングの対象としてブログを利用するのはよくある話だと思いますけど、Amazon EC2 + S3を利用してHadoopで解析するのが新しくて参考になりました。データ解析自体はリアルタイム処理速度を求められないのでこういう用途にはEC2+S3は良さげです。
雑感メモ
- EC2からS3の読み書きは無料
- Hadoopとの相性も抜群
- 必要なときだけノードを追加して巨大なジョブを走らせる
- 著者属性を推定するアルゴリズムが気になる
- 大倉さんの論文に書かれてる(注:有料)
- 80台x2日のコストは約40000円
- 1年でAmazonに40万くらい貢いだ
- Hadoopにダメなところはあったか(Q&A)
- 1年稼動させて再起動したのは2回あった
- 昔は優先度がなかった
- 適所に用いれば全く問題なさそう