今更ながらMapR(GreenPlumHD)の中身説明会 に行ってきた。
日時:2012/01/19
場所:ベルサール三田(田町駅から徒歩10分くらい)
入場時に水がもらえた。EMC FORUM2011と書いてある。
どう見ても余りものだがNTTデータも真冬に扇子を配ってきたので最近気にならなくなってきた。
賞味期限は大丈夫か?(大丈夫だ、問題ない)
来ていた人:
Mr.Susheel Kaushik(MapRの人):
何人だろう。最初の自己紹介がすごい投げやりだった。
元Yahoo!の人。製品担当責任者。御徒町さんは「コアの人じゃない」といっていた。
英語に自信がないのでこの人のコメントにはほぼタッチできない。
草薙さん(EMC,JPNの人)
元Sunのプリセールス。
この人の説明は半端なかった。
神林さん(NautilusTecknology副社長)
でかあぁぁぁいッ!(主に業界的な影響力が)説明不要ッ!
最近全方位にHadoop関係団体をDisっていた人。
秋葉原でApa*heとClou*eraとNTT*ータを同時にDisった夜を私は忘れません。
Q.そもそもMapRってなんぞ?
A.Hadoopと互換性を保ちつつ、MapReduceの機能はそのままにエンプラの使用に耐えうる信頼性を確保した製品。
Hadoopの概要
↑(アプリ寄り)
[JavaAPI]
[MapReduce]
[HDFS]
↓(ハード寄り)
これをこう変えた
MapRの概要
↑(アプリ寄り)
[JavaAPI]
[MapReduce]
[MapRFS]
↓(ハード寄り)
JavaAPI:現行においてHadoopとほぼ100%の互換性を持つ。将来的には独自性出すかも?
MapReduce:大きくは言及していない。全体で処理性能がHadoop比で3~4倍に上がったとはいっているが。
MapR FS:一番大きく言及した。HDFSがJavaで書かれていたものをC/C++で書き直し、今までNameNodeにデータのメタ情報などさまざまな処理が集中していたものを、CLDBとネームコンテナに分散している。
つまり、HDFSがNameNodeとDataNodeの二段構成だったものを、MapRFSではCLDB,ネームコンテナ、データコンテナの三段構成にしている。
また、CLDBは常に予備のノードを待機できる。アクティブなノードがクラッシュするとジョブを一時停止させ、待機ノードに処理を引き継ぎ、新ノードがジョブを再開させる。
物理サーバを追加したり、ノードがクラッシュするなどの事態が発生しても処理を続けられるようになっているように見える。
UIも標準で提供されている。
使いやすそうな印象ではある。
というかHadoopはなんであんなカジュアルに内部データがぐちゃぐちゃになったりNameNodeが死んだりするんだおかしいだろ。
不満に思った点:
技術的な突っ込みに対して、ほぼSusheelが踏み込んで答えていなかった。
知らないのか答える気がないのかはわからないし、それは機密保持的なものなのかポジション的なものかは不明。
日本で大きなシェアを確保できるか?:
日経新聞をはじめとしてメディアにも出てきたため、ユーザはHadoopに対して熱視線を投げかけている。
Hadoopはエンプラ用途にはきつい部分があるので、信頼性が確保されるならばそれはとても優位な点だと思う。
でも、エンプラに使うには実績が重要であり、それが確保できるかは疑問。
誰が最初にナプキンをとるか?が大事な点だと思う。
ただし、神林さんはかなり評価しているようなので、潜水艦がらみで実績が出ればいけるかもしれない。