2010年12月14日火曜日

Hadoop実験

ラック認識スクリプトを組み込んだ実験がやっとできるはずでした
やはりというか、問題発生
----------------------------------------------------------------
ディレクトリ構造と同じ見方です
例えば、1番はde1に繋がっている
3番はde1の下のdf1に繋がっている
----------------------------------------------------------------
1:/de1
2:/de1
3:/de1/df1
4:/de1/df1
5:/de1/df1
6:/de1/df1
7:/de1/df2
8:/de1/df2
9:/de1/df2
0:/de1/df2
と記述しHadoopを起動。なぜか、4番目から起動しない
1:/de1/df1
2:/de1/df1
3:/de1/df1
4:/de1/df1
5:/de1/df1
6:/de1/df1
7:/de1/df1
8:/de1/df1
9:/de1/df1
0:/de1/df1
と記述しHadoopを起動。問題なく起動。
1:/de1
2:/de1
3:/de1/df1
4:/de1/df1
5:/de1
6:/de1/df1
7:/de1/df2
8:/de1/df2
9:/de1/df2
0:/de1/df2
と記述しHadoopを起動。なぜか、1,5,7のみ起動
以上、何度も再起動をかけてでた結論は
1,2番の書き方を変えることでした。
1,2番があることで2階層までしか読み込めないHadoopが
ほかのを3階層と誤認してしまっているらしいという考察です。
結局、時間制限があるということで実際の構成とは異なりますが、妥協し下記のように
1:/de1/df3
2:/de1/df3
3:/de1/df1
4:/de1/df1
5:/de1/df1
6:/de1/df1
7:/de1/df2
8:/de1/df2
9:/de1/df2
0:/de1/df2
これから考えると、ラック認識が2階層までしか読めないということは
スケールアウトに支障が出るのでは?
スクリプト組み込んだHadoopは推論では処理が早くなるはず
いまのところ、HDFSへのputを計測してますが
若干の処理速度の向上が見られます。

By M.N

0 件のコメント:

コメントを投稿