2012-09-05から1日間の記事一覧

Hadoopの出力ファイルにヘッダを出力する

MapReduce処理を行った後の出力ファイルにヘッダを出力したい場合はTextOutputFormatを拡張する。Mapperの実装でJobConfにヘッダを設定する。元データからヘッダを取る場合は以下のように設定 public class MapperSample extends MapReduceBase implements M…

Hadoopの入力にShift-JISのファイルを使用する

Hadoopのinputに指定したファイルはMapperに渡され、Mapperの入力に来たときorg.apache.hadoop.io.Text型になっている。 これがどうやらUTF-8になってしまうらしく日本語の文字列比較などが上手に行えない。 エンコーディング指定する方法を探したが見つから…