1. 程式人生 > >spark叢集使用hanlp進行分散式分詞操作

spark叢集使用hanlp進行分散式分詞操作

分兩步:

第一步:實現hankcs.hanlp/corpus.io.IIOAdapter

public class HadoopFileIoAdapter implements IIOAdapter {

    @Override
    public InputStream open(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        return fs.open(new Path(path));
    }

    @Override
    public OutputStream create(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        OutputStream out = fs.create(new Path(path));
        return out;
    }
}

 

第二步:修改配置檔案。root為hdfs上的資料包,把IOAdapter改為咱們上面實現的類

b

ok,這樣你就能在分散式叢集上使用hanlp進行分詞了。

希望能幫到需要的朋友。。