首页 > 大数据 > 数据挖掘 > Spark中使用HanLP分词
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:
root=hdfs://localhost:9000/tmp/
2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:
3.设置IoAdapter,创建分词器:
然后,就可以在Spark的操作中使用segment进行分词了。
文章来源于云聪的博客
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31557723/viewspace-2217647/,如需转载,请注明出处,否则将追究法律责任。