ITPub博客

首页 > 大数据 > 数据挖掘 > Spark中使用HanLP分词

Spark中使用HanLP分词

数据挖掘 作者:lanlantian123456 时间:2018-10-26 14:39:24 0 删除 编辑

1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: 

root=hdfs://localhost:9000/tmp/


2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:

3.设置IoAdapter,创建分词器:

然后,就可以在Spark的操作中使用segment进行分词了。



文章来源于云聪的博客


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31557723/viewspace-2217647/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-10-10

  • 博文量
    65
  • 访问量
    37579