ITPub博客

pyhanlp用户自定义词典添加

数据分析 作者:lanlantian123456 时间:2018-11-09 16:49:29 0 删除 编辑

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp


经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。




如何向pyhanlp添加自定义的词典?以python 2.7.9为例:


1.安装pyhanlp:pip install pyhanlp


2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。


具体绝对路径可用hanlp --version获取:


#hanlp --version


jar  1.6.3: /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data


config    : /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties


#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"


3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。


#cat 我的词典.txt  


codis集群 nz 1000


今日头条 nz 1000




第一列为词条,第二列为词性(默认为n),第三列为词频


4.然后需要删除缓存文件,这样python才会重新加载新增的文件:


#rm -f CustomDictionary.txt.bin


5.测试新增的词典:


python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"


五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes


警告: 读取/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)


报这个错误没有关系,只是个warning,重新加载缓存文件而已。





文章来源于明月三千里68的博客

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31557723/viewspace-2219439/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-10-10

  • 博文量
    61
  • 访问量
    21017