ITPub博客

首页 > 人工智能 > 自然语言 > 自然语言处理之:搭建基于HanLP的开发环境

自然语言处理之:搭建基于HanLP的开发环境

原创 自然语言 作者:adnb34g 时间:2018-11-09 09:39:13 0 删除 编辑

环境搭建比 FNLP 的简单,具体参考:

各个版本的下载: /releases

完毕后有一个报错:

字符类型对应表加载失败 :

D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes

直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目录下新建一个 txt 文档将名称改为 CharType.dat.yes 即可。

相对比较简单。

尝试 HanLP 主要处于各个开源自然语言处理工具包之间的差异,寻找一个适合学习的开源工具包。

 

HanLP 调用方法

HanLP 几乎所有的功能都可以通过工具类 HanLP 快捷调用,当你想不起来调用方法时,只需键入 HanLP. IDE 应当会给出提示,并展示 HanLP 完善的文档。所有 Demo 都位于 com.hankcs.demo 下,比文档覆盖了更多细节,更新更及时,强烈建议运行一遍。

HanLP 的适用过程中注意的问题:

1 、因为 HanLP 版本更新比较频繁,所以, jar 源代码版本需要对应适用,否则源码和 jar 中接口调用对应不上。

在进行 CRF 分词过程中报错 :

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

    at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)

    at java.nio.ByteBuffer.allocate(ByteBuffer.java:335)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytesFromFileInputStream(IOUtil.java:251)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytes(IOUtil.java:178)

    at com.hankcs.hanlp.corpus.io.ByteArray.createByteArray(ByteArray.java:47)

    at com.hankcs.hanlp.model.crf.CRFModel.loadTxt(CRFModel.java:89)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:58)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:73)

    at test.Main.main(Main.java:56)

 

是因为 CRF 比较耗内存,所以出现内存不足,所以需要修改一下 VM 的最大内存。

选中工程,然后:

 

即可解决。

在源码包文件在 eclipse 中打开出现乱码,解决方法:

(必须)首先用 txt 打开,然后在第一行添加: encoding="utf-8" 即可。

 

转载自 CrazyNong   的博客


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31524777/viewspace-2219320/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
八年IT互联从业经历,专注网络营销、大数据、人工智能等领域的知识分享

注册时间:2018-03-09

  • 博文量
    172
  • 访问量
    128911