ITPub博客

首页 > 人工智能 > 自然语言 > 配置Hanlp自然语言处理进阶

配置Hanlp自然语言处理进阶

自然语言 作者:adnb34g 时间:2018-12-07 10:18:16 0 删除 编辑


中文分词

中文分词中有众多分词工具,如结巴、 hanlp 、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持 java ,分词是 HanLP 最基础的功能, HanLP 实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置 Hanlp 来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。

下载 jar property data 文件

下载 jar 文件,(下载 hanlp 压缩包)解压之后获得 jar property 文件如下:

 

其中 property 问配置文件, jar 文件为外部引用文件。

然后下载 data 文件:

https:// pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)

解压压缩包之后就能获取 data 目录了。

一切就绪之后下面就是配置了。

配置 hanlp

新建一个空项目,包括一个新建的 java 文件的 test.java

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment(" 你好,欢迎使用 HanLP "));

6.    }

7.}  

目录结构如下图:

 

如果是在 linux 中的话,你可以将 property 文件放在 classpath 中, windows 中也可以,配置环境变量,将 property 文件的绝对路径加上就可以了,然后运行一下这个 java 文件:

你会发现如下错误

 

1. 十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2. 严重 : 没有找到 hanlp.properties ,可能会导致找不到 data

3.========Tips========

4. 请将 hanlp.properties 放在下列目录:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web 项目则请放到下列目录:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11. 并且编辑 root=PARENT/path/to/your/data

 

然后将 property 放到相应的目录就可以了 , 注意 property 配置只需要修改 root 的配置就行了。

 

1. 本配置文件中的路径的根目录,根目录 + 其他路径 = 绝对路径 Windows 用户请注意,路径分隔符统一使用 /

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就比如我的解压后的 data 文件夹是放在 D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java 目录下的那我就改这个就可以了,其余的配置不用修改

 

运行成功如下图:

 

---------------------

作者:学 zaza

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31524777/viewspace-2284471/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
八年IT互联从业经历,专注网络营销、大数据、人工智能等领域的知识分享

注册时间:2018-03-09

  • 博文量
    93
  • 访问量
    37520