ITPub博客

关于 “自然语言” 的内容如下:

  • Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

    在Kmeans算法中,一个样本需要使用数值类型,所以需要把文本转为数值向量形式,这里在Spark中有两种方式。其一,是使用TF-IDF;其二,使用Word2Vec。这里暂时使用了TF-IDF算法来进行,这个算法需要提供一个numFeatures,这个值越大其效果也越好,但是相应的计算时间也越长,后面也可以通过实验验证。

    adnb34g 自然语言 345 2018-11-12 10:27
  • 自然语言处理之:搭建基于HanLP的开发环境

    HanLP几乎所有的功能都可以通过工具类HanLP快捷调用,当你想不起来调用方法时,只需键入HanLP.,IDE应当会给出提示,并展示HanLP完善的文档。所有Demo都位于com.hankcs.demo下,比文档覆盖了更多细节,更新更及时,强烈建议运行一遍。

    adnb34g 自然语言 339 2018-11-09 09:39
  • 一文看懂NLP神经网络发展历史中最重要的8个里程碑!

    一文看懂NLP神经网络发展历史中最重要的8个里程碑! https://mp.weixin.qq.com/s/gNZiiEfsQjlF9tArNDIt5Q                                 &

    dicksonjyl560101 自然语言 340 2018-11-08 15:02
  • hanlp源码解析之中文分词算法详解

    词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。

    adnb34g 自然语言 348 2018-11-07 10:24
  • HanLP 关键词提取算法分析详解

    前面提到,若干句话分词之后,得到的一个个的词,或者叫Term。假设窗口大小为5。解释一下TextRank算法提取关键词的Java实现文章中提到的如何确定某个Term有哪些邻接Term。

    adnb34g 自然语言 338 2018-11-05 09:56
  • 自然语言处理(nlp)比计算机视觉(cv)发展缓慢,而且更难!

    1.  抢跑的nlp nlp发展的历史非常早,因为人从计算机发明开始,就有对语言处理的需求。各种字符串算法都贯穿于计算机的发展历史中。伟大的乔姆斯基提出了生成文法,人类拥有的处理语言的最基本框架,自动机(正则表达式),随机上下文无关分析树,字符串匹配算法KMP,动态规划。 nlp任务里如文本分类,成熟的非常早,如垃圾邮件分类等,用朴素贝叶斯就能有不错的效果。

    DicksonJYL560101 自然语言 383 2018-11-05 09:49
  • HanLP用户自定义词典源码分析详解

    HanLP作者在HanLP issue783:上面说:词典不等于分词、分词不等于自然语言处理;推荐使用语料而不是词典去修正统计模型。由于分词算法不能将一些“特定领域”的句子分词正确,于是为了纠正分词结果,把想要的分词结果添加到自定义词库中,但最好使用语料来纠正分词的结果。另外,作者还说了在以后版本中不保证继续支持动态添加自定义词典。以上是阅读源码过程中的一些粗浅理解,仅供参考。

    adnb34g 自然语言 338 2018-11-02 10:45
  • 清华 NLP 团队推荐:必读的77篇机器阅读理解论文

    清华 NLP 团队推荐:必读的77篇机器阅读理解论文https://mp.weixin.qq.com/s/2VhgEieBwXymAv2qxO3MPw           【导读】机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内

    DicksonJYL560101 自然语言 401 2018-11-01 14:39
  • 自然语言处理入门基础之hanlp详解

    自然语言处理定义:   自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语

    DicksonJYL560101 自然语言 340 2018-10-31 16:22
  • NLP汉语自然语言处理入门基础知识

    自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智

    DicksonJYL560101 自然语言 338 2018-10-31 16:21
  • python调用自然语言处理工具hanlp记录

    HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g&q

    adnb34g 自然语言 340 2018-10-31 10:30
  • 自然语言处理中的分词问题总结

    众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。

    adnb34g 自然语言 344 2018-10-26 11:15
  • 自然语言处理NLP快速入门

    自然语言处理NLP快速入门 https://mp.weixin.qq.com/s/J-vndnycZgwVrSlDCefHZA  【导读】自然语言处理已经成为人工智能领域一个重要的分支,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。本文提供了一份简要的自然语言处理介绍,帮助读者对自然语言处理快速入门。 作者 | George S

    DicksonJYL560101 自然语言 348 2018-10-24 08:06
  • Hanlp实战HMM-Viterbi角色标注中国人名识别

    这是hankcs将自己的分词与ansj作比较得出的结果,由于自己可以随时调整算法,所以主场占了很大便宜。但是第一句绝对没有放水,说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。

    adnb34g 自然语言 346 2018-10-22 14:23
  • Hanlp中使用纯JAVA实现CRF分词

    与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。

    adnb34g 自然语言 347 2018-10-19 10:30
  • 阿里云HBase发布冷存储特性,轻松搞定冷数据处理

    9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。阿里云HBase是基于Apache HBase深度优化的全托管、PB级、千万级QPS随机读写的云数据库,其在物联网、车联网、用户画

    许此一生 自然语言 339 2018-10-17 15:20
  • 依存句法分析器的简单实现

    生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。

    adnb34g 自然语言 348 2018-10-17 10:43
  • 视频云2.0,更大规模、更智能、更清晰

    阿里云视频云目前已完全具备了为大规模、突发性的大型活动、赛事提供直播的能力。今年的俄罗斯世界杯,服务了多家互联网直播转播商,承接了世界杯互联网直播70%的流量,单场支撑优酷2400万用户涌入观看,是春晚观看人数的3倍。

    许此一生 自然语言 337 2018-10-16 15:10
  • 飞天2.0 | 万物智能的基础服务

    在2018杭州云栖大会的主论坛上,阿里云技术研发总经理蒋江伟发表了《飞天2.0,万物智能的基础服务》的主题演讲,从全连接、安全、简便、高速四个方面,阐述了飞天2.0网络的新特性。

    许此一生 自然语言 342 2018-10-16 15:00
  • MapReduce实现与自定义词典文件基于hanLP的中文分词详解

    文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。

    adnb34g 自然语言 343 2018-10-15 10:31
点击加载更多下一页

成为大咖

联系我们
itpub
help@itpub.net
18603471036
扫描二维码联系客服
关于 广告服务 使用条款
京ICP备16024965号
经营性网站备案信息
网络110报警服务
中国互联网举报中心
北京互联网违法和不良信息举报中心