ITPub博客

首页 > 人工智能 > 人工智能 > AI 终于受凉了??

AI 终于受凉了??

人工智能 作者:AIBigbull2050 时间:2020-04-02 13:41:19 0 删除 编辑
2020-04-01 17:16:22

一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人、机构、企业。先后在 NEC 公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室从事和领导 AI 技术研发,现任字节跳动人工智能实验室总监的李航,就是一位 AI 技术的坚实研究者和实践者。

AI 终于受凉了??| 文末福利

在字节跳动的一间会议室,笔者第一次见到这位卓有建树的AI技术研究者和实践者。关于李航的严谨和认真笔者早有耳闻,而在这次会面中,笔者才真正领会了他的学者风范。

让笔者欣喜的是,李航非常友善且健谈,从早年的研究经历到最近的新书《统计学习方法》第二版,再到对机器学习热门技术的看法及对未来人工智能的展望,相关问题他都一一做了详尽的回答。

一、初遇“机器学习”,也曾有过怀疑

从事 AI 研究 30 多年,目前李航作为字节跳动人工智能实验室总监,负责领导AI 技术基础研究和产品落地,主要集中在搜索、推荐、对话、问答、教育几个领域。目前,李航投入主要的精力在产品研发上,但仍有一些精力放在基础研究上。

例如在搜索领域,李航表示他们今年发表了一篇关于排序学习的论文,提出使用点击数据训练搜索排序模型的新方法。因为点击数据会有偏差,这个方法能自动做纠偏同时学习排序模型,在搜索中很有效。据悉,这项成果已经用到了字节跳动的搜索引擎中。这项技术的成功为搜索引擎变成一个自学习的系统迈出了重要一步。

在字节跳动,李航的主攻方向还是自然语言处理、信息检索、数据挖掘,认为学术和落地两者的结合至关重要。他认为,把研究的成果应用到产品,解决实际问题,同时把具有普世意义的成果,作为学术论文发表,在计算机领域这样的工作很有价值。因此,他表示将不断推动产品开发和学术研究,同时做好两者之间的平衡。

对李航的现状有所了解之后,我们不妨来了解一下,当初是什么样的契机,让他走上了 AI 研究的道路并一直坚持到现在。相信这会让有意进入该领域,但是对于未来职业和人生规划感到迷茫的年轻人受益匪浅。

京都大学留学开始“AI”生涯

李航回忆道,他最初与 AI “结缘”,是1988年,在日本京都大学留学的本科时期。当时,他最早做的两个工作都是文本生成相关的。然而,彼时的主流技术并不是机器学习,而是基于规则的方法。

读本科时,李航做了一个叫做 System Grammar(系统文法)的语言学框架,用它进行中文生成;硕士期间,他研发了一个能够根据不同需求生成多样表达的系统。但值得一提的是,这两个项目中使用的都是基于规则的方法。

他回忆道,其实到 90 年代初,机器学习才进入到自然语言等领域,或者说在这些领域产生更大的影响,逐渐变成主流技术。但当李航开始进入这个行业时,状况并不是这样,他也未曾想到,机器学习后来会给AI带来翻天覆地的变化。

回首 90 年代初开始接触机器学习时的经历,李航坦诚当时内心也有过一些怀疑,因为人的语言理解和生成机制与机器学习是完全不同,当时整个业界都认为应该基于规则建立认知模型,去做一些智能相关的任务。李航说,他的机器学习知识也都是从那时开始,通过自学获取的。

“可以说,80 年代至 90 年代初,人们对人工智能的期待非常高,比如 80 年代日本有所谓的第五代计算机项目,那时人们觉得人工智能的实现应该通过推理技术,但后来发现那些路根本走不通。接着,在90 年代,人工智能进入低谷期,当时业界甚至都不愿意提及人工智能这个词。相反地,更多的人把 AI 落到实处,用机器学习去做简单的事情。”在李航的眼中,90 年代的AI从业者和研究者,是一群务实的人。

务实的 90年代

李航以他自己的亲身经历,讲解了 90 年代那群“务实”的人。他最早接触的机器学习算法是决策树,叫做 ID3,这个算法其实只能做一些简单的事情。再如,基于神经网络的手写数字识别,也是一个典型的例子。

李航认为,这些事情都比较简单,听起来也没有那么智能,但是当时人们更多地是在脚踏实地做一些实际的事情,没有过多考虑智能。所以,从 90 年代到本世纪初的10年,在大约 20 年的时间里,关于人工智能的谈论并不多,更多的是用机器学习、数据挖掘去解决实际问题。

2012 年左右,深度学习开始火起来。而实际上,2012-2014年,最火的词汇还不是人工智能,是大数据。直到 2015年 Alpha Go 横空出世,人工智能这个词才又一次完全火爆起来。所以说,业界在不断发生变化,技术在演进,大家的关注点和期待,也在随之改变。

二、新书再版计划,增加深度学习和强化学习

接着,我们的话题转到了李航最近的《统计学习方法》第二版。这一次,作者在新版本中加入了无监督学习相关内容。为什么要增加这一部分内容?未来这本书还会有哪些变动?

李航指出,无监督学习有若干个不同的定义,《统计学习方法》第二版新增的无监督学习内容主要是传统机器学习中的无监督学习,与Hinton等人最近说的深度学习中的无监督学习不尽相同。他认为无监督学习确实是深度学习未来发展的重要方向,有望让机器变得更加智能化,像人一样使用语言,比如,自然语言处理领域的BERT 之所以可以发挥巨大的威力,根本原因在于它做了很好的预训练,就是无监督学习。Hinton 所谓的无监督学习是深度学习的未来,是指类似于 BERT这样的预训练方法。从这个意义上来说,无监督学习非常重要。

李航表示,因为这本书是在业余时间写作的,因此耗费时间较长,第一版花了七年,第二版花了六年时间。2012 年《统计学习方法》第一版出版时正值深度学习初火,当时他曾有意加入一些神经网络的内容,但是担心时间拖得太久故作罢,所以第一版只对传统机器学习中的监督学习的主要方法做了介绍。

本来,李航计划再加上无监督学习的内容就结束本书,但是出版之后受到读者的欢迎,这使他备受鼓舞,很多人希望再加上深度学习和强化学习,可以看到全新的,沿袭本书简洁和重点突出风格的内容。所以,李航计划为这本书增加深度学习和强化学习,希望可以覆盖所有机器学习常用的方法,帮助读者更好更快地掌握机器学习技术。然而,再出新版的时间不能确定,也许要几年之后。

李航特别指出,这本书的定位并非入门书籍,不一定适合入门者,因为虽然该书的内容都是最基本的,没有一定的统计概率知识和其他相关基础知识,学起来可能有点吃力。他希望,这本书能成为一本字典一样的书籍,让大家能够反复研读,经常使用。

三、对人工智能的洞察与前瞻

回顾人工智能的发展历史,每一个阶段都有会因为一些技术突破使得领域的发展曲线升向新的高峰,取得巨大进展。近年来,人工智能领域的的一些新技术,或者新思路,比如深度强化学习、图神经网络、通用人工智能、神经符号处理等引起了业界的瞩目,大家对这些新词汇或新技术寄予厚望,希望能让这个领域发生更多的奇迹。然而,每每被冠以“突破性”的技术,产生的影响果真的有这么大吗?李航凭借 多年的研究经验,给出了他的看法。

强化学习比监督学习更需要数据

李航曾表示,构建一个复杂的智能系统,原理上需要从“身体“入手,让智能系统在与环境的互动中进行学习,而强化学习是实现这一目标的有效手段。深度强化学习应用到真实环境中有什么样的优势?深度强化学习在智能系统的学习过程中会起到什么样的作用?

深度强化学习是把深度学习和强化学习结合起来,用深度学习学习强化学习模型,所以深度强化学习本质上还是强化学习。

李航表示,当智能系统学习做一些相对简单任务时,可以使用监督学习,监督学习技术已经比较成熟和实用,但代价是要用很多标注数据。相比,强化学习可以适用于让智能系统学习做更加复杂的任务。所以,从这种意义上来说,强化学习未来很有前景。

强化学习未来发展前景广大,但当前却面临着一个巨大的挑战,即强化学习从某种意义上比监督学习更需要大数据,数据成为当前强化学习发展的最大瓶颈。可以想象,未来5G、物联网等技术的发展会带来更多的数据,可能强化学习之后会获得更大的发展。所以,强化学习是大家都很看好的一个方向。

机器学习做不到和人一样触类旁通

目前,统计学习是机器学习的主流,但是统计学习还做不到和人一样的触类旁通,自学知识,达到人的学习能力。 统计学习在机器学习中起到什么作用?机器如何才能获得人的学习能力?

对于机器学习和深度学习目前取得的一些成果,李航认为应理性看待,“这让大家有一种错觉,认为机器已经非常接近人,但实际上差得还很远,这是因为人类学习和机器学习具有完全不同的机制。人天然具有三个最重要的学习能力,即记忆能力、泛化能力、联想能力,在机器上实现同样的学习能力还有很多困难。特别是现在人的学习的具体机理还不是很清楚。”

人的思考机制与机器本质上不同

那么,有没有一种方法能够让机器做到和人一样触类旁通呢?李航认为还看不到这种可能,要想机器学习做到像人类一样触类旁通非常难,做到这一点还需要漫长的时间,至于是多久,他也无法给出准确的估计。

为什么机器无法和人一样触类旁通?这要从人的学习机制来看。一言以蔽之:人与机器的学习在本质上是完全不同的。

李航讲到,人和动物天然具有记忆和泛化能力,这其实是在做概念的存储和抽象。比如,老鼠吃了一次让它中毒的食物,就能认识到这种食物不能吃,下次看到同样的有毒食物就不会再去碰它。也就是说,只用了一个样本就把有毒食物的特点,如颜色和气味学到了(记忆了)。在这个过程中,老鼠做了抽象,因为食物的个体都不是完全一样的,老鼠能区分哪些东西属于同类。这些能力都是老鼠生来具有的,有很充分理由相信,人也具有同样的能力。

此外,人还具有一项重要的能力,它在人的学习或概念形成、推理、语言使用中起到最根本的作用,那就是联想。联想是什么?李航用一个简单的例子来做了说明,比如现在你看到一瓶水,你可能会联想到你昨晚也喝过这种水,或者它的生产厂家等。人的经历不同、场景不同,联想的内容也不同。人时时刻刻都会做联想,所以人的思考其实很大部分都是在找到相关的记忆。计算机做检索的过程其实也是在联想。我们产生新的概念、做创造发明、学习新知识等常常也是在做联想。即记忆的机制就是联想,发明创造的机制也是联想。

所以,人的这种最基本的思考机制是记忆、泛化、联想→学到知识。

但是,机器学习目前完全是基于统计,即依靠数据。李航表示,他的书之所以命名为《统计机器学习方法》,是为了强调理论和统计的重要性,因为在他的认知里,机器学习基本上约等于统计机器学习或统计学习,这也是目前业界的共识。未来也有可能出现其他的机器学习方法,但至少目前来说机器学习就是约等于统计学习。

统计机器学习最核心的想法,就是从大量数据中找到统计规律。即使是深度学习,本质上也是统计学习,用复杂的训练神经网络,表示找到的复杂的统计规律,去做一些看似智能,但本质上和人的智能机制不同的事情。

因此,机器学习与人类学习的本质完全不同,所以让机器达到与人一样触类旁通非常难。

https://www.toutiao.com/i6810669582546633229

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69946223/viewspace-2684110/,如需转载,请注明出处,否则将追究法律责任。

全部评论
向AI大牛学习,成为AI大牛!

注册时间:2019-08-22

  • 博文量
    905
  • 访问量
    434669