ITPub博客

首页 > 人工智能 > 人工智能 > IBM研究院发布自动为新闻播报生成字幕的AI模型

IBM研究院发布自动为新闻播报生成字幕的AI模型

人工智能 作者:dicksonjyl560101 时间:2019-05-16 08:43:59 0 删除 编辑

https://www.toutiao.com/a6691159095799448077/


2019-05-15 15:54:39

IBM研究院发布自动为新闻播报生成字幕的研究,利用长短期记忆(LSTM)网络和声学神经网络模型,搭配辅助的语言模型,研究团队与澳洲一家语音和搜寻科技公司Appen一同合作,在两项测试实验中,语音辨识系统的错误率分别为6.5%和5.9%,而人类辨识的错误率分别为3.6%和2.8%。

IBM研究院发布自动为新闻播报生成字幕的AI模型

IBM指出,在对话式电话语音领域中,语音辨识系统必须处理失真、来自多个不同电话通道的随性语音录音,还包含多种说话风格,且对话式语音还会有多个对话者重叠、中断、重新开始和重复确认的语音。

而新闻广播的语音辨识任务更具挑战,因为还需要处理多人说话风格、多种背景噪音,和广泛的新闻领域内容,甚至是多种题材的混合内容,像是现场采访、电视节目的剪辑内容等。

为了能够成功地辨识复杂的语音内容,为新闻播报内容生成字幕,IBM研究团队通过语音辨识技术,建立了一套深度神经网络,该深度神经网络整合了长短期记忆网络和深度残差网络(residual network,ResNet),以ResNet为基础打造的声学模型是含有多达25层卷积层的深度卷积式网络,用1,300个小时、多种不同的新闻内容资料,来训练生成字幕的模型。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29829936/viewspace-2644538/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
行万里路,读万卷书,阅无数人。 吃货一枚,爱吃湘菜,川菜,粤菜与杭帮菜,尝遍天下美食。 摄影爱好者,游遍名川大山,江河胡海,赏遍人间春色。 爱看影,尤其是港片,好莱坞大片,以及俄罗斯生猛大片,非主流影评写手。 SAP高级咨询顾问经理,自由职业者。 2017年底开始研习人工智能。

注册时间:2014-08-27

  • 博文量
    1708
  • 访问量
    2891980