从研究到应用:腾讯AI Lab的自然语言理解和生成
3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。
自然语言的理解
自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取(Information Extraction)从文本信息中找到有用的信息,摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,比如在语文考试中经常出现的题目:“这句话表达了作者怎样的思想感情”,而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。
表征学习:腾讯AI Lab在各个颗粒度都有研究
李菁表示,从词、词组、到句子、到篇章,腾讯AI Lab在各个颗粒度的表征学习都有研究,并重点介绍了词级别的表征,也就是词嵌入(wordembedding)。词嵌入的目标是把词映射到一个高维的空间当中,使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料,直接作为用作输入层的特征表示。在英语上,词嵌入有很多很好的语料,比如 word2vec,但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入,这个语料不管从覆盖度、准确率还是对于新词的衡量方面,都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能,这个语料都表现出其优越性。
信息抽取:关键词抽取被赋予了新的生命
说到信息抽取,李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分,一般是词或者词组的形式。关键词抽取是一个非常古老的问题,如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中,当用户输入这样一个问题:“刚开始玩王者荣耀,花木兰这个英雄怎么样”,如果能正确定位到花木兰这个关键词,就可以搜索到相关信息,比如“王者荣耀推出花木兰,输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰,技能太复杂。”,通过融合这些返回的结果就可以得到用户想要的答案,比如“输出给力,不脆皮,但是技能复杂”。
图1考虑上下文的关键词抽取模型
现在学术界在关键词抽取上的研究进展并不是完美的,它也有欠缺考虑的地方,表现为目前针对关键词抽取的研究点只考虑了待抽取的文本,而忽略了它的上下文信息,比如在抽取新闻的关键词的时候,往往只关注新闻本身,而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及,如果能很好地编码上下文中的重要信息,将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型,如图 1所示,模型的左侧的上下文编码器用于抽象上下文中的表示,右侧用于学习目标文本的特征,结合二者来共同发现目标文本中的关键词位置。
自然语言的生成:让AI写春联
自然语言的生成技术关注的是如何让机器能够像人一样进行写作,这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向,AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎,比如针对股票的自动问答系统,针对财报生成摘要,让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果,比如诗歌和对联的生成。接下来李菁以对联生成为例,介绍了AI Lab在自然语言生成方面的应用。
图 2 腾讯AI春联生成以“腾讯”为藏头的春联
图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品,由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字,系统就会取后面2个汉字,第一个汉字生成上联,第二个汉字生成下联,比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到,这个产品自问世以来就受到了大众的广泛欢迎,数据显示有超过380万的用户使用了该产品,页面访问量达到了760万,春联生成次数超过4千万次,人均生成10次春联。另外,由于腾讯AI春联带来的巨大影响力,各大媒体也争相报道这个产品,除了中国大陆的媒体之外,还有来自中国台湾和中国香港的媒体也争相报道这个产品。
李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联,在生成上联的每个字的时候需要根据之前所挥洒出的意境,因此产品采用了语言模型的方法。在从上联生成下联的时候,采用了稍微不一样的模型,因为考虑到对仗,系统使用了带有注意机制的序列到序列模型,生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型,一副对仗工整、意境深远的春联就生成了。
最后,李菁表示相信随着AI技术的发展,在不远的将来,机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天!
题图引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/