参会总结:AI未来说——NLP前沿技术及产业化专场 参会总结:AI未来说——NLP前沿技术及产业化专场

标签:无 811人阅读 评论(0)

参会总结:AI未来说——NLP前沿技术及产业化专场

2020年6月20日,第16期“AI未来说·青年学术论坛” NLP前沿技术及产业化线上专场论坛以线上平台直播形式举行。本次论坛邀请了复旦大学复旦大学黄萱菁教授,中国科学院刘康研究,百度人工智能技术委员会主席何中军,百度杰出架构师、百度语义理解技术与平台ERNIE负责人孙宇,哈佛大学计算机系在读博士生邓云天。

一、自然语言处理中的表示学习

作者简介:黄萱菁,复旦大学计算机科学技术学院教授、博士生导师。1998年于复旦大学获计算机理学博士学位,研究领域为人工智能、自然语言处理、信息检索和社会媒体分析。兼任中国中文信息学会常务理事,社会媒体专委会副主任,中国计算机学会中文信息技术专委会副主任。在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, EMNLP, WSDM和COLING等多个高水平国际学术期刊和会议上发表了近百篇论文,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。近年来担任2014年ACM 信息与知识管理会议竞赛主席,2015年ACM 互联网搜索与数据挖掘会议组织者,2015年社会媒体处理大会程序委员会副主席,2016年、2019年全国计算语言学会议程序委员会副主席,2017年国际自然语言处理与中文计算会议程序委员会主席等学术职务,并入选由清华大学—中国工程院知识智能联合研究中心和清华大学人工智能研究院联合发布的“2020年度人工智能全球女性”及“2020年度AI 2000人工智能全球最具影响力提名学者”。

报告概述:大数据的价值发挥在实际中需要融合很多源头的动态数据,但由于隐私、政策、制度和技术的局限,使现存的大数据只能作为小数据使用,降低了大数据在决策中的作用。结合新冠肺炎的应急预测预警等应用场景,讨论如何利用系统观认识大数据的使用。

报告内容:首先,黄萱菁教授介绍了语言表示学习的内容。早期的语言表示主要采用符号化的离散表示,词表示为One-Hot向量。目前主流语言表示采用更加精确的数学表示,通常使用基于深度学习的表示。

图片 1.png

接下来,黄萱菁教授的报告主要介绍表示学习,特别是语义表示。基于神经网络的表示学习是将不同粒度文本的潜在语法或语义特征分布式地存储在一组神经元中,用稠密、连续、低维的向量进行表示,这里的不同粒度包括词语、短语、句子、句对等。短语在语义层面上类似词语,结构上类似于句子,不同粒度的语言表示有不同的用途,比如词语和短语表示主要用于预训练,服务于下游任务,而句子和句对表示可以直接用于文本分类、匹配、阅读理解、语篇分析等具体任务。

图片 1.png

词语表示学习也称词嵌入,它把词语从符号空间映射到向量空间。2013年之前,只有少量工作研究词嵌入,包括非常有名的、Bengio提出的神经语言模型;2013年之后有了大量新工作,特别有代表性的是word2vec和glove;2016年之后出现了短暂冷却现象;2018年之后又出现大量新工作,与从前学习相对比较独立的词向量不同,新工作学习带有上下文的语境化的词向量,经典工作有Elmo和Bert,相关的两篇论文都获得了NAACL最佳论文奖。学习上下文无关的词向量的众多模型中,word2vec是最高效的算法之一,它包括两个模型,一个是连续词袋模型,用上下文信息的平均预测目标词;另一个是跳词模型,用目标词预测上下文,这两种模型都可以学习高质量的词表示。不同于word2vec,glove是由斯坦福完成的,它直接建模两个词的共现频率和该词所对应向量内积间的关系,使它们尽可能接近,作者给出不同维度、不同语料训练词向量的结果,在实际研究过程中很有用。

短语和句子表示学习的方法是类似的,都和结构预测紧密相关。几种常见的语义组合函数都可以用于从词语序列语义表示生成短语句子的表示,包括递归神经网络、卷积神经网络、循环神经网络、Transformer等等,这些方法也可以组合起来使用。

接着,黄萱菁教授介绍了所在项目组在短语和句子表示学习方面所做的工作,他们在句子建模方面做的一项代表性工作是基于门机制的递归神经网络。利用树结构神经网络可以获得句子树结构,他们对树结构递归神经网络进行了改进,添加门机制,希望对上下文窗口之间的相邻字词组合关系进行更为精细的建模,从字间的关系构建词间的关系,从而构建整个句子结构。

之后黄萱菁教授介绍了近期研究趋势,包括模型层面研究趋势、学习层面研究趋势、理解和解释层面的研究趋势。模型层面包括图神经网络和Transformer。学习层面近期研究趋势包括元学习、多任务学习、迁移学习等。

图片 1.png

最后黄萱菁教授简单总结了当前自然语言处理研究面临的窘境。可解释模型也是研究的方向之一。

图片 1.png

二、低资源环境下的事件知识抽取

作者简介:刘康,中国科学院自动化研究所模式识别国家重点实验室研究员,博士生导师。研究领域包括信息抽取、网络挖掘、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文90余篇,Google Scholar引用6300余次,单篇引用1100余次。曾获COLING 2014最佳论文奖、Google Focused Research Award、中国中文信息学会“汉王青年创新一等奖”(2014年)、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(2018年)等多项学术奖励。2016年入选中国科学院青年促进会,2019年入选北京智源人工智能研究员青年科学家。兼任中国中文信息学会青年工作委员会主任、语言与知识计算专业委员会秘书长等学术职务。

报告概述:知识图谱是人工智能和核心基础设施之一,现有知识图谱多关注于以实体为核心的静态知识,缺乏对于以事件为核心的动态知识的刻画和构建。本报告结合研究组近些年的工作,主要介绍低资源环境下的事件知识的抽取基本方法,包括事件识别、事件要素抽取、事件关系挖掘等方面的最新研究进展。

报告内容:知识图谱的目的是从大量语料中抽取知识、从而构建大规模知识图谱,服务上层应用的研究。近年来,知识图谱研究是个热点问题,知识图谱广泛应用于诸多AI应用如智能问答、对话、推理、搜索引擎等等。知识图谱应用能够更好地帮助AI系统更好地理解数据背后语义信息,包括数据和数据语义关系,从而提供更加精准AI服务。

图片 1.png

很多研究者开始关心以事件为中心知识图谱,在这个知识图谱上面每一个节点不再是实体,而是具体的事件,节点和节点的边表示事件的关系。这些事件本身是有框架的。首先需要从文本中抽取各种类型的事件,同时把描述这些事件属性信息自动抽取出来,这是构建大规模事件图谱首要步骤。第二步是要分析事件和事件之间语义关系,包括因果关系、时序关系、子事件和主事件关系等,完成这两个步骤才能构建大规模事件图谱。

刘康研究员介绍了在实际工作中发现的一些问题。最大问题是低资源环境下会遇到各种各样的困难。比如需要标注的数据样本集不足,因此,怎么获取充足训练数据就成了一个关键问题。

图片 1.png

报告人还介绍了团队最近的工作:第一个工作是从文本中自动抽取一些知识,而不需要用任何工具。另外两个是通过跨语言数据进行扩充训练数据,以及应用知识库的数据来扩充训练数据。

三、机器翻译 —— 从设想到大规模应用

作者简介:何中军,博士,百度人工智能技术委员会主席,从事机器翻译研究与开发十余年,申请专利40余项,研发了全球首个互联网神经网络翻译系统、首个WiFi翻译机、首个语义单元驱动的语音到语音同传系统。曾获国家科技进步二等奖、中国电子学会科技进步一等奖、中国专利银奖、北京市科技进步二等奖、电子学会优秀科技工作者等多项奖励。

报告概述:70多年前,第一台计算机诞生后不久,科学家就提出了利用计算机进行翻译的设想。此后,随着技术不断更迭,算力大幅提升,以及互联网带来的数据井喷式增长,机器翻译质量持续提高。尤其近年来神经网络机器翻译的出现及快速发展,使得机器翻译水平大幅跃升,在人们的生产生活中得到了广泛应用。本报告结合百度机器翻译大规模工业化实践,介绍机器翻译技术进展、主要产品形式及应用,最后对未来发展进行展望。

报告内容:机器翻译的简要发展历史如下:

图片 1.png

驱动机器翻译发展的三驾马车。第一是算法演进,基于规则、统计、神经网络的算法。第二是算力,最开始计算机是由电子管、晶体管为材料制造的,随着技术发展,到统计机器翻译时代,主力算力是CPU集群,神经网络翻译时代主力算力则是GPU集群。第三是数据,最开始的时候人们通过构建规则以及利用字典进行翻译,互联网出现以后产生了大规模的数据,人们开始使用这些自动采集的大数据来训练机器翻译系统,近年来又引入了行业优质垂类数据来进一步优化翻译系统。

图片 1.png

 

四、百度语义理解技术ERNIE及其应用

报告人 :孙宇,百度杰出架构师,百度语义理解技术与平台ERNIE负责人。从事语义理解领域研究与应用近10年,取得了多项世界领先成果,相关工作广泛应用于百度搜索、百度信息流、小度音箱、智能客服等产品,在AAAI、IJCAI等人工智能顶级国际会议发表多篇高水平学术论文,已授权或公开的国内外专利60余项,荣获中国电子学会科技进步一等奖、中国人工智能学会优秀科技成果奖、百度最高奖及百度骄傲最佳团队等奖项。

报告概述:近年来,预训练技术在自然语言处理领域发展迅速,并获得广泛应用。2019年,百度NLP研发了基于知识增强的语义理解技术ERNIE,创新性地将大数据预训练与多源丰富知识相结合,研发持续学习算法,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,在有代表性的中英文16个任务上取得国际上最好的结果。ERNIE技术广泛落地百度核心业务,取得了显著应用效果。本次报告主要包含百度ERNIE的技术进展、应用情况以及未来发展方向。

图片 1.png


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1