自然语言处理前沿论坛在京召开 学者专家共探机器之读、写、说、译

热点专题 浏览(897)

?

5月26日,由百度与中国计算机学会中国信息技术委员会和中国信息社会中国工作委员会联合举办的“2019自然语言处理前沿论坛”正式召开。这个论坛的主题是“阅读,写作,口语,翻译机器”探索NLP的未来“。论坛重点关注语义计算,自动问答,语言生成,人机对话和机器翻译五大主题。它与来自学术界和工业界的年轻专家和学者讨论了NLP领域的最新技术进步,工业应用和发展趋势。

img_pic_1559119698_0.jpg

语义计算

在语义计算方面,学者和专家分享了词向量,稀疏深度学习和表征学习的方向。

哈尔滨工业大学计算机科学与技术学院教授车万祥就“从'静'到'动态'词向量”发表演讲。单词向量的引入打开了应用于自然语言处理的深度学习时代。与静态单词向量相比,动态单词向量可以更好地根据上下文处理单词的多义性,大大提高了自然语言处理多个任务的准确性。车万祥介绍了基于动态词向量的研究小组的研究工作,包括跨语言动态词向量[1],假镜头学习和轻量级动态词向量模型。关于未来的研究方向,车万祥认为,可以探索更多的“伪数据”训练词矢量模型,同时进一步降低模型的复杂性,提高模型的速度。

北京大学信息科学与技术学院研究员,副教授孙燕做了题为“近期自然语言处理稀疏深度学习研究”的演讲。孙伟说,目前的深度学习主要是深度学习,这需要更新所有能量密集的神经元。孙伟专注于稀疏深度学习NLP,并提出了一种简单有效的算法meProp [2]来简化神经网络的训练和训练。在逆传递算法中,找到梯度中最重要的信息,并且仅使用完整梯度的一小部分来更新模型参数。实验表明,多项任务的稀疏程度约为5%可以取得良好的效果。此外,提出了一种带存储器的meProp,它具有更好的稳定性和更好的反向传输。在进一步的自然语言处理任务中,模型可以裁剪为原始的1/10 [3],而效果基本保持不变。

复旦大学计算机科学与技术学院副教授邱锡鹏主要介绍了NLP学习的进展情况。完全连接的自我关注模型在自然语言处理领域已经广泛成功。在模型层面,他分析和对比了CNN,RNN和变压器的基本原理,优缺点。它还介绍了如何设计模型以更好地融合本地和非本地语义矩阵关系。邱锡鹏介绍了该研究小组提出的最新的星变换器模型[4]。通过引入中间节点,模型的复杂性大大降低。在学习层面,预训练模型和知识增强(例如ELMo,BERT,GPT,ERNIE等)改进了模型的泛化,并在自然语言任务上实现了更好的性能。邱锡鹏认为,未来我们可以进一步探索如何更好地整合先前知识,构建更灵活,更兼容的预培训框架。

NLY的研发总监兼语义计算技术负责人白宇介绍了百度语义计算技术的发展和研发现状,并分享了该技术在百度产品中的应用。据报道,百度语义计算侧重于如何使用计算机来表示,分析和计算人类语言的语义,使机器具有理解语义的能力。已经开发了许多领先的语义技术,包括语义表示ERNIE [5],语义匹配SimNet,语义解析和多模态语义计算。在语义匹配方面,百度提出了一种基于增强学习的语义匹配框架,有效地解决了长文本匹配问题。在语义表示方面,今年3月,提出了知识增强语义表示模型ERNIE,并发布了基于PaddlePaddle的开源代码和模型[6]。与BERT学习原始语言信号相比,ERNIE直接对先前的语义知识单元进行建模,增强了模型的语义表示,在许多中文自然语言处理任务中取得了最好的效果。

自动问答

刘康,中国科学院自动化研究所模式识别国家重点实验室副研究员,结合近年来研究团队的工作[7] [8],介绍了文本阅读的研究进展和挑战理解。刘康首先介绍了阅读理解的主要任务,基本原理和数据集。在研究进展方面,介绍了基于深度学习的阅读理解模型框架,注意机制,基于情境的编码模型和预训练模型。同时,他强调阅读理解面临一系列挑战,如数据集的合理构建,如何改进模型推理,以及如何更好地利用外部知识。在未来的工作方面,刘康认为阅读理解已经过了数据驱动模型的阶段,现在学术界已经开始逐步研究如何利用知识地图来提高机器阅读理解的效果。在未来,如何更好地表达和应用知识是非常值得研究的,并且还有很长的路要走。

百度NLP高级研发工程师,阅读理解和问答技术负责人刘炜介绍了百度机阅读理解技术。百度的研究内容主要包括多文档阅读理解模型V-NET [9],以及知识表示和文本表示融合模型KT-NET [10]。其中,V-NET模型在MSMARCO数据集上获得了前三次。 KT-NET目前是ReCoRD常识推理阅读理解数据集列表中的头号模型。除了持续的技术投资外,百度去年还为搜索场景发布了阅读理解数据集DuReader 2.0 [11]。数据大小包括300,000个问题,150万个文档和660,000个手动标记的答案。百度,中国计算机学会和中国信息学会连续两年对基于DuReader数据集的机器阅读理解进行了回顾,推动了中文阅读理解技术的进步。

语言生成

自然语言生成技术研究如何用人类等自然语言表达和创建机器。机器表达和书写能力是衡量机器智能水平的重要标准,但也具有广阔的应用前景。

北京大学计算机科学与技术学院教授万晓军总结了自然语言生成技术的研究现状,介绍了可控自然语言生成和跨模式语言生成的研究进展。万晓军分享了自然语言生成的发展趋势,包括控制语言生成[12],文本保真度[13],问题生成,具有特定属性的文本生成,以及跨模式生成[14]等。多模态诗歌系统也显示。万晓军还指出,自然语言生成目前面临两大挑战,第一是自动准确地生成文本质量评估,其次是基于少量并行数据的语言生成。如果这两个主要问题得到解决,将极大地促进自然语言生成技术的发展。

白鑫NLP主任研发架构师,章节理解和语言生成技术领导者肖新燕主要分享百度在自然语言生成方面的技术进步,以及技术如何帮助媒体创造智能。据报道,百度开发了一种基于宏观规划,微观规划和表层实现的文本生成算法。同时,它提出了基于规划,信息选择和层次结构的各种创新神经网络生成算法,包括数据到文本生成,抽象生成和诗歌生成。 [15]等任务取得了良好的效果。目前,百度已将语言生成技术应用于百佳的内容创作和语音播报。值得一提的是,百度还推出了智能写作平台[16],通过提供自动书写和协助写作技巧,提高内容创作的效率和质量,为智能创作领域提供了更多的可能性。

人机对话

人机语音交互是一种发展趋势,对话将成为未来人与智能设备互动的主流形式。 “人机对话”的主题探讨了对话的研究进展和应用。

清华大学计算机科学系副教授黄敏烈发表了题为“强对话,弱语义和对话系统未来趋势”的主题演讲。他说,大多数经典对话系统都使用强大的语义方法,如Frame,slot-filling等;现代神经网络方法开发了弱语义方法,完全基于数据驱动和概率统计。前者在实际应用中表现良好,而后者具有严重的可控性问题。结合研究组的工作,它介绍了开放领域对话系统面临的挑战[17],更好地整合知识[18]等。黄敏烈说,目前寻求强语义和弱语义方法之间的联合点,希望将数据驱动的模型和知识结合起来。

百度NLP研发总监兼UNIT技术负责人孙伟结合智能对话技术产业的应用,探讨了产品架构,关键技术和现有问题的思考。围绕百度最近发布的智能对话系统培训和服务平台UNIT3.0 [19],孙伟介绍了三种对话系统,这些系统在业界比较成熟,如任务类型,问答类型和八卦类型。此外,为了适应全面而丰富的NLP任务,更方便更多开发人员灵活地插入和尝试多种网络结构,让应用程序以最快的速度达到工业级别。百度还开源了基于PaddlePaddle的工业级中文NLP工具和预训练模型。设置PaddleNLP [20]。

机器翻译

机器翻译研究如何使用计算机自动化人类语言之间的翻译。基于深度学习的机器学习方法直接使用神经网络实现语言之间的自动翻译。它取代了传统的统计机器翻译,已成为学术界和工业界的一种新的主流方法。

清华大学计算机系副教授刘洋介绍了神经网络机器翻译的基本原理,重要挑战和最新研究进展。近年来,随着深度学习技术的发展,机器翻译质量迈出了新的一步。然而,神经网络翻译模型仍然面临着一系列重要挑战。例如,现有模型基于双语平行语料库,缺乏先验知识的融合;神经网络模型就像一个黑盒子,缺乏可解释性,难以调试。并分析;该模型对训练数据敏感且不太稳健。针对上述挑战,刘洋结合研究小组的工作,介绍了他们在知识驱动[21],可视化和可解释性[22]以及鲁棒神经网络机器翻译[23]方面的最新发展。谈到未来的工作,刘洋认为,基于规则的翻译模型需要设计规则,统计机器翻译需要设计特征,神经网络机器翻译需要设计架构,以及机器能否在未来自动设计神经网络架构是非常有价值的研究。方向。

近年来,机器同步传输已成为人工智能领域的前沿研究方向。百度人工智能技术委员会主席何中军详细介绍了机器同声传译面临的主要技术挑战,并结合百度机器同声传译技术创新系列,介绍了这一方向的前沿进展。值得一提的是,何中军的观众报告采用了百度翻译开发的最新人工智能同声传译程序,用于端到端的语音翻译。只有手机扫描会议二维码,才能实时听到翻译后的语音。新产品集成了百度最新的机器同步传输技术,如噪声容限,自动分段,可控延迟[24],文本翻译[25],端到端翻译[26]等。针对当前的挑战,何中军还指出了机器同声传译的三个未来发展方向:模型,研究和开发更强大的同步传输模型;数据,构建大规模,高质量的同步数据;评估,研究和建立面向同步评估系统和评估标准。

这个学术界和工业界带来的深入交流会产生大量的干货,这将使参与者充实。自然语言处理是人工智能之冠的宝石。当学术界和产业界更密切地交流合作,了解自然语言,掌握知识越来越深入时,他们将共同推动人工智能的更大价值。

[1]江国,万祥祥,大卫雅罗斯基,王海峰,刘挺。基于分布式表示的跨语言依赖解析。在计算语言学协会(ACL)第53届年会论文集中。 2015.07。中国北京

[2]徐旭,任宣成,马淑明,王厚峰。 meProp:加速深度学习的简化反向传播,减少过度拟合。在第34届国际机器学习会议论文集中。 2015年。澳大利亚悉尼

[3]徐旭,任宣成,马淑明,魏秉贞,李伟,徐晶晶,王厚峰,张毅。深度学习的训练简化和模型简化:最小努力反向传播方法。 IEEE知识与数据工程学报(TKDE)2019

[4]郭启鹏,邱培鹏,刘鹏飞,邵云帆,薛向阳,张铮。 STAR-变压器。

[5]孙宇,王硕桓,李玉坤,冯世坤,陈旭怡,张晗,辛田,朱丹香,郝天,吴华。 ERNIE:通过知识集成增强表示。

[6

[7] Shizhu He,Kang Liu和Weiting An,学习如何在经常性指针网络的客户服务对话中调整问题和回答话语,在AAAI 2019年会议记录,美国夏威夷檀香山,1月27日 - 2月

[8] Cao Liu,Shizhu He,Kang Liu和Jun Zhao,自然答案生成课程学习,载于IJCAI-ECAI 2018,瑞典斯德哥尔摩,7月13日至19日。

[9]王一中,刘凯,刘静,魏鹤,吕雅娟,吴华,李素建,王海峰。具有跨通道答案验证的多通道机器阅读理解。在ACL-2018中。

[10] An Yang,Quan Wang,Jing Liu,KAI LIU,Yajuan Lyu,Hua Wu,Qiaoqiao She,Sujian Li,加强预先训练的语言表达,具有丰富的机器阅读理解知识。 ACL-2019

[11

[12]余志伟,谭继伟,肖小军。 Pun生成的神经方法。在计算语言学协会第56届年会论文集中。 2018.澳大利亚墨尔本。

[13] Liunian Li和Xiaojun Wan。正确地指向:使用延迟复制机制确保生成文本中的数据精度。 COLING-2018。

[14]刘立新,万晓军,郭宗明。 Images2Poem:从图像流中生成中国诗歌.2018。在ACM多媒体会议上。

[15]王哲,魏伟,吴华,吴海洋,李伟,王海凤,陈恩宏。 2016.中国诗歌生成与基于规划的神经网络。在COLING 2016

[16

[17]黄敏烈,朱晓燕,高剑峰。 “构建智能开放域对话系统的挑战。” arXiv preprint arXiv: 1905.(2019)。

[18]周浩,汤姆杨,黄敏烈,赵海洲,徐景芳,朱晓燕。具有图注意的常识知识对话生成。 IJCAI-ECAI 2018

[19

[20

[21]张嘉诚,杨柳,栾焕波,徐景芳,孙茂松。 2017.使用后验正则的神经机器翻译的先验知识集成。在2017年加拿大温哥华举行的ACL 2017年会议录

[22]丁艳卓,杨柳,栾焕波,孙茂松。 2017.可视化和理解神经机器翻译。在2017年加拿大温哥华举行的ACL 2017年会议记录中。

[23]雍成,涂兆鹏,孟凡东,翟俊杰,杨柳。 2018.迈向鲁棒神经机器翻译。在Proceedings of ACL 2018,第1756-1766页,澳大利亚墨尔本,7月15日至20日

[24]马明波,梁亮,郝雄,刘凯波,张传强,何忠军,刘海荣,李兴,王海峰。 STACL:集成预期的同时转换。 ACL-2019

[25]郝雄,何俊君,吴华,王海峰。语篇神经机器翻译的连贯性建模。 AAAI-2019。

[26]刘雨辰,郝雄,何中军,张嘉君,吴华,王海峰,宋成清。知识蒸馏的端到端语音翻译。