您好、欢迎来到现金彩票网!
当前位置:刘伯温四肖中特料 > 推理模型 >

百度更懂中文!NLP中文预训练ERNIE模型全面超越谷歌BERT

发布时间:2019-07-21 23:19 来源:未知 编辑:admin

  NLP(自然语言处理)被誉为人工智能“皇冠上的明珠”,其发展备受学术和产业界关注,而今NLP领域再次迎来重大突破!2019年3月,百度提出知识增强的语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),并发布了基于PaddlePaddle的开源代码与模型。ERNIE模型在中文NLP任务上表现非凡,百度在多个公开的中文数据集上进行了效果验证,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上,超越了谷歌的语义表示模型BERT的效果。

  近年来,基于海量无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 基准任务的效果。早期的工作聚焦于上下文无关的词向量建模,而之后提出的Cove,ELMo,GPT等模型,构建了语句级的语义表示迁移模型。谷歌在去年10月提出BERT模型,当时媒体盛赞“最强 NLP 模型”、“NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!”。

  不难发现,无论是稍早提出的Cove、Elmo、GPT, 还是能力更强的BERT模型,其建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。

  设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个NLP任务效果。因此百度提出了基于知识增强的ERNIE模型。ERNIE模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,百度ERNIE模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

  在 BERT 模型中,通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习『哈尔滨』本身的任何知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

  为验证ERNIE的知识学习能力,百度利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉,让模型推理其答案。

  ERNIE 模型在多个公开中文数据集上进行了效果验证,与 BERT 模型相比,在自然语言推断 XNLI 任务测试集准确率提升 1.2PP,语义相似度 LCQMC 任务测试集准确率提升 0.4PP,命名实体识别 MSRA-NER 任务测试集 F1 提升 1.2PP,情感分析 ChnSentiCorp 任务测试集准确率提升 1.1PP,问答匹配 NLPCC-DBQA 任务测试集 MRR 提升 0.5PP。详细实验数据见 ERNIE开源项目(点击即可查看)。

  随着大数据和基于神经网络的深度学习的发展,NLP 发展进入到新阶段,成为巨头们抢滩的重要战场。百度在自然语言处理领域有着深厚积累,以“理解语言,拥有智能,改变世界”为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户。

  未来,百度将以不断精进的 NLP 技术让机器更好地理解真实世界,在认知能力层面取得更大突破,让复杂的世界更简单!

http://mojdzwonek.com/tuilimoxing/406.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有