您好、欢迎来到现金彩票网!
当前位置:刘伯温四肖中特料 > 推理网络 >

Deepmind 科学家赋予神经网络人类般的逻辑推理力【算力全球瞭望

发布时间:2019-06-12 05:40 来源:未知 编辑:admin

  哈佛大学心理学教授 Gershman 曾说,如果我们想让人工智能的表现接近我们自己,我们需要模仿人类智慧来设计人工智能机器。在人类智慧中,关系推理是不可或缺的一部分。真正的人工智能应该和人类一样,可以理解自己以及周围智能体的心理状态,这些状态包括情绪、意图、欲望和伪装等。

  本期编译文章来自于 DeepMind 高级研究科学家 Nematzadeh 于 2018 年被自然语言处理顶级会议 EMNLP 所收录的论文,该文试图测量最近引入的神经模型能够在多大程度上推断出可能相互矛盾的意念和外界状态。文章从开创性的儿童心智实验出发,让人工智能学习人类般的关系推理能力。

  Aida Nematzadeh 是 Google 旗下人工智能研究部门 DeepMind 的高级研究科学家,曾任加州大学伯克利分校计算认知科学实验室和人工智能研究院(BAIR)的博士后研究员。

  探寻机器心智理论意味着建造机器与人期望之间缺失的交互界面。人类大脑可以通过推断他人的心理状态来与人交流互动,机器也可以在一个模拟其他介质的模型中学习预测智能体的意念状态。

  机器心智理论有很多潜在的应用方向,不仅可以提升机器在人机交互领域的决策能力,还可能是未来机器决策中的道德基石,是人工智能非常有意义的发展方向。

  心智理论(Theory of Mind,缩写为 ToM)最初在心理学上的基本含义是

  对真实、假想或想象等情形的表征,广义上是指个体有能力理解他人的心理状态,包括期望、意念和意图。

  科学家通常以意向性(intentionality)来作为心智理论的度量标准。一级意向是表现自身的想法;二级意向代表可以揣测其他个体的意向;三级意向为揣测某人对第三者的想法,例如“我觉得老师认为小明想要作弊”。

  人类等灵长类动物通常拥有一定的心智能力,善于让自己的意识来模仿其他人,但人工智能在理解自己以及周围智能体的心理状态时的表现则相差甚远。拥有类似于人类推理的能力被认为是人工智能系统成功的必要条件。

  一个需要推理且研究成熟的领域是问题应答,简单地记忆和查找信息通常不足以正确地回答问题。作为评估模型推理能力的基准,数据集 Facebook bAbi 提供了一组玩具任务,每个任务都检查一种特定类型的推理。例如, 表 1 中的场景需要使用支持事实评估的推理能力。然而,bAbi 任务对于当前模型来说已经太简单了。仅仅在发布几年后,现有的模型在 20 个任务中只有一两个失败。此外,除了两个推理任务外,该数据集所有的推理任务都只需要传递推理,并不包括评估推理意念能力的任务。

  发展心理学家设计了各种实验范式,来研究儿童能够在多大程度上推断他人的心理状态。我们利用这些实验作为设计任务的准则,来评估应答模型的推理能力。

  Sally-Anne 实验(1985)测试了儿童对他人的错误意念(与现实不符的意念) 进行推理的能力。在这个实验中,参与者观察了两个代理人 Sally 和 Anne, 以及他们的容器,一个篮子和一个盒子。在把一颗弹珠放进篮子后,Sally 离开了房间(她无法再观察这些事件)。Sally 走后,Anne 把弹珠搬到她的箱子里。最后,Sally 回到房间。实验向参与者提出以下问题:

  Sally-Anne 实验检验了人们对他人的一阶意念进行推理的能力。Perner 和Wimmer(1985)做了一组冰激凌车实验来检验儿童对高阶意念的推理能力。在实验中,玛丽和约翰一起在公园里看到一辆冰淇淋车,卖冰淇淋的人告诉他们,他会在公园里呆到下午晚些时候。玛丽离开公园回家了。她离开后不久,卖冰淇淋的人决定离开公园,并告诉约翰他要去教堂。在去教堂的路上, 他碰见了玛丽,告诉她整个下午他都要在教堂附近卖冰淇淋。然后参与者被问到以下二级问题:“约翰认为玛丽会去哪里买冰淇淋?”注意,约翰不知道玛丽已经被告知冰激凌车的新位置,他对玛丽的意念有一种二阶错误的意念。参与者还会被问到一些控制问题(例如,“玛丽知道面包车在教堂吗?”),以确保他们没有碰巧正确地回答第二个问题。

  受上述心智理论实验的启发,我们创建了一个基于三个任务的数据集,这些任务旨在捕获日益复杂的心智推理:真实、错误和二阶错误意念任务。图 2给出了每种任务类型的示例。

  在真实意念任务中,Sally 观察世界,因此她对牛奶的位置有真实的意念。在错误意念任务中,Sally 的一阶意念与现实不同(因为当形势发生变化时,她却不在。)在第二个错误意念任务中,Sally 观察牛奶的新位置,因此她对牛奶的位置有一个真实的意念。然而,Anne 对 Sally 心理状态的意念与现实并不相符,因为 Anne 不知道 Sally 已经观察到了环境的变化,因此 Anne 对Sally 的意念有一个错误的意念。这些任务比 bAbI 场景更具挑战性,因为模型需要了解代理人是否对给定的世界状态有正确或错误的意念才能成功。

  本文选择了端到端记忆网络(MemN2N)、多观察者模型、递归实体网络(EntNet)等在 bAbi 任务中表现最优的模型进行评估。以 MemN2N 为例,模型在记忆问题、真实性问题和二阶问题上通常是成功的(如图 3),这些问题的中值准确度(框中的深蓝色线。然而,考虑一阶问题(“Sally 将在哪里寻找牛奶”)以及一阶和二阶错误意念任务,该模型往往会失败(中值精确度约为 0.5)。考虑到两个错误信念任务的相似性,MemN2N 模型可能更难对同一个问题学习两个不同的答案。

  图 3:内存大小为 50 的内存网络在 ToM-easy 数据集上计算(图片来源:该篇论文 Figure 3)

  没有一个模型能够完全成功地完成一系列任务,这些任务需要跟踪不一致的意念或外界状态。任务的难度产生于过去和现在之间的差异,以及有错误信念的代理人的心理状态。另外,心智任务数据集应该被视为一个诊断工具,在类似的玩具任务上有良好表现并不足以推测模型的全部推理能力。

http://mojdzwonek.com/tuiliwangluo/183.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有