AlphaGo技巧启示脑迷信 DeepMind结果登上Nature

 凤凰彩票     |      2020-01-27 18:36
DeepMind结果登上Nature

  赖可 乾明 十三 发自 凹非寺 

  量子位 报道 | 大众号 QbitAI

  人工智能,往往从人类思维方法中获取灵感。

  但现在反过来了!

  人工智能的提高,已经能够为揭秘大脑如何学习提供启发。

  这是来自DeepMind的最新研究,刚登上Nature,研究证明:

  分布式强化学习,也就是AlphaGo的顶级版Alpha Zero和AlphaStar当面的中心技术,为大脑中的奖赏通路如何工作提供了新说明。

  如斯论断,也让DeepMind创始人哈萨比斯无比冲动,发表推文表示:

我们在机器学习方面的研究,能够从新意识大脑的工作机制,这是十分令人高兴的!

  他当然有理由高兴。

  从久远来看,这也证实了DeepMind提出的算法与大脑运作逻辑类似,也就象征着可能更好地拓展到解决庞杂的事实世界问题上。

  而且一直以来,哈萨比斯的目的就是打造通用人工智能。

  Alpha系列背地利器:分布式强化学习

  强化学习,就是让智能体在一个未知的环境中,采用一些举动,而后播种回报,并进入下一个状态。

  而时光差分学习(temporal difference learning,TD)算法,能够说是强化学习的核心。

  它是一种学习如何依据给定状况的将来值,来预测价值的方式。

  算法会将新的预测跟预期进行比拟。

  假如发现两者不同,这个“时间差分”就会把旧的预测调剂到新的预测中,让结果变得更加正确。

  △当未来不断定时,未来的回报可以表现为一种概率分布。有些可能是好的结果(蓝绿色),有些结果可能是不好的(红色)。

  一个特定的行动所带来的未来奖励数目,通常是未知且随机。在这种情形下,尺度的TD算法学习去预测的未往返报是平均的。

  而分布式强化学习则是更复杂的预测方式,会预测所有未来奖励的概率分布。

  那人类大脑的多巴胺奖赏机制是怎么样的呢?

  然后研究的雏形就在DeepMind研究人员的脑海中生根了。

  不研究不晓得,一研究真的“吓一跳”。

  从前,人们认为多巴胺神经元的反应,应当都是一样的。

  有点像在一个诗唱班,每个人唱的都是截然不同的音符。

  但研究小组发现,单个多巴胺的神经元仿佛有所不同——所浮现的积极性是多样的。

  于是研究职员练习小鼠履行一项义务,并给予它们大小各异且不可预测的奖励。

  他们从小鼠腹侧被盖区域(Ventral tegmental area,把持多巴胺向边沿和皮质区域开释的中脑构造)中发现了“分布式强化学习”的证据。

  这些证据表明,奖励预测是同时并行地由多个未来结果表示的。

  这和分布式机器学习的原理也太像了吧?

  解释大脑多巴胺体系

  试验应用了光辨认技巧来记载小鼠大脑中腹侧被盖区中单个多巴胺神经元的反映。

  腹侧被盖区富含多巴胺与5-羟色胺神经,是两条重要的多巴胺神经通道的一局部

  基于强化学习实践,研究假设大脑存在多巴胺的奖赏预测误差(RPE)。

  一个信号会引起一个奖赏预测,当奖赏预测低于分布的均值时,会引起负的RPE,而较大的奖励会引起正的RPE。

  在个别强化学习中,取得的奖励幅度低于均匀值分布将引起消极(负)的RPE,而较大的幅度将引出踊跃(正)的RPE(如上图a左所示)。

  在分布式强化学习中,德媒:德企用心经营“双十一” 中国商业数字化势不可,每个通道都携带不同的RPE价值预测,不同通道的积极水平不同。

  这些值的预测反过来又为不同的RPE信号供给了参考点。在最后的结果上,一个单一的奖励结果可以同时激发积极(正)的RPE和消极的RPE(如上图a右所示)。

  记录结果显示,小鼠大脑的多巴胺神经元反转点根据积极程度的不同而不同。合乎分布式强化学习的特色(如上图b所示)。

  为了验证神经元反响多样性不是随机的,研究者做了进一步验证。

  将随机地将数据分成两半,并在每一半中独破地估量反转点。成果发明其中一半的反转点与另一半的反转点是相干的。

  为了进一步了神经元对奖赏预测的处置方式。研究者给神经元进行了三种不同的信号刺激。

  分辨是10%、50%、90%的奖赏概率,并同时记载了四个多巴胺神经元的反应。

  每条轨迹都是对三种线索之一的平均反应,零时是开端时间。

  结果显示,一些细胞将50%的线索编码为90%的线索,而另一些细胞同时将10%的线索编码为10%的线索。

  最后 ,研讨者还进行了验证,试图从多巴胺细胞的放电率来解码奖赏散布。

  通过进行推理,胜利地重建了一个与老鼠参加的任务中奖励的实际分配相匹配的调配。

  初步验证了小鼠的大脑分布式强化学习机制,给研究员带来了更多的思考:

是什么电路或细胞级机制导致了不对称的多样性?

不同的RPE通道是如何与相应的嘉奖猜测在解剖学上联合?

  这些大脑的谜团都有待于进一步懂得。

  而且这一研究结果也验证了之前多巴胺分布对成瘾和抑郁等精力障碍机制影响的假说。

  有理论以为,抑郁症和双相感情阻碍都可能波及对于未来的负面情绪。

  这些情感与未来的负面预测偏差有关,偏差则可能来自于RPE coding28、29中的错误称。

  但更多的意思,则是对当前机器学习技术发展的鼓励。

  DeepMind 神经科学研究负责人Matt Botvinick说:“当我们能够证明大脑应用的算法,与我们在人工智能工作中使用的算法相似时,这将加强我们的信念。”

  跨学科研究团队的成果

  这篇论文中一共有3位共同一作,也是跨学科团队的研究成果。

  排在第一位的是Will Dabney,DeepMind的高等研究科学家。

  △Will Dabney

  本科毕业于美国奥克拉荷马大学,在马萨诸塞大学阿默斯特分校失掉了博士学位。

  在加入DeepMind之前,曾在亚马逊的Echo团队工作过。

  2016年加入DeepMind。

  第二位独特一作是Zeb Kurth-Nelson,他是DeepMind的研究科学家。

  △Zeb Kurth-Nelson

  博士毕业于明尼苏达大学,2016年参加DeepMind。

  第三位共同一作是Naoshige Uchida,来自于哈佛大学,是分子和细胞生物学教学。

  △Naoshige Uchida

  此外,昆明90后小伙:我的生日礼物是双色球头奖!,DeepMind开创人哈萨比斯也在作者之列。

  他始终都盼望,可以通过人工智能的冲破也将辅助咱们控制基本的迷信问题。

  而当初的研究发现,他们致力的研究方向,居然能够给人们研究大脑带来启示,无疑动摇了他们的研究信心。

  One More Thing

  就在这篇论文登上Nature的同时,DeepMind还有另外一篇研究呈现了统一期刊上。

  它就是DeepMind在2018年12月问世的AlphaFold,一个用人工智能加速科学发现的系统。

  仅仅基于蛋白质的基因序列,就能预测蛋白质的3D结构,而且结果比以前的任何模型都要准确。

  DeepMind称,这是本人在科学发现范畴的第一个主要里程碑,在生物学的核心挑衅之一上获得了重大进展。

  截止到现在,DeepMind提出Alpha系列,从AlphaGo,到AlphaZero,再到AlphaStar,以及现在的AlphaFold,一门4子,全上了Nature。

  唉…顶级研究机构的快活,就是这么朴素无华,且单调。