强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

2019-04-02 10:57 来源:互联网

0997b6ec9bd0cf85a13f1_0.png

新智元报道

来源:incompleteideas

编辑:大明

【新智元导读】 强化学习之父Richard S. Sutton认为,过去70年来AI研究的最大教训,就是我们过于依赖人类的既有知识,轻视了智能体本身的学习能力,将本该由智能体发挥自身作用“学习和搜索”变成了人类主导“记录和灌输”。未来这种现象应该改变,也必须改变。

近日,强化学习之父、加拿大计算机科学家Richard S. Sutton在其个人网站上发文,指出了过去70年来AI研究方面的苦涩教训:我们过于依靠人类知识了。

Sutton认为,过去70年来,AI研究走过的最大弯路,就是过于重视人类既有经验和知识,研究人员在训练AI模型时,往往想将人类知识灌输给智能体,而不是让智能体自己去探索。这实际上只是个记录的过程,并未实现真正的学习。

事实证明,这种基于人类知识的所谓”以人为本“的方法,并未收到很好的效果,尤其是在可用计算力迅猛增长的大背景下,在国际象棋、围棋、计算机视觉等热门领域,智能体本身已经可以自己完成”规模化搜索和学习“,取得的效果要远好于传统方法。

Sutton由此认为,过去的教训必须总结,未来的研究中,应该让AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。

0997b6ec9bd0cf85a13f1_1.png

以下为文章原文:

在过去70年中,人工智能研究中得出的一个最大教训是,通用化的方法最终往往是最有效的,而且能够大幅提升性能。造成这个结果的最终原因是摩尔定律,或者说,是摩尔定律总结出的计算力随时间的变化趋势。

大多数人工智能研究都有个假设前提,即智能体的可用计算力是一个不变的常量,也就是说,提升性能的方法可能就只有利用人类自己的知识了。但是,如果项目周期比一般情况较长时,一定会有丰富的计算力可以投入使用。 从短期来看,研究人员可以利用自己掌握的相关领域的人类知识来换取性能提升,但从长远来看,唯一重要的还是计算力。

我们完全没有必要让这两者相互对立起来,但实际上,它们往往就是相互对立的。项目时间有限,把时间花在计算力上,就不能花在人类知识的利用上。研究人员在心理上往往会偏向某一种方式。人类知识方法往往使解决问题的方法变得复杂化,与利用利用计算力得出的通用化方法相比,适应性上不如前者。

不少AI研究人员用了很长时间才明白这个教训,所以我觉得这个问题值得单独拿出来讲一讲。

过去70年AI研究的深刻教训:靠人类知识,远不如靠智能体自己

1997年,IBM的计算机“深蓝”击败了世界冠军卡斯帕罗夫,“深蓝”的开发就是基于大规模的深度搜索。而当时,大多数计算机象棋研究人员采用的方法,都是利用人类对国际象棋特殊结构的理解。

当一个简单的、基于搜索的方法在专门的软硬件上显示出强大性能时,彼时基于人类知识的国际象棋研究人员沮丧地表示,这次“野蛮搜索“可能压倒了人类的经验和知识,取得了胜利,但这无论如何不是人们下棋的方式。这些研究人员一直希望基于“人类知识”的方法能够获胜,因为没有实现这一点,他们的失望溢于言表。

计算机围棋中也出现了类似的研究模式,不过比国际象棋迟来了20年。研究人员希望通过人类知识或棋局的独有特征,来避开大规模搜索,但所有这些努力都证明是用错了地方,而且,在搜索大规模应用之后,这种错误显得更加明显了。

同样重要的是,通过智能体的自我学习来学习价值功能。像大规模搜索一样,AI需要通过自对弈和通用学习来提升性能,实现大规模的计算应用。

温馨提示:以上内容仅为信息传播之需要,不作为投资参考,创业有风险,投资需谨慎!
转载请注明:http://cyjc.fu08.com/sq/20190402/11413.html
富临创业网首发:强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

延伸 · 阅读