微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 新型阿尔法狗如何通过自学3天击败李世石旧版?

新型阿尔法狗如何通过自学3天击败李世石旧版?

时间:09-20 来源:EETOP 点击:

Fan(打败了樊麾的版本)使用了176个GPU,而Master和AlphaGo Zero仅仅用了4个TPU,也就是说一台电脑足够!

由于在硬件和算法上的进步,AlphaGo变得越来越有效率。

AlphaGo Zero在72小时内就能超越AlphaGo Lee也表明,优秀的算法不仅仅能降低能耗,也能极大提高效率。另外这也说明,围棋问题的复杂度并不需要动用大规模的计算能力,那是只浪费。

AlphaGo Zero的算法有两处核心优化:将策略网络(计算下子的概率)和值网络(计算胜率)这两个神经网络结合,其实在第一篇 AlphaGo的论文中,这两种网络已经使用了类似的架构。另外,引入了深度残差网络(Deep Residual Network),比起之前的多层神经网络效果更好。

Deepmind 的历程

这不是 Deepmind第一次在《自然》上发论文,他们还在Nature上发表过《利用深度神经网络和搜索树成为围棋大师》和《使用深度强化学习达到人类游戏玩家水平》(论文链接:http://rdcu.be/wRDs)以及《使用神经网络和动态外存的混合计算模型》三篇论文,Deepmind在Nature Neuroscience上也发过多篇论文。

我们可以从中一窥 Deepmind的思路,他们寻找人类还没有理解原理的游戏,游戏比起现实世界的问题要简单很多。然后他们选择了两条路,一条道路是优化算法,另外一条道路是让机器不受人类先入为主经验的影响。

这两条路交汇的终点,是那个真正能够超越人的AI。

结语

这是AlphaGo 的终曲,也是一个全新的开始,相关技术将被用于造福人类,帮助科学家认识蛋白质折叠,制造出治疗疑难杂症的药物,开发新材料,以制造以出更好的产品。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top