人工智能与深度学习技术博狗注册16大回顾,承包你一年的知识点

2018-01-10 03:06


- 强化学习在游戏中全面压制人类选手 -

2017年的第一件大事无疑当数AlphaGo。这套强化学习方案击败了全球最出色的围棋选手。由于拥有巨大的搜索空间,围棋一直是机器学习技术难以攻克的重要挑战所在,AlphaGo的出现则带来了巨大的惊喜!

  • AlphaGo研究论文
  • https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf

    AlphaGo的初始版本利用来自人类专家的训练数据作为指导,并通过自我推衍以及蒙特卡洛树搜索作出进一步改进。在不久之后,AlphaGo Zero在此基础之上更进一步,其能够学会如何从零开始进行围棋对弈,且无需任何人工训练数据。此外,它还轻松击败了AlphaGo的初始版本。

  • AlphaGo Zero研究论文
  • https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

    人工智能与深度学习技术16大回顾,承包你一年的知识点

    在2017年底,我们再度迎来AlphaGo Zero的全新算法AlphaZero,其不仅在围棋领域无可匹敌,同时亦快速称霸国际象棋与日本将棋。有趣的是,这些程序甚至令最具经验的职业棋手们敬佩不已,并开始从AlphaGo当中学习以调整自己的竞技风格。为了简化这种学习过程,DeepMind小组还发布了专门的AlphaGo Teach工具。

  • AlphaZero
  • https://arxiv.org/abs/1712.01815

  • AlphaGo Teach
  • https://alphagoteach.deepmind.com/

     

    人工智能与深度学习技术16大回顾,承包你一年的知识点

    不过围棋绝不是我们在机器学习领域取得显著成就的唯一领域。来自卡耐基梅隆大学的研究人员们开发出的 Libratus 系统在一场为期20天的德州扑克锦标赛当中成功击败了各位顶级选手。而在此之前,由查尔斯大学、捷克技术大学以及艾伯塔大学研究人员们开发的DeepStack系统则成为首款能够在德州扑克领域压倒人类选手的成果。需要注意的是,这两套系统都只能进行单人扑克竞赛,即一对一比赛——这类情况要比多人扑克简单得多。不过相信多方扑克支持能力将会在2018年内逐步得到实现。

  • Libratus论文:
  • 强化学习的下一个发展领域似乎将面向更为复杂的多人游戏——其中当然也包括多人扑克比赛。DeepMind小组目前正在积极研究《星际争霸2》并已经发布研究环境;OpenAI则在一对一的《Dota 2》游戏当中初步获得成功,预计将能够在不久的未来实际参与五对五正式游戏比赛。

  • 星际争霸2研究环境
  • https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment

  • Open AI Dota2
  • https://blog.openai.com/dota-2

    - 进化算法再度回归 -

    对于监督学习,基于梯度的反向传播算法已经获得了非常好的效果,而且这一点很可能在未来一段时间内继续得到保持。然而在强化学习层面,进化策略(简称ES)则似乎正在东山再起。由于数据通常不符合iid原则(即独立且分布相同),因此错误信号将更加稀疏; 而且由于需要进行探索,所以其它非基于梯度型算法往往效果更为理想。另外,进化算法将能够以线性方式扩展至数千台设备当中,从而实现极快的并行熟练工。其不需要昂贵的GPU资源,而可通过大量(通常为数百乃至数千)低成本CPU实现训练。

    2017年早些时候,来自OpenAI的研究人员们证明,进化策略可以实现与标准强化学习算法(例如Deep Q-Learning)相媲美的处理效能。而到2017年底,Uber的一个团队发布了一篇博文与一组五篇研究论文,旨在进一步展示遗传算法与新颖性检索的潜力。利用一种非常简单的遗传算法,且无需任何梯度信息,其算法即可学会如何游玩多种不同的雅达利游戏。其最终得分达到10500,相比之下DQN、AC3以及ES等方法的得分则统统低于1000分。

  • 相关论文:
  • https://eng.uber.com/deep-neuroevolution

    2018年,我们很可能看到这方面出现更多研发成果。

    - WaveNets、CNN以及关注机制 -


    上一篇:5G规范的“里程碑博狗开户 ”与高通的有所为
    下一篇:无需数学知识:快速了博狗注册解马尔可夫链蒙特卡洛方法
    扩展阅读
    问题来了,人“没”博狗
    问题来了,人“没”博狗

    固然你没几多钱,也买不起房,买不起车,更养不起娃。可是你必然思考过这样的问题:我假如不小心挂了,付出宝和微信零钱包里平时买煎饼果子省下的那一个亿可怎么办,家里人...点击了解…

    不但微信,付出宝也将提
    不但微信,付出宝也将提

    继微信3月开始收取提现手续费后,付出宝方才宣布通告暗示,因综合策划本钱上升,自2016年10月12日起,付出宝将对小我私家用户超出免费额度的提现收取0.1%的处事费,小我私家用户每人累计...点击了解…