• 万万没想到,未得图灵奖的LSTM之父Jürgen,30年前做了这么多DL前沿研究

    选自IDSIA作者:Jürgen Schmidhuber机器之心编译当今深度学习的很多概念,都是 30 年前 LSTM 之父 Jürgen 玩过的?今年 3 月份,ACM 2018 图灵奖得主公布,深度学习三巨头 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 三人共享此殊荣。此次 ACM 大奖的颁布,让人感叹「实至名归」的同时,也让人不禁想起 LSTM 之父 Jürgen Schmidhuber,他是否也应获得此荣誉?2020 年即将到来,这些技术发表也将近 30 年,Jürgen 发表了这篇文章,详细介绍了当时团队所完成的工作。
  • 世界欠他一个图灵奖! LSTM之父的深度学习“奇迹之年”

    近日LSTM之父发表了一篇长文,详细论述了近 30 年前他和团队进行的许多研究。他们的早期思想为当今的许多深度学习前沿研究奠定了基础,包括 LSTM、元学习、注意力机制和强化学习等。Jürgen 称这一年为 “奇迹之年”。他是被图灵奖遗忘的大神。Jürgen Schmidhuber 是瑞士 Dalle Molle 人工智能研究所的联合主任,他 1997 年提出的 LSTM 现在被广泛应用在谷歌翻译、苹果 Siri、亚马逊 Alex 等应用中,可谓是深度学习领域最商业化的技术之一。我想克服这个缺点,实现基于 RNN 的 “通用深度学习”。
  • 站在AI与神经科学交叉点上的强化学习

    在这个级别的强化学习,就是通过奖励,强化正确的行为。而强化学习可以更主动的试错。二 强化学习与神经科学的交叉历史:1, 强化学习的心理学背景:强化学习之父sutton & button 有着极强的心理学和计算机交叉背景, 而强化学习的思想根源, 与早期的条件反射理论有很深的渊源。这两种方法构成强化学习的两大基本方法。而其中的关键, 在于神经网络的表达能力, 为强化学习解决了一个特别重大的问题, 就是值函数和策略梯度的表达。强化学习在生物神经系统的实现如果人或动物真的在进行类似刚刚归纳的强化学习, 那么它必然有其依赖实现的神经基础。
  • 强化学习框架 Ray 在 K8s 上的自动伸缩设计与实现

    日前,Ray 合并了在 Kubernetes 上实现 Ray 集群自动伸缩的代码请求,因此我希望在本文中介绍这一新特性,以及上游社区采取的设计方案和其中的考量。02Ray 架构在介绍 Ray 如何在 Kubernetes 上实现自动伸缩之前,这里我先大致介绍一下如何使用 Ray:Ray 本身其实并没有实现强化学习的算法,它是一个基于 Actor 模型实现的并行计算库。原本 Plasma 是 Ray 下的,目前已经是 Apache Arrow 的一部分。这也是 Ray 跟 Spark 最大的不同。Spark 提交的是静态的 DAG,而 Ray 提交的是函数。Autoscaler 是 Ray 实现的一个与 Kubernetes HPA 类似的特性,它可以根据集群的负载情况,自动调整集群的规模。Ray 之前只支持在 Kubernetes 上运行集群,而不支持自动扩缩容。
  • 蚂蚁金服有哪些金融特色的机器学习技术?

    在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,人工智能大咖宋乐教授分享了金融特色机器学习在蚂蚁金服的发展与应用。宋乐教授是蚂蚁金服人工智能部研究员,同时也是美国乔治亚理工大学终身副教授和机器学习中心副主任。会议现场,宋乐教授详细介绍了金融特色的机器学习,重点阐述了三方面的技术:面向海量图数据的深度学习系统、自动机器学习系统、多智体对抗强化学习系统。各种业务场景的机器学习模型,都可以通过这个平台进行优化,提升效率。甚至跨BU的一些业务场景也基于迁移学习来加速机器学习建模的过程。
  • 清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

    2016年3月,人工智能界发生一件里程碑事件——AlphaGo 战胜李世石,其核心技术的深度强化学习引起开发者的关注和研究。有一位清华博士,肖智清,为了帮助开发者更好地学习AI,紧跟技术潮流,撰写配套TensorFlow 2代码的强化学习教程书《强化学习:原理与Python实现》。肖智清戏称:做一个不负责任的预计,强化元学习至少还有100篇顶会文章可以发。肖智清表示,最重要的一点是用好搜索引擎。在绝大多数的情况下,最终形成的MWE不会超过20行。在2019年,强化元学习已经成为研究新热点,TensorFlow 2已经成为风头正劲的工具。Google的AlphaGo激发了很多人学习强化学习的兴趣。
  • 豆瓣评分 9.0 以上! 这 50 本 AI 畅销书包邮送到你手上

    今天给大家送上 50 本好书!全部参与,中奖概率变10 倍。开奖后一天之内没有联系我的话,视为放弃资格。第一部分了解强化学习应用,了解强化学习基本知识,搭建强化学习测试环境。第三部分介绍强化学习综合应用案例。本书得到了IEEE Fellow/ACM杰出科学家/香港科技大学教授杨强教授、腾讯AI Lab副主任俞栋、美国佛罗里达大学教授李晓林等8位来自企业界、学术界和媒体界的资深专家的一致好评。
  • 文末开奖 | 深度强化学习专栏(七):深度强化学习算法

    AI学习路线之TensorFlow篇作者 | 小猴锅编辑 | 奇予纪出品 | 磐创AI团队出品:本篇文章是深度强化学习专栏的第三篇,讲了第四节无模型的强化学习方法,希望对大家有所帮助。查看上篇关于本专栏的介绍:深度强化学习专栏开篇。而深度学习算法擅于处理高维的数据,两者结合之后的深度强化学习算法在很多任务中取得了非常不错的效果。▼往期精彩回顾▼深度强化学习专栏(三)深度强化学习专栏(一)深度强化学习专栏开篇长按扫码,关注我们你与世界只差一个磐创AI嗨,你还在看吗?
  • 102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

    [ 导读 ]在DeepMing任职的Nando de Freitas在KHIPU 2019上做了关于强化学习的教程,102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用。在KHIPU 2019上,在DeepMing任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。Nando de Freitas 简介Nando出生在津巴布韦,曾是莫坎比克战争的难民,患有疟疾。2017年,他以首席科学家的身份加入了DeepMind的全职工作,帮助解决智能问题的愿景,让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员,并获得了一些学术奖项。
  • 独家 | 浅谈强化学习原理(附代码&链接)

    本文介绍了强化学习的基本原理,并通过代码实例来讲解如何找到最优策略。Google在2017年年底发布了AlphaZero,这个零基础的AI系统能够在4小时内自学并掌握国际象棋、围棋和将棋。Andriy Popov / Alamy Stock 照片最近,OpenAI 展示了强化学习不是一个仅限于虚拟任务的工具。我们之前的文章介绍了强化学习的基础概念。智能体能够执行行动1, 2, …上面的方程被称为确定的Bellman方程。在一个 4×4的冰湖环境下,值迭代算法会在16个状态下进行循环并采取4个可能的行动来探索给定行动的收益。
  • 字节跳动李航入选ACL Fellow,他曾这样看待机器学习

    整理 | 夕颜出品|AI科技大本营11 月 25 日,ACL Fellow官网公布了 2019 ACL Fellow 5 位入选名单,其中来自中国的字节跳动人工智能实验室总监李航入选,成为 ACL 第五位华人 Fellow。据 ACL 官网信息,ACL 会士评选委员会对李航博士的评语为: 他对信息检索,特别是排序学习做出了基础性贡献,在深度学习和对话生成方面做出了突出贡献,并且促进了中国自然语言处理的发展和商业化值得注意的是,今年与李航一起入选的其他 5 位 ACL Fellow 还包括:Barbara Grosz:哈佛大学工程与应用科学学院自然科学家希金斯教授,曾于 2017 年在 ACL 获得终身成就奖。2012 年当选为 ACL Fellow。
  • 强化学习在小桔车服用户运营中的实践

    本次分享的主题为强化学习在小桔车服用户运营中的实践。针对这些痛点,小桔车服采用强化学习方法对用户和平台之间的交互过程进行建模,并且在消息提醒阶段,使用 graph embedding 方法根据用户的兴趣进行个性化的消息提醒,真正的做到精准触达。针对车服用户运营的问题,首先两个实体中 Agent 是车服平台,Environment 是用户,或者其他上下文。
  • 强化学习 DQN 初探之2048

    因为查阅资料的时候,看到很多人在尝试 DQN on 2048 的时候遇到了不少问题,所以和大家进行下分享。发现 DQN 结果比最优值总是差点,这就说明网络和学习策略确实有点问题,但同时侧面又反映了,2x2的时候能很接近最优策略,4x4差的比较远,那么很大部分问题可能来自参数化和探索方面。loss 图5. DDQN/DQN2015一般讲 DQN 的三个优化:DDQN/Prioritized Experience Replay/dueling-DQNDDQN/DQN2015 的两个方案在2048的案例中都没有啥效果,过估计仍然很严重。
  • AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

    最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α。在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。AI 的进化过程AI 玩转「吃鸡」类游戏难在哪儿?为了与人类一致,研究人员对 AI 也进行了相应限制。
  • AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

    最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α。在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。AI 的进化过程AI 玩转「吃鸡」类游戏难在哪儿?为了与人类一致,研究人员对 AI 也进行了相应限制。
  • 被追捧为“圣杯”的深度强化学习已走进死胡同

    现在,在一片追捧声中,终于有人开始质疑深度强化学习的真实作用。几年来,研究人员一直在进行深度强化学习研究,并不断取得进步。到目前为止,我仍然没有看到深度强化学习成功应用到生产系统中的案例。深度强化学习模型进行各种意外动作的报告不计其数。从更传统的机器学习方法转向深度学习的最大好处是,解放了人力劳动工程。我认为,如果有足够的时间、金钱和计算力,每个人都能暴力破解每个动作,深度强化学习几乎可以击败任何游戏。
  • 从时间序列表示到层级化的强化学习

    要知道时间序列是比图像更普遍的一种数据类型。这篇文章从神经科学的角度从五个层次解析了时间序列的表示问题。对树结构的解析模式:从词语到短语到句子的语法树结构,这是对时间序列的最高级表示到最后一个级别, 我们可以看到这已经不再是机械的时间序列处理, 而几乎是自然语言处理了。勃艮第牛肉的制作过程为例看层级化的强化学习。我们可以看到, 此处对动作时间序列的处理, 刚刚所说的一般时间序列表示,本质是一样的,都是通过先打包,再整和包和包之间的语法规则,得到动作的层级结构。如果神经网络可以对时间序列实现如上表示。
  • 从神经网络和强化学习的角度来看人类的决策系统

    如果有一个理论框架可以从神经科学的角度说清楚人类是怎么决策的,它该是什么样的?有没有从神经科学角度阐述这个过程的作品?从这个角度看,系统一是能够快速响应的本能决策系统,对应强化学习的无模型学习, 而系统二是能够精细的计算,计划和想象的决策系统, 对应有模型的强化学习。这些模型体现了强化学习算法是如何指点人类认识自身决策系统的。不同的表示构成一个模块化的系统, Proposer就是这种模块化的系统。
公告

欢迎访问 码农俱乐部  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部