Reinforcement - 搜索 News

1 天

近日，机器人领域迎来一项开创性研究成果，有望重新定义足式机器人运动策略强化学习研究范式！这项研究由浙江大学、南方科技大学团队联合国内领先通用机器人企业逐际动力完成。他们在论文《CTS: Concurrent Teacher-Student ...

腾讯网3 天

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利 ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

15 天

完全使用「自生成数据」实现LLM自我纠正，DeepMind新突破SCoRe：纠正 ...

Google DeepMind的研究人员发布了一种多轮在线强化学习（RL）方法 SCoRe，在完全使用自生成数据（entirely self-generated data）的情况下，显着提高了LLM的自我纠正能力。研究人员首先验证了有监督微调 ...

4 天

芮艾瑅韧带加强治疗方法专家共识见刊，射频抗衰技术再革新

2024年5月9日，Sinclair欣可丽美学旗下多通道射频品牌——Reaction芮艾瑅，携手皮肤科学及众多医疗美容领域专家所达成的全新中国专家治疗方案共识《EXPERT CONSENSUS ON MULTICHANNEL ...

腾讯网1 天

2024年诺贝尔物理学奖｜人工智能如何走到今天

10月8日，瑞典皇家科学院宣布，2024年度诺贝尔物理学奖授予美国科学家约翰·霍普菲尔德（John Hopfield）以及加拿大学者杰弗里·辛顿（Geoffrey Hinton），以表彰他们利用人工神经网络实现机器学习的基础性发现和发明。

22 天

OpenAI新模型o1-mini引领AI编程变革，程序员的角色迎来巨大转变

在人工智能的快速发展中，编程技术成为了各大企业竞相争夺的焦点之一。近日，OpenAI推出的新一代大模型o1-mini和o1-preview备受关注，尽管在HumanEval基准测试中的提升幅度仅为2.2%，但其背后的技术先进性和应用潜力不容小觑。这一 ...

3 天

独家专访诺奖得主DeepMind CEO哈萨比斯：我们将看到一种全新的科学复兴

许多人认为围棋是世界上最复杂的棋盘游戏，需要几年的时间才能掌握。然而，AlphaGo，一个受训练后掌握古老棋盘游戏围棋的计算机程序，与当时围棋界世界排名第二的韩国顶级职业选手李世石进行了五场比赛。

虎嗅网14 天

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

尽管第一性原理可能清晰明了，但未知的因素太多。正如《思考，快与慢》的作者丹尼尔·卡尼曼所言，很多时候，我们愿意去尝试那些我们不知道的事情，正是因为我们不知道自己还有很多不知道的东西，这种无知赋予了我们勇气。当你开始尝试时，你会发现许多新问题，而这也许 ...

29 天

OpenAI新一代o1模型发布：强化学习推动AI推理新纪元

2024年9月13日，OpenAI正式推出其最新的AI大模型——OpenAIo1（简称“o1”），这个命名不仅象征着新一轮的开始，更代表着人工智能能力的飞跃。根据OpenAI的介绍，o1在复杂推理任务中取得了显著突破，这一系列模型的推出标志着AI推理能力的新高度，尤其是通过强化学习（Reinforcement Learning）实现的技术进步。

12 天

北大陈宝权教授：从图形计算到世界模型

近日，北京大学陈宝权教授在第九届计算机图形学与混合现实研讨会（GAMES 2024）上，发表了题为《从图形计算到世界模型》的主旨报告，分享了他从图形仿真角度对世界模型的思考。本文是对陈教授报告的完整整理，以供大家学习。

2 天

Demis Hassabis、AlphaGo与DeepMind

哈萨比斯在剑桥学习时就与同学David Silver一起创办了一家名为Elixir Studio的游戏公司，但两人都认为开发游戏的技术含量太低了，后来两人都选择回到学校攻读博士去了。David Silver到阿尔伯塔大学（University of ...

12 天

原创 Layout工程师危矣？谷歌推出芯片自动设计工具：联发科已采用！

虽然近年来各大EDA公司都在积极的将AI引入到自己的芯片设计工具当中。但是早在2020年，谷歌就发布了题为《Chip Placement with Deep Reinforcement ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果