强化学习的不断崛起:AI 的无声革命

3个月前 科技 17观看
摘要 一场无声的革命正在重塑人工智能,但这并不是那种夺人眼球的表象。虽然聊天机器人和图像生成器光彩夺目,但经过过去二十年在学术界不断精炼的强化学习,正为下一代 AI 突破提供动力。试想一下一个

一场无声的革命正在重塑人工智能,但这并不是那种夺人眼球的表象。虽然聊天机器人和图像生成器光彩夺目,但经过过去二十年在学术界不断精炼的强化学习,正为下一代 AI 突破提供动力。试想一下一个孩子学习骑自行车:没有使用说明书,而是通过反复试验、犯错和找到平衡的乐趣来学习。这就是强化学习,一种通过探索、调整并从反馈中学习的算法,就像在“更暖”或“更冷”的提示引导下寻找复活节彩蛋。这种方法不仅改变了机器的学习方式,更在重新定义智能的含义。8fj喜好网-记录每日喜好的科技时尚娱乐生活

老派模式:传统机器学习8fj喜好网-记录每日喜好的科技时尚娱乐生活

欲理解强化学习的崛起,首先让我们看看传统机器学习的两大支柱:8fj喜好网-记录每日喜好的科技时尚娱乐生活

监督学习: 在这种方法中,算法会接收带有标签的示例,比如成千上万张猫狗照片,然后根据这些数据进行预测或生成。它支撑了从 X 光分析到我们如今熟知的文本生成(例如 ChatGPT 利用大量文本数据从给定提示中预测句子中的下一个词)的各项应用。但这种方法成本高昂,需要海量标注数据和强大的计算能力。8fj喜好网-记录每日喜好的科技时尚娱乐生活

无监督学习: 这种方法是在没有指导的情况下寻找数据中的模式。它可能会根据旋律对歌曲进行聚类,或者依据主题对公共咨询反馈进行分组,而不受任何偏见或外部视角的影响。该方法更高效、所需数据更少,能够揭示数据中的隐藏模式,但缺乏基于外部“正确”标准做出上下文判断的能力。8fj喜好网-记录每日喜好的科技时尚娱乐生活

这两种方法在各自领域内各有千秋,并经常结合使用,但当数据匮乏或目标模糊时,它们就会显得力不从心。这正是强化学习大显身手的地方。8fj喜好网-记录每日喜好的科技时尚娱乐生活

什么是强化学习?8fj喜好网-记录每日喜好的科技时尚娱乐生活

强化学习是通过实践来进行学习,仅依靠环境中的奖励或惩罚来引导。它不拘泥于固有剧本,而是不断摸索解决方案。2015 年,《Nature》发表的一篇论文中,Google 的研究人员展示了一个通过强化学习训练的 agent 如何仅利用屏幕像素和记分板掌握 Atari 游戏。经过无数次试验,它学会了在《太空入侵者》、《Q*bert》、《疯狂攀爬者》等数十款游戏中获胜,其招式常常令玩家惊叹。一年后,同样发表在《Nature》上的研究中,Google 利用类似技术击败了世界围棋冠军,这一里程碑曾被认为还需数十年才能实现。强化学习在缺乏明确指令的环境中表现出色——它不需要海量标注数据,只需一个目标和衡量成功的方式。8fj喜好网-记录每日喜好的科技时尚娱乐生活

为什么强化学习是一个革命性突破8fj喜好网-记录每日喜好的科技时尚娱乐生活

强化学习的优势在于其高效性和创造性:8fj喜好网-记录每日喜好的科技时尚娱乐生活

精简高效: 与那些需要借助大型高性能数据中心进行训练的计算密集型监督学习不同,强化学习可以在较低的资源需求下运行。它依靠经验学习,而非依赖繁复的示例。8fj喜好网-记录每日喜好的科技时尚娱乐生活

跳出常规: 强化学习的 agent 可以自由探索,常常会偶然发现人类所忽略的解决方案。在 Atari 游戏中,AI 展现出的非常规策略预示着其在物流或药物研发等领域的巨大潜力。8fj喜好网-记录每日喜好的科技时尚娱乐生活

灵活多变: 一种环境中学到的技能可以适用于其他场景。无论是迷宫导航机器人还是游戏 AI,都能够通过极少的再训练实现环境转换。8fj喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 的重磅消息8fj喜好网-记录每日喜好的科技时尚娱乐生活

尽管 ChatGPT 的创造者 OpenAI 仍是一家私营公司,但 NVIDIA 已成为生成式 AI 热潮的公众代表。这家芯片制造商的估值在短短两年内从 2000 亿美元飙升至超过 2 万亿美元。许多人认为,如 NVIDIA 这类先进硬件是支撑 OpenAI、Meta、Google 和 Microsoft 等巨头 AI 解决方案所依赖的大型数据中心的关键。NVIDIA 与 ChatGPT 的关系曾被比作 Windows 崛起期间 Intel 与 Microsoft 之间标志性的 “Wintel” 合作关系。8fj喜好网-记录每日喜好的科技时尚娱乐生活

然而,在 2025 年 1 月,DeepSeek 推出了一个全新通过强化学习训练的大语言模型。该模型在性能上可与 ChatGPT 相抗衡,且所需计算能力显著降低。此次发布对 NVIDIA 造成了巨大的冲击,其股价大幅下跌超过 10%,市值一度蒸发超过 5000 亿美元。投资者开始意识到,先进的 AI 并不总是依赖于那种资源密集型硬件。8fj喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 的研究迅速获得关注。他们的论文 “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” 已被引用超过 500 次,成为 2025 年最受引用的强化学习研究。这项工作强调了强化学习如何在不依赖过量计算资源的前提下实现高性能。8fj喜好网-记录每日喜好的科技时尚娱乐生活

更深层次的意义8fj喜好网-记录每日喜好的科技时尚娱乐生活

强化学习的故事不仅属于技术层面,还蕴含深刻的哲学思考。它的试错过程模仿了人类的学习方式,激发出诸多重大疑问:如果机器也能采用这种学习方式,那么智能究竟如何定义?如果它们能发现我们无法察觉的模式,我们又能从中学到哪些关于世界的新知识?8fj喜好网-记录每日喜好的科技时尚娱乐生活

AI 领域的权威及教育家 Andrew Ng 在与 UNSW Sydney 的 Toby Walsh 交谈时曾提及此事。他回顾自己的 2002 年博士论文时表示,“我的博士论文研究的是强化学习……而我的团队则致力于机器人研究。”如今,他早期的赌注正逐渐获得回报。8fj喜好网-记录每日喜好的科技时尚娱乐生活

强化学习的潜力巨大:它有望带来更加高效的能源网络、更个性化的教育以及更智能的机器人。但其自主性也要求我们在训练模型时对所采用的激励机制保持谨慎和深思。一个旨在缓解交通拥堵的 agent 可能会将车辆重新引导至偏僻街道,用效率换取局部混乱。因此,透明性和伦理性将成为关键。只要妥善解决这些问题,强化学习就能引领我们走向一个不仅仅是模仿人类,而是为人类开启新发展路径的新时代。8fj喜好网-记录每日喜好的科技时尚娱乐生活

强化学习并非 AI 发展史中的一个注脚,而是一场关键性的转变。对更智能、更高效的智能系统的追求已经展开,而强化学习正引领着这一进程。8fj喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小鹏汇天“陆地航母”2024 广州车展完成全球公开载人首飞

小鹏汇天“陆地航母”2024 广州

11-19 114阅读
中国大模型要用Infra“降本增效”

中国大模型要用Infra“降本增效

今年7

11-19 95阅读
1.4万亿元,最长双11收官,五大电商平台幕后操盘手均为女高管

1.4万亿元,最长双11收官,五大电商

又一

11-19 126阅读
洋咖啡,为何卖不动了?

洋咖啡,为何卖不动了?

近日,

11-19 110阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 104阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 106阅读
李诞真名叫什么? 误打误撞踏入演艺圈!

李诞真名叫什么? 误打误撞

《吐槽大会》第四季第一集播出之

11-19 110阅读
NCT成员道英自2021年演出《玛丽・安东妮》之后睽违3年再度登上音乐剧舞台演出《笑面人》

NCT成员道英自2021年演出

NCT成员道英自2021年演出《玛

11-19 109阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 105阅读
三傻变劳拉

三傻变劳拉

跨度太大,玩家一

11-19 99阅读
大宇资讯恐怖游戏《咒》今日Steam全球同步上市

大宇资讯恐怖游戏《咒》今

恐怖游戏大厂-大宇资讯宣布,改编自台湾

11-19 129阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 123阅读
《燕云十六声》PC版不锁帧 1060可畅玩中画质

《燕云十六声》PC版不锁帧

《燕云十六声》官博发布新的文章,主要

11-19 114阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 163阅读
饥荒南瓜可以做什么?饥荒超全南瓜食谱分享

饥荒南瓜可以做什么?饥荒

南瓜是饥荒游戏里面的一种蔬菜,玩家可以

11-19 107阅读