深度学习篇---强化学习

张开发
2026/4/11 12:09:36 15 分钟阅读

分享文章

深度学习篇---强化学习
强化学习是机器学习领域里最接近“生物试错学习”的一种范式。它不像监督学习那样直接告诉你“这道题的标准答案是B”而是把你扔进一个迷宫只在你走出迷宫时说一句“做得不错”让你自己复盘是怎么走对的。下面我从核心数学逻辑、探索与利用的永恒矛盾以及最前沿的范式突破三个维度来深入展开。一、强化的数学灵魂马尔可夫决策过程与贝尔曼方程强化学习的本质是在求解一个序列决策的最优化问题。环境世界迷宫、股市、围棋盘被抽象为状态S。动作你能做的操作 A。奖惩世界给你的反馈 R。关键的是奖惩是延迟的。你把棋子放在这里当下不得分五步之后将死对方才得分。核心递推公式贝尔曼方程左边在状态 s 做动作 a 的总价值。右边这次得到的糖果 r 打折后的未来最大糖果 γ。γ折扣因子如果 γ0就是急功近利只看眼前如果 γ0.99就是放长线钓大鱼。二、技术演进的三次浪潮1. 表格时代Q-Learning 与 SARSA早期迷宫游戏里智能体会画一张巨大的表格行是位置列是动作格子里填预估分数。痛点世界稍微复杂一点比如围棋状态数比宇宙原子数还多表格直接爆炸。2. 深度强化学习的原子弹Deep Q-NetworkDeepMind 的里程碑工作。不再用表格记录分数而是用深度神经网络去“想象”Q 表里缺失的格子。核心发明经验回放把经历过的“状态-动作-奖励”像存录像一样存起来训练时随机抽一盘录像出来看。打破了数据之间的时序相关性让神经网络能收敛。目标网络冻结因为你在追一个移动的靶子靶子固定一下才能瞄准。3. 双雄争霸基于价值 vs 基于策略Value-Based价值派如 DQN算分派。对每个动作打个分选分最高的做。缺点面对连续动作比如方向盘转 31.75 度直接懵了无穷多个分没法算。Policy-Based策略派如 Policy Gradient直接派。输入状态神经网络直接输出动作的概率分布。不需要打分直接抬手就做。4. 当代主宰Actor-Critic 架构这是目前最强的方法也是 ChatGPT 背后 RLHF 技术的基石。Actor演员策略网络。负责做动作。看着Critic的眼色行事。Critic评论家价值网络。负责评估刚才那个动作做得好不好。结果既解决了连续动作问题又解决了价值评估的高方差问题。PPO 算法就是这个流派的集大成者。三、强化学习独有的痛苦与解药痛点描述经典解法稀疏奖励玩《蒙特祖玛的复仇》玩了半天分是0AI根本不知道自己是否在变好。好奇心驱动 / 内在激励奖励不仅是游戏得分还包括“预测下一帧画面的误差”。AI看到没见过的新场景就高兴像人类一样有探索欲。探索与利用困境到底是去那家吃过的老店利用还是去新开的网红店探索万一新店巨难吃ϵ-贪心大多数时候去老店保留极小概率扔骰子去新店。Sim-to-Real Gap在模拟器里练出来的机械狗会跑放到真冰面上直接滑倒。因为仿真器无法完美复刻真实物理摩擦。域随机化训练时故意把模拟器的摩擦力、重力、延迟调得乱七八糟逼AI学会适应这个疯狂的世界。四、超越游戏的现实战场RLHF 如何塑造 GPT这是强化学习在 2025 年讨论度最高的应用场景逻辑链如下冷启动人类先写一些“标准答案”比如怎么礼貌拒绝提问。训练奖励模型拿两个 AI 的回答给人类看人类选出一个更好的。反复选几千次训练出一个能模仿人类品味的打分器。PPO 微调让 ChatGPT 生成回答给打分器看打分器给高分ChatGPT 就强化这个生成路径打分器给低分ChatGPT 就抑制这个路径。本质在这个过程里打分器就是环境生成的词就是动作高分就是奖励。AI 在人类喜好的迷宫里靠 PPO 算法找到了那条最会说话的路。五、强化学习总结框图下面这张图概括了从数据产生到模型更新的核心环路。图中需要注意的两个关键点交互闭环Agent 的当前动作会永久改变未来的 State比如吃掉豆子后迷宫布局变了这是强化学习与监督学习最本质的区别。离轨训练经验池的存在让强化学习可以从历史的、别人的数据中学习离线强化学习而不仅仅依赖于当下的试错。

更多文章