三堵墙逼出来的智慧——V3障碍与感知

张开发
2026/4/17 2:00:27 15 分钟阅读

分享文章

三堵墙逼出来的智慧——V3障碍与感知
「当AI学会发脾气」—— 一个类脑认知系统的诞生记7个版本迭代Python脚本教会AI像人一样焦虑、兴奋、犯错和成长全系列文章从零开始给AI装一个最简单的大脑让AI看见世界——可视化的力量当AI遇到墙——障碍物与路径规划 给AI装上近视眼镜——有限感知的魔力本篇AI的第一堂强化学习课——奖励与惩罚给AI一个完整的大脑——多模块协同大脑进化当AI学会用LLM思考终章一个会发脾气的AI是如何炼成的核心比喻想象你被迫戴上了一副近视眼镜只能看清面前2米的东西——远处的一切都隐没在浓雾中。你必须一边走一边摸索在脑中慢慢拼出整个世界的地图。这就是今天我们要给AI做的事情。⏱️阅读时间约20分钟学习目标理解为什么看不清反而让AI更聪明掌握心智地图Mental Map的概念和实现理解Epsilon-Greedy策略的探索vs利用难题见识AI的第一个认知偏差——目标固着 文章摘要上一篇里我们的AI是个开了上帝视角的超人——它能看到整张地图的每一个角落精准地BFS找出最短路径26步到达终点完美得不像话。但问题来了你见过哪个人能看到整个迷宫的全貌试想想你第一次去一个陌生的商场。你能一眼看到所有店铺的分布吗你能立刻找到最短的路径到达你想去的店吗你能知道哪个电梯最快吗不能。你只能看到眼前这一小片区域。其他的得走过去才知道。再想想人类的大脑。神经科学告诉我们我们的视觉系统实际上只能同时清晰处理很小一片区域中央凹视觉foveal vision外围的信息是模糊的。我们觉得自己看得很清楚其实大部分是大脑在补全——用记忆和推理填充视觉盲区。我们的AI在V4里做的事情非常类似视野内是清晰的感知视野外则依赖心智地图的记忆。这一篇我们要做一件大胆的事——把AI的千里眼换成近视眼镜。它只能看到周围5×5的范围剩下的全是未知。它必须在脑中建立一张心智地图像人类在陌生城市里摸索一样一边走、一边记、一边决策。结果呢路径从26步暴涨到66步还会碰壁、犹豫、走弯路——甚至出现了一个经典的认知偏差目标固着。听起来变笨了恰恰相反这才是真正的智能的起点。因为完美不是智能在不完美中做出好决定才是。为什么我说这是真正的智能的起点因为V4第一次让AI展现出了认知过程——不只是结果到达终点而是过程如何到达终点。而认知过程正是所有高级智能的基础。 你需要先了解前置阅读第3篇当AI遇到墙——障碍物与路径规划你需要了解V3版本中AI如何用BFS广度优先搜索找最短路径11×11迷宫的三道横墙S型布局什么是全知全能的寻路方式 正文一、一个简单的实验——戴上近视眼镜 你有没有这种经历摘掉眼镜后世界一下子变得模糊超过3米的东西就是一团色块想象你被丢进一个完全陌生的大楼里而且你的眼镜度数特别高。你只能看清面前2米的走廊——前面是墙还是门得走近了才知道。左边有没有岔路得扭头看了才清楚。这就是我们在V4版本里给AI做的事。在代码层面V4相比V3做了以下核心改变V4的核心设计变更模块V3 做法V4 做法认知对应感知直接读取全部墙壁数据视野半径2只能看5×5视觉皮层记忆无需记忆已知一切心智地图每步更新海马体决策全局BFS最优解Epsilon-Greedy混合策略前额叶学习无需学习碰壁后更新认知试错学习整个设计的哲学是四个字回归人脑。有限感知Limited PerceptionV3的AI像开了上帝视角的玩家——整张地图一览无余。V4的AI更像一个真实的人类视野半径 2格只能看到周围5×5的范围超出视野的区域全部标记为“unknown”未知必须亲自走到那里才能看见那里有什么来看看代码里是怎么实现这个近视效果的defget_perception(self,vision_range2):感知模块只返回视野范围内的信息x,yself.location visible_walls[]visible_cells[]fordxinrange(-vision_range,vision_range1):fordyinrange(-vision_range,vision_range1):nx,nyxdx,ydyif0nxself.grid_sizeand0nyself.grid_size:visible_cells.append((nx,ny))if(nx,ny)inself.wall_set:visible_walls.append((nx,ny))return{visible_walls:visible_walls,visible_cells:visible_cells,vision_range:vision_range}注意这里的关键vision_range2。以AI当前位置为中心往上下左右各延伸2格形成一个5×5的正方形视野。整个11×11的世界有121个格子而AI每一步只能看到最多25个——不到总面积的21%。上面这张图直观地展示了效果中心的蓝色圆点是AI周围清晰明亮的5×5区域是它能看到的世界而灰暗的迷雾覆盖了绝大部分地图。对AI来说那些灰暗区域可能是一马平川的通路也可能是铜墙铁壁——在亲自走过去之前它不知道。一个小小的改变彻底改变了整个游戏。想想这意味着什么在V3里AI制定路线的时候已经知道了所有28块墙壁的精确位置它做的只是数学计算——从A到B的最短路径。但在V4里AI出发的那一刻它对这个世界的认知几乎是一张白纸。它不知道前面有没有墙不知道左边通不通不知道绕路要绕多远。这才是真实世界中每个智能体面临的处境。你第一天去新公司上班的时候你知道茶水间在哪吗你知道哪条路上班最快吗你知道哪个电梯最不用等吗不知道。你得自己摸索。而这种摸索的过程就是智能的起点。动手试试打开demo4_cognitive.py运行一下。注意观察可视化界面里灰色格子未知区域是怎么一步步变成白色已探索和深红色墙壁的。这个揭开迷雾的过程非常直观二、心智地图的诞生——在脑中画地图 ️好AI现在是个近视了。那它怎么导航答案藏在认知科学里——心智地图Mental Map。什么是心智地图你对自己家附近的街道了如指掌对吧但想想你第一次来这个城市的时候——你是怎么慢慢建立起这个脑中地图的刚到的时候除了家门口其他地方全是空白你每天出门走不同的路一点一点揭开迷雾走了几次死胡同之后你记住了哪些路是不通的渐渐地你脑中有了一张覆盖面越来越广的地图你甚至开始知道哪条路早高峰会堵车、哪个超市周末人少AI在V4里做的事情一模一样。它维护了一张121格11×11的心智地图每个格子有三种状态为什么是三种而不是两种因为未知和确认可通行是完全不同的信息。未知意味着不确定性——AI不知道那里是墙还是路。而已探索意味着确定性——AI知道那里是安全的。这种区分对于决策至关重要。心智地图的三种状态状态颜色含义unknown⬜ 灰色还没去过不知道里面有什么explored⬜ 白色已经看到过确认是可通行的wall⬛ 深红色确认是墙壁不能通过来看心智地图的核心更新逻辑classCognitiveReasoner:def__init__(self,grid_size,goal,epsilon0.3):self.grid_sizegrid_size self.goalgoal self.epsilonepsilon# 心智地图初始化全部标记为未知self.mental_map{}forxinrange(grid_size):foryinrange(grid_size):self.mental_map[(x,y)]unknown# 访问计数记住走过的地方self.visit_countdefaultdict(int)defupdate_perception(self,perception,current_loc):根据感知更新心智地图# 看到的区域从未知变成已探索forcellinperception[visible_cells]:ifself.mental_map[cell]unknown:self.mental_map[cell]explored# 看到的墙壁标记为墙forwallinperception[visible_walls]:self.mental_map[wall]wall# 更新访问计数self.visit_count[current_loc]1每走一步AI就把视野范围内的格子从灰色的未知更新为白色的已探索或深红的墙壁。就像你在一个黑暗房间里拿着手电筒——每转一下头就照亮一小片新区域。visit_count走过的路都要记住注意代码里还有一个visit_count字典——它记录了每个格子被访问的次数。这个信息后面会用到当AI需要决定往哪走的时候它会优先选择走过次数少的方向。这就像你在一个陌生的商场里找出口你不会反复走同一条走廊而是会尝试每条没走过的路。visit_count就是AI的这条路我走过几次了的记忆。# 访问计数的使用方式score-self.visit_count[(nx,ny)]# 走过越多次分数越低ifself.mental_map.get((nx,ny))unknown:score5# 完全没去过的地方大大加分上面这张四格面板完美展示了这个过程Step 1刚出发几乎全是灰色迷雾只有起点附近是亮的Step 20走了一段路上半部分已经揭开不少Step 40大部分区域已经探索过能看到墙壁的分布了Step 66到达终点时地图几乎完全揭示——探索率高达99.2%从全灰到全白这个过程就是AI的认知成长史。每一步都在学习每一步都在构建对世界的理解。这不是死记硬背那是V3的做法——一次性导入全部地图数据而是体验式学习。关键洞察心智地图的精妙之处在于——它不是一次性获取的而是随着行动逐步构建的。就像你不可能看了一眼Google地图就记住整个城市你的认知地图是用脚步一步步画出来的。三、探索还是利用——人生的两难选择 AI现在有了近视眼和心智地图但还缺一个关键的东西——决策策略。它每一步都要做一个选择是走已知的安全路线虽然可能绕远还是冒险去探索未知区域可能找到捷径也可能碰壁这个问题在AI领域有一个经典的名字——探索与利用困境Exploration vs. Exploitation Dilemma。生活中的探索与利用这个困境无处不在我打赌你每天都在面对它探索 vs 利用的日常版午餐选择去那个已知好吃的老店利用还是试试新开的餐厅探索期末复习花时间巩固强项科目确保拿分利用还是攻克弱项科目博取突破探索职业发展留在熟悉的岗位稳步晋升利用还是跳槽到全新领域寻求更大机会探索玩游戏重复用已知的强力战术刷关利用还是尝试新角色新打法探索如果你100%利用*——你会一直吃同一家餐厅、做同一份工作、用同一个策略。安全但你永远发现不了更好的选择。如果你100%探索——你永远在尝试新东西但从来学不到任何一个领域的深度经验。热衷跳槽的人往往每个行业都只懂皮毛。最好的策略是在两者之间找到平衡。这个问题在学术上已经研究了几十年。从赌博机问题Multi-Armed Bandit到强化学习核心都是这个困境。而我们的AI用了一个最简洁优雅的入门方案——Epsilon-Greedy策略。Epsilonε是一个0到1之间的数字代表探索的概率。每一步决策时以 ε 的概率选择探索去未知的地方看看以 1-ε 的概率选择利用走已知的最好路线来看具体代码defreason(self,current_loc):认知推理决策directions{right:(1,0),left:(-1,0),down:(0,1),up:(0,-1)}# 关键epsilon0.330%概率触发探索模式ifrandom.random()self.epsilon:# 探索模式优先去未知或少走的地方candidates[]foraction,(dx,dy)indirections.items():nx,nycurrent_loc[0]dx,current_loc[1]dyif0nxself.grid_sizeand0nyself.grid_size:ifself.mental_map.get((nx,ny))!wall:score-self.visit_count[(nx,ny)]ifself.mental_map.get((nx,ny))unknown:score5# 未知区域大加分candidates.append((score,action))ifcandidates:candidates.sort(reverseTrue)topcandidates[:min(2,len(candidates))]chosenrandom.choice(top)[1]returnchosen# 利用模式用已知信息BFS寻找最优路径actionself._local_bfs(current_loc)ifaction:returnaction# 兜底实在不知道怎么走随机选returnrandom.choice(list(directions.keys()))翻译成大白话就是70%的时间EXPLOIT利用模式AI会基于已知的心智地图做局部BFS寻路走它认为最优的路——“我知道的最好路线”30%的时间EXPLORE探索模式AI会故意不走最优路转而去探索未知区域或较少经过的地方——“万一那边有更好的路呢”注意探索模式里的一个细节AI不是完全随机乱走。它有一套聪明的评分机制——未知区域加5分走过的地方减分。所以探索模式更像是有方向的好奇心而不是无头苍蝇。这就像一个聪明的旅行者他不会随机选一个方向走而是会朝着自己还没去过的街区走。epsilon 0.3 的含义这个数字不是随便选的。0.3意味着大约每3-4步中AI就会心血来潮一次去探索一下未知领域。如果epsilon太小比如0.05AI会过度保守可能永远发现不了更好的路径。如果epsilon太大比如0.8AI就像一只无头苍蝇到处乱跑很难积累有效经验。0.3是一个相对激进的探索率——适合陌生环境下的初期探索阶段。在实际应用中很多强化学习算法会采用递减epsilon的策略——初期大量explore后期主要exploit。就像你刚到一个新城市时会到处走走看看住了一年后就基本走固定路线了。这个优化我们会在后续版本中讨论。四、第一个认知偏差——AI也会钻牛角尖 好了带着近视眼镜、心智地图和Epsilon-Greedy策略的AI上路了。大部分时候它表现得很聪明——合理绕墙、稳步推进、积极探索。但在Step 41-43发生了一件有趣的事。让我们还原一下当时的场景AI已经穿过了前两道横墙来到了地图的右上区域大约在(8,7)附近。终点在右下角(10,10)方向很明确——往下走就好了嘛于是AI坚定地往下走。砰碰到了第三道横墙y8那一排。它往右挪了一格再往下——砰还是墙。再往右——还是墙目标固着偏差Goal Fixation BiasStep 41-43AI在右上角区域反复徘徊。它的内心独白大概是这样的Step 41目标在右下方我应该往下走→ 碰墙Step 42那我往右移一点再往下→ 还是碰墙Step 43再往右总有缺口的吧→ 依然碰墙…它太执着于向目标方向移动了完全忘了绕路向左走可能才是正确答案。这种偏差在心理学里叫做目标固着偏差——当你太专注于目标方向时反而看不到通往目标的迂回路线。上面这张路径图红色高亮区域就是AI反复徘徊的地方。注意黄色路径在右侧的来回折返——这就是钻牛角尖的视觉化表现。这像不像你生活中的某些时刻 GPS提示前方大堵车建议绕行但你心想再堵也是直线距离最短啊——结果堵了2小时 写论文的时候死磕一个不通顺的句子反复改了20遍其实换个角度重写一句就好 打游戏硬刚一个Boss怎么都打不过其实去旁边支线升个级回来就是秒杀目标固着偏差的本质是我们的大脑太擅长直线思考了以至于容易忘记曲线有时才是捷径。心理学研究表明目标固着偏差在压力大、时间紧迫的时候更容易发生。当你很着急地想达到目标时大脑会自动缩小视野——只关注目标方向忽视其他可能性。飞行员在紧急情况下容易犯这个错误这也是为什么航空安全培训会专门训练“情境意识”Situational Awareness。在我们的AI中目标固着发生的原因更具体BFS寻路算法在心智地图上计算时会乐观地假设未知区域可以通行。当AI在右上角时第三道墙左侧的缺口还是“unknown”而BFS计算出的最短路径是穿过这些未知格子往下走——但那些格子实际上是墙幸运的是AI在Step 53-54时触发了EXPLORE模式被逼着往左走了几步——然后它惊喜地发现了第三道横墙左侧的缺口x2,3附近绕过去之后顺利冲向了终点。这个过程告诉我们一个道理正是那30%的随机探索救了AI一命。如果epsilon0纯利用AI可能会在那面墙前面反复撞头永远到不了终点。深层思考为什么BFS也会导致目标固着你可能会问BFS不是会找最短路径吗为什么还会出现目标固着关键在于——V4的BFS是基于心智地图的局部BFS不是V3那种基于真实地图的全局BFS。当AI在右上角时它的心智地图上第三道墙左侧的缺口还是unknown。BFS会乐观地假设未知区域可通行所以它计算出来的最短路径是“往下穿过这些未知格子”——但实际上那些格子是墙这就是乐观假设的代价当未知世界与你的假设不符时你会反复撞墙。而探索模式就是打破这种恶性循环的钥匙。五、碰壁的价值——从失败中学习 说到碰壁V4里有一个非常重要的机制——碰壁学习Learn from Collision。代码简短到令人发指但蕴含的道理非常深刻deflearn_from_collision(self,blocked_pos):碰壁学习记住碰到的墙壁if0blocked_pos[0]self.grid_sizeand0blocked_pos[1]self.grid_size:self.mental_map[blocked_pos]wallprint(f [Cognition] Learned wall at{blocked_pos})就这么几行代码做了一件很重要的事每次碰壁AI就把那个位置在心智地图上标记为墙壁下次BFS寻路的时候就会自动避开。碰壁学习的人类版本小时候你有没有摸过热炉子——就一次以后再也不敢了。这就是碰壁学习。你不需要别人告诉你炉子很烫那是全知模式你亲手摸了一下碰壁记住了教训更新心智地图以后就会绕着走BFS避开。痛苦的经验是最好的老师。这句话不仅适用于人类也适用于AI。碰壁学习配合心智地图形成了一个完美的**“试错-记忆-改进”**循环AI尝试走某个方向 → 碰壁了把墙壁位置记入心智地图 → 更新认知下次规划路径时自动避开 → 行为改进这和人类学习走迷宫的方式几乎一模一样。你不会傻到在同一面墙上撞两次头好吧AI有时候会因为它有30%的探索概率可能把它带回去但这也是一种代价。整个66步的旅程中AI碰了好几次壁但每次碰壁都不是浪费——它积累了关于环境的知识。到最后AI几乎发现了所有墙壁的位置心智地图的准确度非常高。让我们量化一下这个学习过程碰壁学习的量化效果阶段已知墙壁数总墙壁数发现率Step 1出发时0250%Step 20~1025~40%Step 40~1825~72%Step 66到达终点~2425~96%每次碰壁都是一次「确定性信息的获取」。碰壁的痛苦reward-5换来了心智地图的一块拼图。从投资回报率的角度看这是相当划算的交易。还有一个值得注意的细节碰壁学习和视觉感知是两种不同的信息获取方式。视觉感知走到一个位置自动看到周围5×5的信息——这是被动获取碰壁学习尝试走向墙壁并失败——这是主动试错前者像是用眼睛看后者像是用手摸。两者结合AI构建出了一张越来越完整的世界地图。这里有一个微妙但重要的设计选择Agent在执行动作前后都会进行感知。看看主程序中的act()方法defact(self):# 1. 感知环境有限视野perceptionself.env.get_perception(vision_range2)self.reasoner.update_perception(perception,self.env.location)# 2. 认知推理决策actionself.reasoner.reason(self.env.location)# 3. 执行动作old_locself.env.location new_state,reward,blocked,target_posself.env.step(action)# 4. 碰壁学习ifblocked:self.reasoner.learn_from_collision(target_pos)# 5. 感知新位置周围又感知一次ifnotblocked:new_perceptionself.env.get_perception(vision_range2)self.reasoner.update_perception(new_perception,self.env.location)注意第5步如果移动成功AI会在新位置再次感知一遍。这意味着每次成功移动都能揭开更多迷雾让心智地图的更新更高效。这是一个小但重要的设计细节。六、限制即力量——为什么变弱反而变强 让我们把V3和V4放在一起对比V3全知全能 vs V4认知模拟对比指标V3 全知版V4 认知版感知范围整张地图视野半径25×5地图信息一开始就知道所有墙壁一开始全部未知寻路策略全局BFS最优路径局部BFS Epsilon-Greedy到达步数26步66步碰壁次数0次多次路径质量100%全局最优有弯路、有回头探索率N/A99.2%从效率的角度看V4简直是一场灾难——步数暴涨了153%还会碰壁、迷路、钻牛角尖。但如果换一个角度看呢让我们用一个更实际的指标来评价——“认知丰富度”。V3的过程可以用一句话概括“计算最短路径→执行”。而V4的过程包含了环境建模从零开始构建对环境的认知❓不确定性处理在信息不完整时做决策⚖️策略权衡在探索和利用之间平衡错误恢复碰壁后更新认知并调整策略认知偏差展现真实的决策缺陷这些才是智能的真正内涵。V3的AI是一个做题家——给它正确答案它能完美执行。但它没有任何认知过程没有探索、没有学习、没有犯错、没有成长。它就像一台GPS导航仪——精准但毫无智能可言。V4的AI呢它——会探索主动走向未知区域而不是只走安全路线会犯错碰壁、迷路、钻牛角尖会学习碰壁后更新心智地图下次不再犯同样的错️会建构从零开始构建对世界的认知而不是依赖现成答案会权衡在探索未知和利用已知之间做出取舍核心洞察V3是一台精密的机器。V4才是一个正在成长的大脑。真正的智能不是全知全能而是在不确定中做出还不错的决定。你不需要看到整个棋盘才能下好一盘棋你不需要了解整个人生才能做出好的选择。你需要的是有限的感知 不断学习的心智地图 探索与利用的平衡。可以说V4实现了一个完整的感知-记忆-决策-学习循环️感知通过有限视野观察环境记忆将观察存入心智地图决策基于记忆和epsilon-greedy策略行动学习从碰壁和新发现中更新认知重复回到第1步带着更丰富的记忆继续每一步都让AI对世界的理解更深一层决策更明智一点。这就是认知成长的本质。当然V4依然有很多不完美的地方——epsilon是固定的不会自适应心智地图不会遗忘不像人脑决策不会从经验中学到哪些选择更好没有价值函数。这些问题将在后续版本中一一解决。每一篇都在上一篇的基础上进化——这也是这个系列最大的乐趣。这就是为什么我们说V4是这个系列中最重要的一次进化。它不是简单地给AI加了更多功能而是从根本上改变了AI的认知范式——从全知全能的计算器变成了在迷雾中摸索前进的探险家。那66步路里每一步弯路、每一次碰壁、每一个犹豫都不是错误——它们是认知的代价也是成长的证据。如果你把V3想象成一个学霸那V4就是一个探险家。学霸做题又快又准但你让他去一个从没去过的地方旅行他未必比探险家做得好。因为探险家有一项学霸没有的能力——在未知中导航。这也是为什么在AI领域越来越多的研究者开始重视探索能力而不只是优化能力。OpenAI的很多研究、DeepMind的AlphaGo都在核心算法里融入了探索机制。因为真实世界从来不会把答案提前告诉你。延伸阅读认知科学中的心智地图心智地图Mental Map / Cognitive Map这个概念最早由心理学家Edward Tolman在1948年提出。他通过实验发现老鼠在迷宫中不是简单地记忆走到这里左转、走到那里右转而是在脑中建立了一个空间的整体表征。后来2014年诺贝尔生理学或医学奖颁给了John O’Keefe和May-Britt Moser Edvard Moser表彰他们发现了大脑中的位置细胞和网格细胞——这些神经元构成了大脑内置的GPS系统也就是生物版的心智地图。我们在V4里用一个简单的字典模拟了这个过程。虽然简陋但核心思想是一致的从零开始、通过探索构建、随经验完善。⚠️ 常见误区❌误区1“有限感知让AI变笨了”有限感知不是让AI变笨而是让AI变真实了。V3的完美路径是一种作弊——现实世界中没有任何智能体能提前知道所有信息。V4的66步之路虽然更长但每一步都包含了真实的认知决策过程。❌误区2“Epsilon越大探索越好”不是。Epsilon过大会导致AI像无头苍蝇一样乱飞。0.3已经是一个相当激进的探索率了。在成熟环境下大部分地图已知应该降低epsilon更多利用已知信息。这就是后续版本会涉及的自适应探索率。❌误区3“碰壁是浪费”碰壁不是浪费碰壁是学习每次碰壁都为心智地图增加了一条确定性信息。相比远远看到一面墙亲自碰到一面墙反而让AI记得更牢——这和人类通过犯错学习的机制是一样的。❌误区4“心智地图应该一开始就提供部分信息”不应该。V4的设计哲学是从零构建认知。如果一开始就给AI一些提示那它的探索行为就会减少认知过程就不完整了。就像你不会给一个学走路的孩子提前铺好所有的防滑垫。❗误区5“AI的心智地图就是真实地图”不是。心智地图是AI以为的世界是什么样子不是世界实际是什么样子。在探索早期心智地图与现实的差距很大大量“unknown”。这种认知与现实的差距正是认知偏差的源头。随着探索的深入心智地图逐渐趋近现实——这就是学习。 一句话总结真正的智能不是看得最远而是在只看得见眼前两步的时候依然能做出不错的决定——同时保持对未知世界的好奇心。这也是V4版本教给我们的最重要的人生道理。不是吗✅ 本篇核心概念回顾在继续下一篇之前确保你理解了这些核心概念概念一句话解释有限感知AI只能看到周围5×5的范围其余未知心智地图AI脑中的世界模型随探索逐步完善Epsilon-Greedy70%走已知最优路30%探索未知目标固着偏差太执着于目标方向忽视迂回路线碰壁学习撞墙后更新心智地图避免重复错误✨ 课后思考epsilon的自适应调整如果AI已经探索了90%的地图还需要保持30%的探索率吗你会怎么设计一个随经验递减的epsilon策略提示比如epsilon 0.3 * (1 - explore_rate)当探索率越高探索概率越低心智地图的遗忘机制人类会忘记很久没走过的路比如你还记得5年前住处附近的小巷吗。如果给心智地图加上一个遗忘机制——长期不访问的区域重新变回unknown——会发生什么这会让AI更像人类吗视野大小的影响如果把视野半径从2改成13×3视野或49×9视野AI的行为会怎么变化试着修改代码里的vision_range参数跑一跑看看预测一下视野1时步数会超过80步吗视野4时能接近V3的效率吗多智能体协作如果有两个AI同时在迷宫里探索它们能不能共享心智地图这样做会加速探索过程吗想想这和两个人一起找路有什么异同。提示人类之间的信息传递也是有延迟和失真的这会带来什么问题不同的墙壁布局当前的S型三道横墙是一种特定布局。如果换成随机生成的迷宫呢AI的表现会有什么不同目标固着偏差还会出现吗 下一篇预告第5篇AI的第一堂强化学习课——奖励与惩罚V4的AI已经能探索、学习、犯错了但它的决策还是比较机械的——Epsilon-Greedy策略虽然管用但它不会从经验中学到哪些选择更好。下一篇我们要给AI引入Q-Learning——一种让AI能从奖惩中学习最优策略的强化学习算法。AI将学会哪些格子值得去哪些格子应该避开什么时候该冒险什么时候该保守。从随机探索到有策略地学习——AI的大脑要再次进化了。如果V4的探索是凭感觉走那V5的Q-Learning就是用经验导航。从知道世界是什么样的到知道什么选择是最好的——这又是一次质的飞跃。敬请期待‍作者简介NeuroConscious Research Team一群热爱 AI 科普的研究者专注于神经科学启发的 AI架构设计与可解释性研究。理念“再复杂的概念也能用大白话讲清楚”。首席科学家WENG YONGGANG 翁勇刚 马来西亚理工大学工商管理博士项目地址https://github.com/wyg5208/nct.git官网地址https://neuroconscious.link作者 CSDNhttps://blog.csdn.net/yweng18NCT PyPIhttps://pypi.org/project/neuroconscious-transformer/⭐欢迎 Star⭐、Fork、贡献代码「当AI学会发脾气」系列| 第4篇 · 给AI装上近视眼镜作者一个相信限制即力量的AI探索者 上一篇当AI遇到墙 | 下一篇AI的第一堂强化学习课如果这篇文章让你对不完美的智能有了新的理解请分享给你的朋友

更多文章