人工智能学习笔记(三): 智能体是什么?

老殷

听北京航天航空大学副教授何静讲座的笔记<br> 接下来我们来看一下智能体是什么?我们经常听到<b>Agent</b>这个词。其实,从本质来说,<b>智能体是一种又感知、决策、和行动能力的一个实体,相当于智能小助手。知识这个小助手是生活在电脑里、手机里或互联网里,它可以分析你给它的任务,自己去决定,自己去执行。</b> 这里我用订电影票的例子给大家一个完整的解说,告诉你这个小助手的工作流程。<div> 假如你想周五晚上要去看{浪浪山小妖精},你可以向小助手下达指令。“帮我去订两张周五晚上{浪浪山小妖精},最好位置的电影票,记住不要太贵”。于是,小助手就自动取搜集信息,像你自己打开软件一样去打开“猫眼电影”、“淘票票”这些APP,搜索到你家附近所有电影院的排期,并且可以查看每个场次的余票情况及价格,还能够获取每个影院的座位图等等。接下来,它还会去想,根据你的要求去做判断。首先,别太贵,这个时候呢,它会对比所有电影院的价格,筛掉太贵的。然后它会去看周五晚上的场次,而忽略掉其他时间段的。接下来它回去想最好位置是哪儿。通常最好位置是指影灯正中央或者偏后的一些皇帝位。经过上述的一些思考后,它就会作出一个综合的决策,去找到一个价格适中、而且还有两个连号座位的场次。比如万达影城晚上7点半的第十排,单价是45元。最后呢,它会再去帮助你去自动执行操作。</div> 怎样自动执行呢、自动点击“购买”。这时它还会自动选择你之前设定好的观影人,自动使用你的优惠券或者会员卡来抵扣,甚至会自动调用支付软件,像支付宝、微信等帮助你完成支付。任务完成后,它还会给你发一条信息“主人,已为你购妥周五晚上7点半万达影城“浪浪山小妖精”电影票两张。第8排第10、11座。取票码:123456.祝观影愉快” 普通的订票程序,那就需要你自己手动打开APP,先是搜素电影,去选择电影院,去盯着座位图一个一个地找空位,再手动支付。真个过程你都需要参与与决策。<b>APP知识一个死板的工具。但是智能体不一样。智能体,只要你给它一个目标,它就会替你完成所有繁琐的步骤</b>,像查电影名、像选时间段、挑座位等等。智能体是有自己的判断力的,知道什么是好座位、什么是别太贵。它是主动地、全自动的。 接下来我们来看一下智能体是如何去完成任务的。完成任务的过程可以拆解位四个核心步骤:从感知到思考,到行动,到奖励。下面通过一个例子来说明。比如我让智能体去玩一个俄罗斯方块。它会怎样做呢?首先是感知,看到屏幕上即将落下的方块是长条形的还是方形的。第二步是思考,它去会把下一个长条形的方块横过来,放在缺口上,这样就能消除整整的四行,得到高分。好,接下来的事是:行动,那它会帮我们去扣住手柄,将方块移动到目标位置,并且做旋转。第四步就是奖励了。成功消除了四行,游戏给它加了很高的分数,这个就叫奖励信号,它就知道它的决策真是棒极了。 总结一下,智能体是通过感知、思考、行动和奖励这个循环来工作的。区别只是任务的复杂度和使用技术不同而已 接下来,来看看智能体的外形是什么。智能体就像一个有身体的AI,它通常会被赋予一个物理身体,比如是机器人或者一个虚拟的身体,如虚拟世界中的角色啊,NPC(见注)。我们还是用刚才的例子来说明吧。 让具身智能来玩俄罗斯方块,相当于给刚才的智能体一个身体。这包括一个类似人类的眼睛的摄像头,一个类似于人类手指的机械手指,而智能体是安装在一个机器人身体里面的。机器人就坐在真正的游戏机前面。此事要让这个具身智能像一个真正的人类玩家,它必须学会第一,如何用眼睛,也就是我们说的摄像头,从嘈杂的真是世界中去提取到一个有用的信息。第二,就是如何协调它的身体啊,就是刚才说的那个机械手指来精确第执行大脑的这个指令。第三呢,如果说物理世界有一些不确定性或者延迟,它要懂得是如何去应对,也就是我们说的“真实交互”。比如手指的按钮反馈、屏幕的显示延迟。它的知识和智能呢都是来自于眼睛和手指等真实物理设备,比如与游戏机、电视呀。这一类交互,不仅仅是为了抽象的数据,而是不断第积累与真实物理设备交互的经验。。 简单来说,<b>传统的AI,其实是一个博览群书但从来不运动的学霸。但具身智能呢,它就是一个喜欢动手实践,并且在运动中学习的高手。</b><br><div><br></div><div> 2026年6月18日</div> 注:NPC:在AI环境下,NPC不再是站在原地重复几句固定台词的机器人,而是拥有了自主决策能力,唱起记忆和个性化情绪的智能实体。