深度|《AI进化论》解读:Agent智能体带来的“L3阶段革命”
当ChatGPT用2个月突破1亿用户时,人们惊叹于AI的爆发力;而如今一个更具颠覆性的概念正加速走来,那便是AI Agent。
中金公司最新研报指出,AI正从“能聊天”“会推理”的L1、L2阶段,迈向能“用工具”“做决策”的L3“智能体时代”。
这种被称为“AI Agent”的新形态,不仅在技术上实现了从“被动响应”到“主动执行”的跨越,更可能通过接管手机等终端设备,彻底重塑我们与数字世界的交互方式。
01 从“对话助手”到“全能管家”:AI Agent的L3时刻已至
AI的进化之路,正在经历一场关键转折。
OpenAI曾将AI发展划分为五个阶段:从L1“聊天机器人”(如ChatGPT,能理解语言)、L2“推理者”(如DeepSeek,具备逻辑解决能力),到L3“智能体”(能使用工具、执行决策)、L4“创新者”(辅助发明)、L5“完整组织”(类组织运作)。
其中,L3被视为AI走向实用化的“质变点”——区别于前两阶段的“被动响应”,L3级AI能像人类一样“动手”:浏览网页、操作软件、调用工具,甚至独立完成复杂任务。
近半年来,海内外厂商的技术突破让这一时刻加速到来。
2024年10月,Anthropic推出Claude3.5的“Computer Use”功能,首次实现AI像人类一样“观察”屏幕截图、移动光标、点击按钮——比如用户要求“用本地和在线数据填表单”,它能自动拆解为“查本地表格→开浏览器→爬取数据→填写表单”的连贯操作。紧随其后,OpenAI在2025年1月发布“Operator”,专攻浏览器操控,通过视觉模型解析网页按钮、文本框,完成旅行预订、软件开发等任务,遇到登录等敏感操作时还会主动交还控制权给用户。
这些进展直指两大核心目标:
一是破解“图形用户界面(GUI)理解”难题。微软推出的OmniParser工具,能将屏幕截图转化为结构化元素(如按钮、文本框坐标),让AI精准定位操作对象;OSWorld测试显示,AI解析屏幕截图的任务完成度已从2024年6月的7.8%跃升至2025年3月的38.1%(OpenAI的CUA模型)。
二是降低开发门槛。OpenAI的Responses API提供“搜索+文件处理+计算机使用”的模块化工具,开发者几行代码就能搭出专属Agent;Anthropic的MCP协议则像“万能接口”,让AI轻松连接GoogleDrive、Slack等数据源。
从“能看懂”到“会动手”,AI Agent正在突破“工具使用”的图灵测试,距离规模化接管设备只剩一步之遥。
值得一提的是,在GUI Agent的开发上,九科信息推出的bit-Agent在国内乃至全球范围内皆处于领先地位。目前bit-Agent已正式应用于上汽公司的安全巡检项目,成为国内首个、全球首批实现商业化落地的GUI Agent。
九科信息X上汽集团:智能体落地案例效果
02 多代理模式+过程透明,Manus带来的双重创新
3月6日,中国创业公司Monica发布的通用型AI Agent“Manus”,在评估AI解决实际问题能力的GAIA基准测试中,包揽三个难度等级的全球第一,直接超越OpenAI。
它的突破不在单点技术,而在模式创新。
创新一:多代理“套壳”,快速实现通用能力
传统AI Agent要么专攻单一任务(如代码生成),要么因功能复杂难以落地。Manus采用“母Agent统筹+子Agent分工”的模式:用户提出需求后,母Agent先拆解任务(如“四月日本之旅”拆分为查交通、天气、景点等子项),再调用不同子Agent执行,最后整合输出。这种模式如同搭积木,开发者无需从零构建全功能模型,而是组合现有工具,大幅降低通用型Agent的落地成本。
正如PerplexityCEO所言:“在10万用户基础上套壳创新,远比重建模型更有意义。”
创新二:过程全透明,破解“可靠性焦虑”
用户对AI的最大顾虑是“黑箱操作”——比如AI生成一份股票分析报告,用户无法验证数据来源和推理逻辑。Manus在屏幕右侧设置“虚拟机窗口”,实时展示处理全过程:拆解任务时输出“To Do List”,爬取数据时显示浏览的网页、编写的代码,甚至滚动鼠标的动作都与人类操作一致。
这种“过程可视化”直击行业痛点。Lang Chain调研显示,54%的企业用户因“担心AI出错”,会额外加装跟踪控件;而Manus让用户能实时回溯每一步操作(如“这个景点推荐来自哪篇攻略”),信任度自然提升。更关键的是,它降低了大众使用门槛:即使不懂编程,用户也能通过观察过程理解AI的决策逻辑,这为C端大规模普及扫清了心理障碍。
九科信息bit-Agent与Manus能力对比
而事实上,作为国内GUI Agent领域的“隐形冠军”,九科信息也在以上两种模式上进行了深入的探索。
九科信息的智能组织bit-Crew即是多个Agent构建起的超级智能体组合,而在已落地的bit-Agent中,“全程可视化+数据留痕+风险提示”更是成为了标配。
九科信息以Agent为核心的智能机器人组织
03 生态重构:手机厂商与互联网公司的“入口争夺战”
Agent时代,用户需求由单一入口承接,工具类APP可能退居后台成为“服务供应商”。比如你想“买母亲节礼物”,AI Agent会自动比对淘宝、京东的价格,调用小红书的测评,甚至关联微信好友的推荐,最后直接推送最优选项,内容分发权将从APP转移到Agent手中。
面对这场变革,手机厂商已展开激烈布局。他们手握硬件和底层权限,主打“系统级Agent”。华为Pura70的“小艺智能体”能识别图片内容自动转换格式,付款时被扫码枪对准会瞬间弹出付款码;小米15系列的“超级小爱”可一键完成“订咖啡→约朋友→导航到店”的连贯操作;苹果iPhone16则将Siri与ChatGPT深度整合,支持语音生成图片、润色邮件。
它们的优势在于“端侧算力+数据闭环”,比如小米澎湃OS2能直接调用手机存储的日程、通讯录数据,响应速度比云端Agent快3-5倍。
短中期内,这场竞争将呈现“百花齐放”的格局——手机厂商有硬件壁垒,互联网公司有场景数据,而合作可能成为主流。但长期看,谁能先实现“全场景自主决策+用户信任”,谁就可能成为新的流量入口掌控者。
不可否认的是,AI Agent已从概念走向现实,它的“L3时刻”,或许正是我们与数字世界交互方式彻底改变的起点。
对于行业而言,这既是颠覆,更是机遇。无论是硬件厂商、软件公司,还是每一位用户,都将在这场变革中找到新的位置。