深度｜《AI进化论》解读：Agent智能体带来的“L3阶段革命”

2025-07-31

当ChatGPT用2个月突破1亿用户时，人们惊叹于AI的爆发力；而如今一个更具颠覆性的概念正加速走来，那便是AI Agent。

中金公司最新研报指出，AI正从“能聊天”“会推理”的L1、L2阶段，迈向能“用工具”“做决策”的L3“智能体时代”。

这种被称为“AI Agent”的新形态，不仅在技术上实现了从“被动响应”到“主动执行”的跨越，更可能通过接管手机等终端设备，彻底重塑我们与数字世界的交互方式。

01 从“对话助手”到“全能管家”：AI Agent的L3时刻已至

AI的进化之路，正在经历一场关键转折。

OpenAI曾将AI发展划分为五个阶段：从L1“聊天机器人”（如ChatGPT，能理解语言）、L2“推理者”（如DeepSeek，具备逻辑解决能力），到L3“智能体”（能使用工具、执行决策）、L4“创新者”（辅助发明）、L5“完整组织”（类组织运作）。

其中，L3被视为AI走向实用化的“质变点”——区别于前两阶段的“被动响应”，L3级AI能像人类一样“动手”：浏览网页、操作软件、调用工具，甚至独立完成复杂任务。

近半年来，海内外厂商的技术突破让这一时刻加速到来。

2024年10月，Anthropic推出Claude3.5的“Computer Use”功能，首次实现AI像人类一样“观察”屏幕截图、移动光标、点击按钮——比如用户要求“用本地和在线数据填表单”，它能自动拆解为“查本地表格→开浏览器→爬取数据→填写表单”的连贯操作。紧随其后，OpenAI在2025年1月发布“Operator”，专攻浏览器操控，通过视觉模型解析网页按钮、文本框，完成旅行预订、软件开发等任务，遇到登录等敏感操作时还会主动交还控制权给用户。

这些进展直指两大核心目标：

一是破解“图形用户界面（GUI）理解”难题。微软推出的OmniParser工具，能将屏幕截图转化为结构化元素（如按钮、文本框坐标），让AI精准定位操作对象；OSWorld测试显示，AI解析屏幕截图的任务完成度已从2024年6月的7.8%跃升至2025年3月的38.1%（OpenAI的CUA模型）。

二是降低开发门槛。OpenAI的Responses API提供“搜索+文件处理+计算机使用”的模块化工具，开发者几行代码就能搭出专属Agent；Anthropic的MCP协议则像“万能接口”，让AI轻松连接GoogleDrive、Slack等数据源。

从“能看懂”到“会动手”，AI Agent正在突破“工具使用”的图灵测试，距离规模化接管设备只剩一步之遥。

值得一提的是，在GUI Agent的开发上，九科信息推出的bit-Agent在国内乃至全球范围内皆处于领先地位。目前bit-Agent已正式应用于上汽公司的安全巡检项目，成为国内首个、全球首批实现商业化落地的GUI Agent。

九科信息X上汽集团：智能体落地案例效果

02 多代理模式+过程透明，Manus带来的双重创新

3月6日，中国创业公司Monica发布的通用型AI Agent“Manus”，在评估AI解决实际问题能力的GAIA基准测试中，包揽三个难度等级的全球第一，直接超越OpenAI。

它的突破不在单点技术，而在模式创新。

创新一：多代理“套壳”，快速实现通用能力

传统AI Agent要么专攻单一任务（如代码生成），要么因功能复杂难以落地。Manus采用“母Agent统筹+子Agent分工”的模式：用户提出需求后，母Agent先拆解任务（如“四月日本之旅”拆分为查交通、天气、景点等子项），再调用不同子Agent执行，最后整合输出。这种模式如同搭积木，开发者无需从零构建全功能模型，而是组合现有工具，大幅降低通用型Agent的落地成本。

正如PerplexityCEO所言：“在10万用户基础上套壳创新，远比重建模型更有意义。”

创新二：过程全透明，破解“可靠性焦虑”

用户对AI的最大顾虑是“黑箱操作”——比如AI生成一份股票分析报告，用户无法验证数据来源和推理逻辑。Manus在屏幕右侧设置“虚拟机窗口”，实时展示处理全过程：拆解任务时输出“To Do List”，爬取数据时显示浏览的网页、编写的代码，甚至滚动鼠标的动作都与人类操作一致。

这种“过程可视化”直击行业痛点。Lang Chain调研显示，54%的企业用户因“担心AI出错”，会额外加装跟踪控件；而Manus让用户能实时回溯每一步操作（如“这个景点推荐来自哪篇攻略”），信任度自然提升。更关键的是，它降低了大众使用门槛：即使不懂编程，用户也能通过观察过程理解AI的决策逻辑，这为C端大规模普及扫清了心理障碍。

九科信息bit-Agent与Manus能力对比

而事实上，作为国内GUI Agent领域的“隐形冠军”，九科信息也在以上两种模式上进行了深入的探索。

九科信息的智能组织bit-Crew即是多个Agent构建起的超级智能体组合，而在已落地的bit-Agent中，“全程可视化+数据留痕+风险提示”更是成为了标配。

九科信息以Agent为核心的智能机器人组织

03 生态重构：手机厂商与互联网公司的“入口争夺战”

Agent时代，用户需求由单一入口承接，工具类APP可能退居后台成为“服务供应商”。比如你想“买母亲节礼物”，AI Agent会自动比对淘宝、京东的价格，调用小红书的测评，甚至关联微信好友的推荐，最后直接推送最优选项，内容分发权将从APP转移到Agent手中。

面对这场变革，手机厂商已展开激烈布局。他们手握硬件和底层权限，主打“系统级Agent”。华为Pura70的“小艺智能体”能识别图片内容自动转换格式，付款时被扫码枪对准会瞬间弹出付款码；小米15系列的“超级小爱”可一键完成“订咖啡→约朋友→导航到店”的连贯操作；苹果iPhone16则将Siri与ChatGPT深度整合，支持语音生成图片、润色邮件。

它们的优势在于“端侧算力+数据闭环”，比如小米澎湃OS2能直接调用手机存储的日程、通讯录数据，响应速度比云端Agent快3-5倍。

短中期内，这场竞争将呈现“百花齐放”的格局——手机厂商有硬件壁垒，互联网公司有场景数据，而合作可能成为主流。但长期看，谁能先实现“全场景自主决策+用户信任”，谁就可能成为新的流量入口掌控者。

不可否认的是，AI Agent已从概念走向现实，它的“L3时刻”，或许正是我们与数字世界交互方式彻底改变的起点。

对于行业而言，这既是颠覆，更是机遇。无论是硬件厂商、软件公司，还是每一位用户，都将在这场变革中找到新的位置。