Niina

Niina

简单聊聊对 AI Agent 行业的理解

2026年6月20日·色伏集·

我印象里 AI Agent 的概念在 2024 年的时候就逐步走向成熟了。凭我模糊的回忆说一下(不保证正确)。

一开始 22 年 ChatGPT 就以 ChatBot 的形式爆火。那个时候还称不上现在的 Agent,充其量就是浓缩了大量世界知识的 ChatBot。23年24年开始有了"Agent"应用,一开始的那个忘了叫什么名字了(Logo长得像个骆驼的),是 AI 写小说的。我是看见一个学长研究生毕业做的,这个我印象很深。从这里开始,我们不仅仅只是用一个集人类精华的存在去 Chat,而是通过一种组织的形式,发挥它的知识和能力,开始有意识根据模型本身的能力设计一个系统,让模型在这个系统中完成任务,这可以说是早期的 harness 了。

而 tool-calling 之类的能力,也是在这种系统性地使用模型能力的时候的自发实践。就像很早的 GPT-Academic,就是自己实现 function,配合 prompt 完成对 paper 的拆解。这份能力太过广泛和基础,下游的使用促使上游模型训练端让模型 tool-calling 的能力进一步加强,成为 ReasoningLLM 的标准能力。后面则是对这份 tool-calling 能力的扩展,从原本的工具调用会出错,到单次工具调用成功,再到多次工具调用——模型在工具使用上已经成了专家。

而能够使用工具,就是 Agentic 能力的一个关键点。在此之前的所谓 Agent,不过是 prompt APPs 罢了。

节奏

我在24年暑假关注到了 AstrBot 这个项目,那个时候 LLMs 的能力刚好够到能进行工具调用的程度,但鲜少有 QQBot 的项目把 tool-call LLM 作为一等公民接入 QQ,AstrBot做了。比较早期的就跟进了 MCP,沙箱执行,工具调用。我当时顺手给 AstrBot 提了个 typo fix,修了下启动时的 logo,哈哈。但我后续在使用 AstrBot 的时候感到了厌倦——我没有感受到它带给了我什么。让 Bot 更像人?和人交互?我根本用不上。

2024年有些 PaaS Agent APP 平台,比如 Dify、Coze 等等。RAG的概念也是作为增强模型能力的一个方法为人所熟知,一个是可以解决 AI 幻觉问题,一个是解决 AI 上下文不够长的问题。

而这个时候,token 的消耗量并没有那么大, dsr1 context length 128k,单次对话就调用一个工具。但是仅仅在 2025 年 Q2,Agentic AI的概念就提出来了(与此同时是大量的 agentic 框架,这是25Q2有人列举的不同agent框架之间的对比),并且就是我们现在常谈论的 agent,而非之前的改改 system prompt 的 'agent'。那个时候还有很多 agent 框架,不管是非常早就出来的 LangChain、还是算比较新的 autogen、LangGraph 这些都是很方便去构建 workflow 式的 agent的平台,开发 agent 的门槛变得很低。但这个时候业界反应还没有那么大(2025Q2)——相应的就是机会非常多,因为绝大多数人都没有做过 agent。而今一年过去了,体感上各种培训班已经满天飞了。

另外一个,token消耗量在模型长上下文普及和长程任务能力越来越强的现在激增。我一天开发一个项目最高能烧掉1B的token,这换在ChatBot时代是无法想象的。而海量的token就代表着海量的数据,而且还是之前现实世界没有的,agentic的long horizon任务执行的轨迹数据,这是新一轮的数据飞轮。随着 Transformer 架构的不断升级,现在 dsv4 解决了 KV Cache 算力、显存消耗太大的问题(之前只是解决Attn上的算力和显存问题,而长上下文中KV Cache带来的问题没有解决),能够在 128k的上下文做预训练,这是以前不敢想的。人类产生数据的速度也在激增。这有点像烧着能源,让大模型有了左脚踩右脚的能力,当然中间少不了人类做 pilot 和 steer,以保证模型和人类 align。

2025年 vibe coding 的概念就已经深入人心。25五一的时候,有同学问我课程项目(前端后端数据库)能不能全用 vibe coding,我说试试,应该能。他最后全 vibe coding 成功了。那个时候就有所谓'前端已死'的论调,并在 Gemini 3(2025Q4)的时候极为强烈。

之后出现的 AI 产品五花八门。AI 陪伴类的一直都有(酒馆、MiniMax的星野 etc.),这种情感类的反馈周期长,算法的 reward 太多太广太复杂,很难有好的确切的标准做 SFT,并且需要长周期的反馈,很难直接 eval 效果。还有 AI Researcher,印象里这个 OpenAI 先做的,然后 Kimi 似乎是跟进的不错的那个。Kimi Research,记得当时他们的模型做到了一次对话能够调用上百个工具,出了个产品 OK Computer,来做单次请求的长程解决,这个时候(2025Q3)似乎各家就能做到单次30分钟以上的持续执行了。2025Q4 的 skills 概念的提出让 Agentic AI 的易用性进一步降低,(skills这个概念真神了)skills,可以说是 LLM Infra 中的 FlashAttention。将修改模型上下文的权利下放(而这是 agentic 系统中至关重要的),通过 skills 可以直接给模型传输经验、方法、流程、领域知识、思路,等等等等。直接让通用模型的能力轻松落地。而且通过三步渐进暴露的方式做了漂亮的 context engineering,是 Agent在C端变得高可用的一个至关重要的概念。

写到这里,我发现模型变动的速度太快了。两个月甚至一个月模型厂商就能把新一代的post-training的模型端上来。模型能力的提升从上游往下游不断传播,影响巨大。

一个类似玩笑的说法是,这个月你用 AI Coding 感到棘手的项目,你大可放置一段时间,等新一代模型发布的时候,过去的难题可能就迎刃而解了。这反应在行业里面很残酷——就像做垂直领域的一些 AI Agent 产品,现在正在被通用的 Codex 吃掉市场份额一样。

其实也告诉了我们时间很重要。这个月是这样,下个月情况可能就会反转,像 Fable 5 这样的事情,之前已经发生过,未来一定还会发生。但是这个具体的变动谁也不清楚,不身处在水中,怎么能摸到第一线的变化?

破圈

2026Q1 Opus 4.6 发布之后,我第一次感觉到 Agentic AI 真正意义上的破圈了,好像 AI 真的突破了某种能力的上限,而那种上限格外诱人,各个行业和领域的人都开始为之疯狂。当然这种FOMO并非2026才发生的,更早就有了。

另一个破圈的是 OpenClaw(ClawBot),这玩意我记得在 Dev 中有过一次传播,但似乎大家没有这么在意。隔了一两个月在 Q1 和 Q2 之间的时候,OpenClaw突然破圈了,引起了一波 Claw 潮。我其实到现在也没有想明白是为什么?难道是真的发现了 AI Agent 的能力已经足够在生产生活中起到作用了吗?但是资本似乎从此刻就开始狂欢。智谱、MiniMax接连港股上市,而今估值快万亿。

Agent 到底在做什么

上面啰嗦了这么多,其实真正想聊的是这个:抛开产品和概念,Agent 到底是什么,以及它现在到底能做什么。

只说 agent 类型的话,可以分作 workflow 和 agent 两种,以及两者之间的东西。但我觉得这个二分法本身没那么重要——更重要的是想清楚一个问题:你的业务里,哪些环节需要 agentic,需要到什么程度?

这个问题比选框架重要得多。不是因为框架不重要,而是因为大多数场景下,你根本不需要一个完全自主的 agent。

业务流程清晰、规律、稳定、门槛不高——这些场景用 workflow 就够了。workflow 的优势不是能力,是可控。每一步的输入输出是确定的,出问题你能定位到具体环节。而一个完全自主的 agent,它做对了你不知道为什么对,做错了你也不知道在哪一步开始偏的。对于大多数企业场景,可控性比智能程度更值钱。

垂直领域就是另一回事了。通用模型 + skills 在垂直领域的效果往往不好,而且可预计的未来通用模型在这些领域的数据都比较稀缺。这时候要么训练/微调,要么结合领域知识的 RAG。如果做不到微调模型,就只能用 workflow 去逼近效果。这不是最好的方案,但是是可行的方案。

这中间有一个我反复想到的问题:上下文。 不管是 workflow 还是 agent,让模型接收到正确的、充足的、合适的上下文,决定了整个系统的上限。上下文给少了模型瞎猜,给多了模型被噪声淹没,给错了方向整个就偏了。这件事说起来简单,实际上极其依赖对业务的理解——你得知道什么信息对决策是关键的,什么信息是噪音。这不是技术问题,是领域知识问题。

另一个同样关键但更难的事情是评估。怎么知道你的 agent 系统在变好还是变坏?模型一更新,prompt 一改,工具一换,行为就可能变了。如果没有一套评估手段,你就是在盲飞。但评估 agent 比评估模型难得多——因为 agent 的输出不是单点的,是多步的、有状态的、和环境交互的。单次工具调用对不对?连续调用的顺序对不对?最终结果对不对?三个维度的评估,目前行业里也没有很好的统一方案。

这也是为什么我说 OpenClaw 的破圈让我困惑。如果 agent 系统的基础设施——上下文工程、评估体系——都还处在这种"大家各做各的"阶段,那它真的准备好进入生产生活了吗?还是说我们又一次高估了短期,而低估了长期?

后记:写这篇文章的初衷,是我发觉逐渐忘了前两个月的 AI/LLMs 是什么样的能力和情况了。行业的节奏快到你来不及消化今天的东西,明天又变了。我想把现在的理解写下来,是为了过几个月回头再看的时候,能看到自己当时站在哪里,看到了什么,又看漏了什么。人的记忆真的忘的太快了。

© 2024 - 2026 Niina's Blog

RSS