跳过正文

从语言模型到智能体:AI Native 架构的演进与底层逻辑

AI Engineering - 这篇文章属于一个选集。
§ 1: 本文
如果说大型语言模型(LLM)的爆发完成了机器对自然语言“理解与生成”的初步跨越,那么智能体(AI Agent)的崛起则是将其真正推向“感知与行动”的工程化落地。对于处于技术变革前沿的开发者而言,仅仅作为 API 的调用者已经不够,我们需要深入理解从 LLM 到 Agent 的底层演进逻辑,掌握下一代软件架构的核心命题。

作为一名长期关注基础架构与系统设计的开发者,我发现当前关于 AI Agent 的讨论往往浮于表面。本文将拨开框架的表象,从大语言模型的基石、智能体演进的历史脉络,以及现代 Agent 的经典范式三个维度,系统性地重构我们对 AI Native 应用的认知。


1. 认知引擎:大语言模型的基石与局限
#

探讨智能体之前,必须先确立其“大脑”——大语言模型(LLM)的边界。现代智能体的所有高级规划与推理能力,本质上都建立在 LLM 的基础能力之上。

1.1 Transformer 与注意力机制的工程奇迹
#

LLM 的核心突破在于 Transformer 架构及其自注意力机制(Self-Attention)。在传统的 RNN/LSTM 架构中,序列信息只能依赖时间步的线性传递,极大地限制了长程依赖(Long-term Dependency)的捕获与并行计算能力。

自注意力机制通过 $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ 这一优雅的矩阵运算,允许模型在处理任何一个 Token 时,能够以全局视角动态计算并聚焦于上下文中所有相关的 Token。这种彻底的并行化不仅极大提升了工程训练效率,更让模型具备了前所未有的上下文隐式建模能力(In-context Learning)。

1.2 从“统计学鹦鹉”到推理引擎的跃迁
#

随着参数规模的扩大,LLM 展现出了令人瞩目的涌现能力(Emergent Abilities)。它不再仅仅是一个基于马尔可夫链的下一个词预测器(Next-token Predictor),而是通过海量高质量数据的预训练与指令微调(SFT/RLHF),将人类的逻辑链条、世界知识与代码规则压缩到了庞大的神经网络权重中。

系统设计的局限性 然而,单纯的 LLM 在工程架构上是一个“无状态(Stateless)的黑盒计算函数”。它存在三个致命的系统性缺陷:

  1. 幻觉与事实孤立:权重知识存在截断日期,无法实时获取外部真值(Ground Truth)。
  2. 缺乏执行力:只能输出文本,无法直接对外部系统发起 I/O 操作(如执行 SQL、调用 REST API)。
  3. 长期记忆缺失:受限于 Context Window,无法在超长生命周期的复杂任务中维持状态。

这正是单纯依赖 LLM 无法完成复杂业务系统的根本原因,也直接催生了 AI Agent 架构的诞生。


2. 演进史观:从物理符号系统到 AI Native
#

技术的迭代从来不是无源之水。现代智能体之所以呈现出目前的形态,是人工智能历史上多次范式转移(Paradigm Shift)的必然结果。每一次架构更迭,都在解决上一代系统的核心痛点。

2.1 古典时代:物理符号系统与逻辑推演
#

在 AI 的早期探索中,占统治地位的是符号主义(Symbolicism)。1976 年,Newell 和 Simon 提出了著名的“物理符号系统假说(PSSH)”:他们认为智能的本质是对符号的计算与逻辑处理。

早期的智能体(如早期的专家系统)完全依赖于设计者预先硬编码的知识库和 If-Else 推理规则。

  • 优势:极度精确,白盒可解释。
  • 痛点:陷入了“常识灾难”。在面对充满噪音、高度非结构化的现实世界时,人类无法穷尽所有的分支规则,系统缺乏泛化能力与鲁棒性。

2.2 强化学习与专用智能体的崛起
#

为了解决规则无法穷尽的问题,引入了连接主义与强化学习(RL)。智能体不再依赖人类输入规则,而是通过在环境中的试错(Trial and Error)结合奖励函数(Reward Function)来最大化长期收益,例如曾经震撼世界的 AlphaGo。 这类智能体在特定博弈环境中表现出超人类的水平,但它们的泛化成本极高。一个下围棋的 Agent 无法直接迁移去制定商业计划,缺乏通用认知与常识推理能力。

2.3 当代范式:LLM 驱动的现代智能体
#

大语言模型的出现补齐了历史上的最后一块拼图。我们首次拥有了一个具备庞大通用世界知识、且能够通过自然语言进行少样本/零样本(Few-shot/Zero-shot)推理的实体。

在这一范式下,LLM 充当了 Agent 的认知与中央控制节点。它打破了传统软件工程中必须预设所有执行路径的铁律,能够根据模糊的人类意图,动态规划出达成目标所需的子任务序列。


3. 解构智能体:核心架构与经典范式
#

在明确了基础与历史之后,我们从架构设计的角度来解构现代 AI Agent。

3.1 核心执行循环(Perception-Thought-Action Loop)
#

一个完备的智能体系统,本质上是一个持续与环境交互的闭环自动化状态机。其核心逻辑可以用以下三个阶段来概括:

  1. 感知(Perception / Observation):智能体通过其传感器接收外部输入。在软件工程中,这通常体现为监听 API 接口、解析用户 Prompt,或接收上一步函数调用的 JSON 返回值。
  2. 思考(Thought / Planning):这是整个架构的中枢。系统通过内部提示词工程(Prompt Engineering)将当前状态、目标和历史上下文传递给 LLM。LLM 会进行自我反思、任务分解,并推理出下一步最合理的策略。
  3. 行动(Action):将 LLM 规划的策略转化为实际的执行。这通常通过 Tool Calling(函数调用)实现,智能体通过结构化输出(如 JSON 格式的参数)去调用计算器、检索数据库或执行一段 Python 脚本。行动改变了环境状态,进而产生新的感知,闭环由此形成。

3.2 经典架构范式:ReAct 及其变体
#

在众多 Agent 架构中,最经典且具有奠基意义的范式当属 ReAct (Reasoning and Acting)

传统的执行策略往往是将“推理”与“行动”割裂开来。ReAct 的核心思想是强制要求大模型在输出行动指令前,必须先输出一段显式的自然语言思考过程(Thought Trace)。

# ReAct 范式执行日志示例
目标:找出2025年Q3公司财报中的核心增长点,并发送给数据组。

Thought 1: 我需要先获取2025年Q3的公司财报文件。我可以使用文件检索工具。
Action 1: search_document(query="2025 Q3 财报")
Observation 1: [返回文档摘要,提及海外业务收入增长150%]

Thought 2: 财报数据显示海外业务是核心增长点。现在我需要将这个结论总结并发送给数据组。
Action 2: send_email(to="data_team@company.com", content="...")
Observation 2: 邮件发送成功。
Ethan Yin
作者
Ethan Yin
别想太多, 先做再说.
AI Engineering - 这篇文章属于一个选集。
§ 1: 本文