从语言模型到智能体：AI Native 架构的演进与底层逻辑

AI Engineering - 这篇文章属于一个选集。

§ 1: 本文

如果说大型语言模型（LLM）的爆发完成了机器对自然语言“理解与生成”的初步跨越，那么智能体（AI Agent）的崛起则是将其真正推向“感知与行动”的工程化落地。对于处于技术变革前沿的开发者而言，仅仅作为 API 的调用者已经不够，我们需要深入理解从 LLM 到 Agent 的底层演进逻辑，掌握下一代软件架构的核心命题。

作为一名长期关注基础架构与系统设计的开发者，我发现当前关于 AI Agent 的讨论往往浮于表面。本文将拨开框架的表象，从大语言模型的基石、智能体演进的历史脉络，以及现代 Agent 的经典范式三个维度，系统性地重构我们对 AI Native 应用的认知。

1. 认知引擎：大语言模型的基石与局限
#

探讨智能体之前，必须先确立其“大脑”——大语言模型（LLM）的边界。现代智能体的所有高级规划与推理能力，本质上都建立在 LLM 的基础能力之上。

1.1 Transformer 与注意力机制的工程奇迹
#

LLM 的核心突破在于 Transformer 架构及其自注意力机制（Self-Attention）。在传统的 RNN/LSTM 架构中，序列信息只能依赖时间步的线性传递，极大地限制了长程依赖（Long-term Dependency）的捕获与并行计算能力。

自注意力机制通过 $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ 这一优雅的矩阵运算，允许模型在处理任何一个 Token 时，能够以全局视角动态计算并聚焦于上下文中所有相关的 Token。这种彻底的并行化不仅极大提升了工程训练效率，更让模型具备了前所未有的上下文隐式建模能力（In-context Learning）。

1.2 从“统计学鹦鹉”到推理引擎的跃迁
#

随着参数规模的扩大，LLM 展现出了令人瞩目的涌现能力（Emergent Abilities）。它不再仅仅是一个基于马尔可夫链的下一个词预测器（Next-token Predictor），而是通过海量高质量数据的预训练与指令微调（SFT/RLHF），将人类的逻辑链条、世界知识与代码规则压缩到了庞大的神经网络权重中。

系统设计的局限性 然而，单纯的 LLM 在工程架构上是一个“无状态（Stateless）的黑盒计算函数”。它存在三个致命的系统性缺陷：

幻觉与事实孤立：权重知识存在截断日期，无法实时获取外部真值（Ground Truth）。
缺乏执行力：只能输出文本，无法直接对外部系统发起 I/O 操作（如执行 SQL、调用 REST API）。
长期记忆缺失：受限于 Context Window，无法在超长生命周期的复杂任务中维持状态。

这正是单纯依赖 LLM 无法完成复杂业务系统的根本原因，也直接催生了 AI Agent 架构的诞生。

2. 演进史观：从物理符号系统到 AI Native
#

技术的迭代从来不是无源之水。现代智能体之所以呈现出目前的形态，是人工智能历史上多次范式转移（Paradigm Shift）的必然结果。每一次架构更迭，都在解决上一代系统的核心痛点。

2.1 古典时代：物理符号系统与逻辑推演
#

在 AI 的早期探索中，占统治地位的是符号主义（Symbolicism）。1976 年，Newell 和 Simon 提出了著名的“物理符号系统假说（PSSH）”：他们认为智能的本质是对符号的计算与逻辑处理。

早期的智能体（如早期的专家系统）完全依赖于设计者预先硬编码的知识库和 If-Else 推理规则。

优势：极度精确，白盒可解释。
痛点：陷入了“常识灾难”。在面对充满噪音、高度非结构化的现实世界时，人类无法穷尽所有的分支规则，系统缺乏泛化能力与鲁棒性。

2.2 强化学习与专用智能体的崛起
#

为了解决规则无法穷尽的问题，引入了连接主义与强化学习（RL）。智能体不再依赖人类输入规则，而是通过在环境中的试错（Trial and Error）结合奖励函数（Reward Function）来最大化长期收益，例如曾经震撼世界的 AlphaGo。这类智能体在特定博弈环境中表现出超人类的水平，但它们的泛化成本极高。一个下围棋的 Agent 无法直接迁移去制定商业计划，缺乏通用认知与常识推理能力。

2.3 当代范式：LLM 驱动的现代智能体
#

大语言模型的出现补齐了历史上的最后一块拼图。我们首次拥有了一个具备庞大通用世界知识、且能够通过自然语言进行少样本/零样本（Few-shot/Zero-shot）推理的实体。

在这一范式下，LLM 充当了 Agent 的认知与中央控制节点。它打破了传统软件工程中必须预设所有执行路径的铁律，能够根据模糊的人类意图，动态规划出达成目标所需的子任务序列。

3. 解构智能体：核心架构与经典范式
#

在明确了基础与历史之后，我们从架构设计的角度来解构现代 AI Agent。

3.1 核心执行循环（Perception-Thought-Action Loop）
#

一个完备的智能体系统，本质上是一个持续与环境交互的闭环自动化状态机。其核心逻辑可以用以下三个阶段来概括：

感知（Perception / Observation）：智能体通过其传感器接收外部输入。在软件工程中，这通常体现为监听 API 接口、解析用户 Prompt，或接收上一步函数调用的 JSON 返回值。
思考（Thought / Planning）：这是整个架构的中枢。系统通过内部提示词工程（Prompt Engineering）将当前状态、目标和历史上下文传递给 LLM。LLM 会进行自我反思、任务分解，并推理出下一步最合理的策略。
行动（Action）：将 LLM 规划的策略转化为实际的执行。这通常通过 Tool Calling（函数调用）实现，智能体通过结构化输出（如 JSON 格式的参数）去调用计算器、检索数据库或执行一段 Python 脚本。行动改变了环境状态，进而产生新的感知，闭环由此形成。

3.2 经典架构范式：ReAct 及其变体
#

在众多 Agent 架构中，最经典且具有奠基意义的范式当属 ReAct (Reasoning and Acting)。

传统的执行策略往往是将“推理”与“行动”割裂开来。ReAct 的核心思想是强制要求大模型在输出行动指令前，必须先输出一段显式的自然语言思考过程（Thought Trace）。

# ReAct 范式执行日志示例
目标：找出2025年Q3公司财报中的核心增长点，并发送给数据组。

Thought 1: 我需要先获取2025年Q3的公司财报文件。我可以使用文件检索工具。
Action 1: search_document(query="2025 Q3 财报")
Observation 1: [返回文档摘要，提及海外业务收入增长150%]

Thought 2: 财报数据显示海外业务是核心增长点。现在我需要将这个结论总结并发送给数据组。
Action 2: send_email(to="data_team@company.com", content="...")
Observation 2: 邮件发送成功。

作者

Ethan Yin

别想太多, 先做再说.

AI Engineering - 这篇文章属于一个选集。

§ 1: 本文

1. 认知引擎：大语言模型的基石与局限 #

1.1 Transformer 与注意力机制的工程奇迹 #

1.2 从“统计学鹦鹉”到推理引擎的跃迁 #

2. 演进史观：从物理符号系统到 AI Native #

2.1 古典时代：物理符号系统与逻辑推演 #

2.2 强化学习与专用智能体的崛起 #

2.3 当代范式：LLM 驱动的现代智能体 #

3. 解构智能体：核心架构与经典范式 #

3.1 核心执行循环（Perception-Thought-Action Loop） #

3.2 经典架构范式：ReAct 及其变体 #