AI大模型概念梳理1
目标读者:希望系统了解大模型核心概念的开发者、产品经理和技术管理者。本文档以"扫盲"为定位,用通俗语言解释LLM、Transformer、Agent、多模态等关键概念,帮助你快速建立完整的知识框架。
一、LLM(大语言模型)
1.1 什么是LLM
LLM(Large Language Model)是一种基于深度学习的大规模语言模型,通过学习海量文本数据中的语言规律,获得理解和生成人类语言的能力。核心能力:文本生成、逻辑推理、代码编写、翻译、摘要、对话等。
1.2 LLM的演进历程
|
阶段 |
代表模型 |
核心突破 |
|---|---|---|
|
2017 |
Transformer论文 |
提出Self-Attention机制,奠定LLM架构基础 |
|
2018 |
BERT(Google)、GPT-1(OpenAI) |
BERT:双向编码,理解上下文;GPT:单向解码,预测下一个词 |
|
2019-2020 |
GPT-2、GPT-3(175B参数) |
涌现能力(Emergence),In-Context Learning,Few-shot |
|
2022 |
ChatGPT、GPT-3.5、LLaMA |
RLHF对齐训练,指令遵循能力,ChatGPT引爆行业 |
|
2023-2024 |
GPT-4、Claude、Gemini、LLaMA3 |
多模态、长上下文窗口、推理增强、Agent能力 |
1.3 LLM的核心能力
- 语言理解与生成:理解复杂指令,生成连贯、有逻辑的文本
- 上下文学习(In-Context Learning):通过在prompt中提供几个示例,无需微调即可完成特定任务
- 思维链推理(Chain-of-Thought):通过prompt引导模型逐步推理,解决复杂逻辑问题
- 工具使用(Tool Use):调用外部API、执行代码、搜索数据库(Agent的基础能力)
- 代码生成:理解需求并生成可用代码,支持几十种编程语言
1.4 主流LLM一览
|
模型 |
公司 |
特点 |
|---|---|---|
|
GPT-4o/4.5 |
OpenAI |
综合能力最强,多模态,生态完善 |
|
Claude 4 (Opus/Sonnet) |
Anthropic |
安全性、长上下文(200K)、推理能力强 |
|
Gemini 2.5 |
|
原生多模态,最大上下文窗口(1M+) |
|
LLaMA 3/4 |
Meta |
开源最强,社区生态丰富 |
|
DeepSeek V3/R1 |
DeepSeek |
开源,MoE架构,性价比极高,推理能力强 |
|
Qwen 2.5/3 |
阿里 |
中文能力突出,多尺寸选择 |
二、Token
2.1 Token是什么
Token是大模型处理文本的最小语义单元,不是单词,也不是字符。一个Token大约是0.75个英文单词或1.5个中文字符。模型按Token计费和限制上下文长度。
2.2 Token化(Tokenization)过程
- 文本 → Token序列:"今天天气很好" → ["今天", "天气", "很好"] 或 ["今", "天", "天气", "很好"]
- Token → Token ID:每个Token映射为词汇表中的数字ID → [1234, 5678, 9012]
- Token ID → Embedding:ID通过Embedding层转换为稠密向量 → 模型可计算的数值表示
2.3 BPE分词算法
BPE(Byte Pair Encoding)是目前主流分词算法。核心思想:从字符级别开始,统计最高频的相邻字符对,合并为新Token,不断迭代直到预设的词汇表大小(如GPT-4约10万Token)。
- 优势:平衡了词汇表大小(不会过大)和语义完整性(不会过碎);未登录词自动回退到子词或字符级别,不会产生UNK
2.4 Token关键指标
|
概念 |
说明 |
|---|---|
|
上下文窗口 |
模型一次能处理的最大Token数(如128K=约9万中文字或一篇中篇小说)。GPT-4 Turbo 128K,Gemini 1M+,Claude 200K |
|
输入Token |
Prompt消耗的Token数,通常按量计费(如$3/百万Token) |
|
输出Token |
模型生成的Token数,通常比输入贵(如$15/百万Token) |
|
Token速度 |
每秒生成Token数(TPS)。Opus HPC模式可达400+ TPS;普通模型50-100 TPS |
三、Transformer架构
3.1 为什么Transformer是革命性的
2017年Google发表《Attention Is All You Need》,提出Transformer架构。它彻底抛弃了RNN/LSTM的循环结构,用Self-Attention(自注意力)机制实现并行计算,训练效率大幅提升,且能捕捉长距离依赖关系。
3.2 核心组成
Transformer由Encoder(编码器)和Decoder(解码器)两部分堆叠组成。GPT只用Decoder(生成模型),BERT只用Encoder(理解模型),T5两者都用。
Encoder(编码器):将输入序列编码为上下文表示
- Self-Attention:每个词关注序列中所有其他词(包括自己),计算相关性权重。允许模型理解"My car is old. It is blue"中"It"指"car"
- Feed-Forward Network(前馈网络):两层全连接,引入非线性变换,增强表达能力
- Add & Norm(残差连接+层归一化):稳定深层网络训练,防止梯度消失
Decoder(解码器):根据编码表示自回归生成输出
- Masked Self-Attention:生成第N个词时,只能看到前N-1个词(掩码遮住后面的词),保证自回归生成
- Cross-Attention:Decoder关注Encoder输出的上下文表示,将输入信息融入生成过程
3.3 Self-Attention 详解
这是Transformer最核心的机制。每个Token产生三个向量:Q(Query,查询)、K(Key,键)、V(Value,值)。Q与所有K做点积得到注意力权重 → Softmax归一化 → 与V加权求和 → 输出。
Multi-Head Attention(多头注意力):并行走多组Q/K/V(如8个头),每组关注不同的语义关系(语法、指代、语义关联等),最后拼接。类比:多个人从不同角度观察同一事物。
3.4 位置编码(Positional Encoding)
- 问题:Self-Attention并行计算,不知道词的先后顺序。相比RNN天然有时序信息
- 解决:在每个Token的Embedding上叠加位置信息。方法有:正弦位置编码(原始论文)、可学习位置编码(BERT/GPT)、旋转位置编码RoPE(LLaMA/Qwen,目前主流)
3.5 Transformer变体
|
变体 |
说明 |
|---|---|
|
仅Encoder(BERT系列) |
适合理解任务:分类、NER、问答。预训练:MLM(随机遮住一些词,预测它们) |
|
仅Decoder(GPT系列,主流LLM) |
适合生成任务:对话、写作、代码。预训练:自回归预测Next Token |
|
Encoder-Decoder(T5/BART) |
适合转换任务:翻译、摘要。用于特定应用 |
|
MoE(Mixture of Experts) |
每个Token只激活部分参数(如Mixtral 8×7B,每次只用13B)。DeepSeek V3用MoE实现高参数低激活,降低成本 |
四、Agent
4.1 什么是AI Agent
AI Agent(智能体)是一个能够自主感知环境、制定计划、使用工具、执行操作来完成复杂目标的AI系统。可以理解为"能够自主思考和行动的AI",而不只是"一问一答的聊天机器人"。
4.2 Agent vs 普通LLM对话
|
对比维度 |
普通LLM对话 |
Agent |
|---|---|---|
|
交互模式 |
被动问答(一问一答) |
主动规划-执行-观察-反思循环 |
|
能力边界 |
仅靠训练数据中的知识回答 |
可调用外部工具(API/代码/数据库)扩展 |
|
记忆能力 |
单轮/多轮对话记忆(有限) |
短期记忆(上下文) + 长期记忆(向量数据库) |
|
任务复杂度 |
单步任务 |
多步规划与执行(拆分子任务,编排工具调用) |
|
自主性 |
完全依赖用户指令 |
可根据目标自主决定行动路径 |
4.3 Agent的核心组件
- 大脑(LLM):负责理解任务、推理规划、决策判断
- 规划(Planning):将复杂目标拆解为可执行的子任务序列(Task Decomposition + 子目标规划)
- 工具(Tools):API调用、代码执行、网络搜索、数据库查询、文件操作等。工具定义需描述名称、参数、功能
- 记忆(Memory):短期记忆(对话上下文,多轮对话窗口内)+ 长期记忆(向量数据库/RAG存储,跨对话持久化)
- 反思(Reflection):检查执行结果,判断是否达成目标。未达成则调整策略重试(Self-Correction)
4.4 Agent的工作流程
五、ReAct
5.1 ReAct是什么
ReAct(Reasoning + Acting)是2022年提出的Agent推理框架。核心思想:让LLM交替进行推理(Thought)和行动(Action),每步行动后观察结果,再决定下一步推理。将思考和执行紧密结合。
5.2 ReAct vs Chain-of-Thought vs 纯Action
|
模式 |
核心做法 |
局限 |
|---|---|---|
|
Chain-of-Thought(CoT) |
只推理不行动。逐步思考,最终给出结果 |
无法获取外部信息,推理可能基于错误事实 |
|
纯Action(Act-only) |
只有动不思。直接调用工具获取信息 |
缺乏高层次规划,容易盲目执行 |
|
ReAct(推荐) |
推理+行动交替。思考→行动→观察→再思考 |
需要多种工具支持 |
5.3 ReAct执行示例
5.4 ReAct在工程中的应用
- LangChain Agent:ReAct是最核心的Agent模式,通过create_react_agent()实现
- OpenAI Function Calling:本质上是ReAct的变体——Thought(模型内部) → Action(生成function_call) → Observation(函数返回) → 继续生成
- Claude Tool Use:同样遵循ReAct范式,tool_use → tool_result循环
六、A2A(Agent-to-Agent)
6.1 什么是A2A
A2A(Agent-to-Agent)是指多个AI Agent之间直接通信和协作的协议/框架。Google在2025年正式发布了A2A开放协议,旨在让不同厂商、不同框架构建的Agent能够互相发现、通信和协作。
6.2 A2A核心概念
|
概念 |
说明 |
|---|---|
|
Agent Card |
每个Agent的能力描述文档(JSON),声明自己能做什么、支持什么输入输出 |
|
Task |
Agent间传递的任务单元,包含目标、参数、状态 |
|
Message |
Agent间通信的消息格式(文本、结构化数据、Artifact引用) |
|
Artifact |
Agent产出的结构化产物(文档、图片、代码、数据),可在Agent间传递和引用 |
6.3 A2A vs MCP
A2A是Agent之间的协议(Agent如何找Agent、如何协作),解决"Agent与Agent"的通信问题。MCP(Model Context Protocol)是Agent与工具之间的协议(Agent如何发现和使用工具/数据源),解决"Agent与外部资源"的交互问题。两者互补。
6.4 A2A的典型应用场景
- 专业分工:代码Agent + 测试Agent + 文档Agent,各司其职,互传产物
- 跨系统编排:客服Agent发现问题需要升级 → 自动联系后台技术Agent → 技术Agent查日志后返回方案
- 多厂商协作:企业内部使用不同厂商的Agent,通过A2A统一协作
七、多Agent架构
7.1 什么是多Agent架构
多Agent架构是将复杂任务分解给多个专业Agent协作完成的系统设计模式。相比单一Agent(能力有限、上下文容易溢出),多Agent通过分工协作,处理更大规模和更复杂的任务。
7.2 架构模式
|
模式 |
结构 |
适用场景 |
|---|---|---|
|
层次式(Hierarchical) |
一个管理者Agent分配任务给下属Agent,汇总结果 |
任务可分层的场景,如项目管理、多模块开发 |
|
流水线式(Sequential/Pipeline) |
A→B→C顺序执行,后一个以前一个的输出为输入 |
固定的多阶段流程,如代码生成→审查→测试 |
|
辩论式(Debate) |
多个Agent各出方案,互相质疑,综合输出最优解 |
需要多角度考虑的决策,如方案评审、内容质量控制 |
|
投票式(Voting) |
多Agent独立完成任务,投票/择优选出最终结果 |
对准确性要求极高的场景,如代码生成+验证 |
|
去中心化(Decentralized) |
Agent自由通信协作,无中央控制者 |
复杂的开放任务,如科研探索、创意头脑风暴 |
7.3 多Agent的关键挑战
- 通信协议:Agent之间用什么格式交互(A2A正在解决)
- 上下文传递:如何高效传递中间产物而不让上下文膨胀
- 任务分配/调度:如何自动判断该分配给哪个Agent
- 错误传播:上游Agent的错误可能被下游放大
- 成本控制:多Agent意味着多次LLM调用,Token消耗倍增
7.4 落地框架
- LangGraph:基于有向图编排Agent协作流程
- CrewAI:基于角色(Role)的多Agent编排,每个Agent有明确角色定义
- AutoGen(微软):支持复杂多Agent对话和代码生成
- Swarm(OpenAI,实验性):轻量级Agent编排,强调handoff(转交)机制
八、多模态
8.1 什么是多模态
多模态(Multi-modal)指模型能够同时处理和理解多种类型的数据输入:文本、图片、音频、视频、代码等。人类天生就是多模态的,多模态AI更接近人类感知世界的方式。
8.2 多模态的实现方式
统一Embedding空间(主流)
- 文本通过Tokenizer → Token Embedding
- 图片通过Vision Encoder(如ViT/CLIP)→ Image Embedding
- 两者对齐到同一向量空间 → LLM统一处理
- 代表模型:GPT-4V/4o、Gemini、Claude 3.5、LLaVA、Qwen-VL
原生多模态(趋势)
- 训练阶段就包含多模态数据,而非后期拼接
- 代表模型:GPT-4o(omni=全模态,文本+视觉+音频输入输出)、Gemini(原生多模态设计)
8.3 多模态的典型能力
|
能力 |
示例 |
|---|---|
|
图片理解 |
描述图片内容、识别物体、OCR文字提取、"这张图有什么问题?" |
|
视觉推理 |
分析图表数据趋势、看懂UI截图并给出代码、理解梗图 |
|
视频理解 |
总结视频内容、分析动作流程、提取关键帧信息 |
|
音频处理 |
语音转文字(ASR)、音频内容分析、语气情感识别 |
|
图文生成 |
根据描述生成图片(DALL-E/Midjourney)、视频(Sora) |
九、上下文工程
9.1 什么是上下文工程
上下文工程(Context Engineering)是系统性设计和管理LLM输入上下文的技术体系。在提示词之外,还包括:信息检索(RAG)、记忆管理、上下文压缩、结构化组织等。提示词工程关注"说什么",上下文工程关注"给模型什么样的信息环境"。
9.2 上下文工程的核心组成
|
模块 |
要点 |
|---|---|
|
信息检索(RAG) |
从知识库检索相关信息注入上下文。挑战:检索质量(召回率+准确率)、Query Rewriting、HyDE生成假想答案检索 |
|
上下文窗口管理 |
Token有限制,需要合理分配:System Prompt(规则/角色) + 检索信息 + 对话历史 + 当前Query |
|
上下文压缩 |
长期对话需压缩历史:摘要式(关键信息提炼)、滑动窗口式(保留最近N轮)、重要性评估式(保留关键对话轮次) |
|
记忆系统 |
短期记忆(当前会话)、长期记忆(跨会话持久化,用户画像/偏好/知识)、工作记忆(当前任务中间状态) |
|
结构化组织 |
用XML/JSON/特殊分隔符标记不同信息区。让模型清楚区分"指令"、"参考知识"、"对话历史"、"当前问题" |
9.3 上下文工程 vs 提示词工程
提示词工程是上下文工程的子集。写好Prompt很重要,但不给模型提供正确的信息(上下文),再好的Prompt也无用。在RAG和Agent场景中,上下文工程比提示词工程更重要。
十、提示词工程
10.1 什么是提示词工程
提示词工程(Prompt Engineering)是设计和优化LLM输入指令的方法论,通过精心构造Prompt引导模型输出高质量、符合预期的结果。它是与大模型交互的最直接手段。
10.2 核心技巧
|
技巧 |
做法 |
为什么有效 |
|---|---|---|
|
角色设定 |
"你是一个资深Java架构师" |
激活特定领域知识分布 |
|
Few-shot |
给2-3个输入→输出示例 |
In-Context Learning,格式锚定 |
|
Chain-of-Thought |
"让我们一步一步思考" |
引导中间推理步骤,减少跳跃错误 |
|
结构化输出 |
"请用JSON格式输出" |
约束格式,便于下游程序解析 |
|
分步指令 |
"首先...然后...最后..." |
明确执行顺序,避免遗漏步骤 |
|
负面约束 |
"不要包含...不要使用..." |
明确排除不良输出 |
|
思维树(Tree-of-Thought) |
生成多个方案,评估选择最优 |
探索性推理,适合难度大的问题 |
10.3 提示词框架示例
10.4 提示词工程进阶:System Prompt与User Prompt的区分
- System Prompt:设定角色、规则、行为约束、输出格式要求。权重高,适合放持久化设定
- User Prompt:具体的当前问题和上下文(文档、代码、数据)。动态变化
- 原则:System Prompt放不变的规则,User Prompt放变化的数据。两者协作形成完整指令
十一、微调(Fine-tuning)
11.1 什么是微调
微调(Fine-tuning)是在预训练好的大模型基础上,用特定领域的数据继续训练模型的过程。目的是让模型更好地适应特定任务、领域风格或指令格式。类比:通才本科生(预训练)→ 专业研究生(微调)。
11.2 微调 vs 提示词工程 vs RAG
|
对比 |
提示词工程 |
RAG |
微调 |
|---|---|---|---|
|
核心 |
优化输入指令 |
检索外部知识注入 |
调整模型参数 |
|
知识更新 |
无 |
实时更新知识库 |
需重新训练 |
|
成本 |
几无成本 |
中(基础设施) |
高(GPU算力) |
|
适用 |
常规任务、格式控制 |
需要最新知识、海量文档 |
特定风格、领域术语、任务 |
|
幻觉控制 |
弱 |
强(有外部事实约束) |
中(学习了但可能遗忘) |
11.3 微调方法对比
|
方法 |
做法 |
特点 |
|---|---|---|
|
全量微调(Full FT) |
更新所有参数 |
效果最好,计算最贵(需大量GPU)。大模型几乎不可行 |
|
LoRA(Low-Rank Adaptation) |
只训练低秩矩阵增量,冻结原模型参数 |
目前最主流。参数量极少(原模型的0.1%-1%),可插拔。训练快,多LoRA可共存 |
|
QLoRA |
LoRA + 4-bit量化 |
可在单张消费级GPU上微调70B+模型 |
|
Prefix-Tuning / P-Tuning |
学习可训练的"前缀向量"拼接到输入前 |
更轻量,效果略逊LoRA |
|
指令微调(Instruction FT) |
用大量的(指令→回复)数据对训练 |
提升模型指令遵循能力,ChatGPT的关键技术之一 |
|
RLHF/DPO |
基于人类反馈的强化学习 / 直接偏好优化 |
对齐人类偏好,让输出更有用、更安全。ChatGPT成功的核心 |
11.4 什么时候该微调(决策树)
问自己:提示词工程够吗 → 不够 → RAG够吗 → 不够 → 微调。微调适用于:需要特定风格(医学/法律术语)、任务边界清晰且高频(客服话术)、需要模型内化知识(非检索式)的场景。
学习路线建议:
- 入门:理解Token→Transformer→LLM的基础链路
- 上手:精通提示词工程 + 上下文工程,这是使用LLM的核心能力
- 实战:掌握Agent(ReAct)+RAG,这是目前工程应用最广泛的模式
- 进阶:多Agent架构设计 + 微调(LoRA),解决复杂场景和领域特化问题
- 前沿:关注多模态、A2A协议,这是AI应用的下一个方向