AI 相关知识点合集
💡 全文用「开奶茶店」类比讲解,通俗易懂
一、大模型基础介绍
🥤 奶茶店类比:奶茶配方
大模型就像奶茶店的独家配方:
• 模型参数 = 配方里的材料比例(糖放多少,茶煮多久)
• 注意力机制 = 做奶茶时知道顾客要少糖少冰,重点关注这些特殊要求
• MoE混合专家 = 奶茶店分不同窗口:一个做果茶,一个做奶茶,一个做咖啡,专人干专活,更快更好
• Token = 做奶茶的最小单位:一勺糖、一勺茶、一勺珍珠
1.1 如何加载和运行一个大模型
配图:1.1 如何加载和运行一个大模型
核心加载流程:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained('模型名')
model = AutoModelForCausalLM.from_pretrained(
'模型名',
torch_dtype='auto',
device_map='auto'
)
inputs = tokenizer(prompt, return_tensors='pt')
outputs = model.generate(**inputs, max_new_tokens=50)
关键参数:
torch_dtype='auto':自动选择最优数据类型device_map='auto':自动分配到最快设备(通常是GPU)trust_remote_code=True:国产模型需开启此参数
💡 生活化案例
你可以把这个过程想象成点外卖。AutoTokenizer 就像外卖骑手把你的文字订单(自然语言)拆分成餐厅能看懂的标准化菜单项(Token ID);AutoModelForCausalLM 就像餐厅后厨,根据你的订单自动安排最合适的厨师(数据类型)和灶台(GPU/CPU)开始炒菜;最后 generate 就是厨师一盘一盘给你出菜,一盘就是一个Token,炒好50盘就停止。
1.2 大语言模型架构发展历程
配图:1.2 大语言模型架构发展历程
- 第一代 RNN(1986):开创序列建模循环范式,梯度消失问题,长距离依赖弱
- 第二代 LSTM(1997):门控机制,建模距离扩展至100-200 tokens
- 第三代 Transformer(2017):自注意力机制,抛弃循环,训练速度提升数十倍
- 第四代 MoE(2021+):稀疏激活,总参数数百亿,每次推理只激活少量专家
- 第五代候选 Mamba(2023):状态空间模型,线性复杂度,理论上处理百万token
💡 生活化案例
这就像快递行业的分拣进化史:
RNN就像一个分拣员一件件扫描快递,前面的扫完才能扫后面,慢而且容易忘记前面扫过哪些;
LSTM给分拣员配了记忆小本子,能记住更长的快递单信息,但还是要一个个来;
Transformer直接雇了100个分拣员同时扫,每个人都能看到全部快递,速度一下子飞起来了;
MoE更聪明:雇了100个专家分拣员,但每个快递只让最懂这个区域的2-3个专家来分,其他人休息,既省钱又高效;
Mamba相当于搞了个自动分拣流水线,快递直接滑过去自动分类,理论上能处理无限长的快递带,速度更快。
1.3 文本向量化技术:Tokenization原理
配图:1.3 文本向量化技术:Tokenization原理
Tokenization:将连续文本拆分为语义相对完整的词元(token),再映射为唯一ID
- BPE(字节对编码):GPT-2、BART、LLaMA 采用,合并高频相邻字符对
- WordPiece:BERT 采用,基于最大似然估计逐步合并词 fragments
- SentencePiece:Google 通用工具,把空格当特殊字符处理
Token估算:1个英文单词≈1.3 Token;1个汉字≈1-2 Token
💡 生活化案例
Tokenization就像拼乐高。一篇文章就是一整盒乐高颗粒,你要把零散颗粒拼成几个有意义的积木块(Token),然后每个积木块都有唯一编号,模型才能看懂。比如"我爱人工智能",不会一个字算一块(5个Token),也不会整句话算一块(1个Token),通常会拼成"我爱"、"人工"、"智能"这样3块(3个Token),这样模型既看得懂又不浪费空间。
1.4 注意力机制详解
配图:1.4 注意力机制详解
- Query-Key-Value 三元组:Q = X·W_Q,K = X·W_K,V = X·W_V
- 注意力权重:Attention = softmax(Q·K^T / √d_k)
- 多头注意力(Multi-Head):多独立子空间并行,捕捉不同依赖类型
- GQA(分组查询注意力):多Q头共享K/V头,降低内存带宽(主流)
- MLA(多头潜在注意力):DeepSeek采用,K/V压缩到潜在空间,KV缓存压缩95%
💡 生活化案例
注意力机制就像你考试做阅读理解。拿到一篇文章,Q就是你要回答的问题("作者是什么观点?"),K就是文章里每一句话的关键词,V就是每句话的具体内容。你会下意识地给和问题(Q)相关的句子(K)更高的关注度(权重),从那些句子里找答案(V)。多头注意力就是同时好几个同学从不同角度读文章,有人找观点,有人找证据,有人找结构,最后汇总答案更准。GQA就像大家共用一份文章复印件(K/V),不用每人印一份,省纸又省时间。
1.5 混合专家模型(MoE)架构原理
配图:1.5 混合专家模型(MoE)架构原理
- MoE核心:用专家网络替换标准前馈网络,路由器选择Top-K专家激活
- DeepSeek-V3:总参数6710亿,激活37亿,256专家,8路由+1共享专家
- 无辅助损失负载均衡:引入可学习偏置项,避免辅助损失干扰收敛
- 专家自发专化:不同专家处理不同领域(数学/法律/代码)
- 稀疏激活核心价值:6710亿参数知识储备,算力成本仅与370亿密集模型相当
💡 生活化案例
MoE就像一家大型综合医院。医院总共有256个科室专家(总参数6710亿),但你来看病,挂号系统(路由器)只会给你分配对应的几个专家(比如你看感冒,只激活呼吸科专家,激活参数只有37亿),不会让所有专家都来给你会诊——既省钱(省算力)又专业(每个专家只干擅长的)。你做个全身检查,就会激活多个科室专家,还是比所有医生一起上便宜多了。
1.6 模型参数详解
配图:1.6 模型参数详解
- 参数量(#Params):7B = 7×10⁹ 个参数,模型规模大小
- 隐藏维度(d_model):每层中间表示的向量维度,如4096
- 层数(Layers):Transformer Block数量,小模型12-16层,大模型48-80层
- 注意力头数(num_heads):常见8、16、32、64,d_head = d_model/num_heads
- 上下文长度(seq_len):单次推理最大Token数,典型:2k/8k/32k/128k/1M
💡 生活化案例
模型参数就像一家餐馆:
参数量就是餐馆总营业面积,越大能放的菜品(知识)越多
隐藏维度就是每个餐桌能坐多少人,越大能同时处理越复杂的问题
层数就是餐馆有几层楼,一楼做家常菜,二楼做西餐,三楼做宴会,层数越多功能越分层
注意力头数就是餐厅有多少个服务员同时帮你点菜,越多越能同时注意到你不同需求
上下文长度就是你一张桌子能放多少盘菜,越大你能一次点越多菜,能聊越长的话题
1.7 Layer Normalization(层归一化)
Layer Norm是Transformer里每个子层(Self-Attention和FFN)都用的标准化操作,用来让训练更稳定。公式是:y = x / √(E[x²] + ε) * γ + β。其中E[x²]是均方根(不是均值),γ是缩放参数,β是平移参数。
- Pre-LN vs Post-LN:Post-LN是原始Transformer里LayerNorm在残差连接之后(输出才归一化),训练不稳定;Pre-LN是LLaMA等现代模型用的,在残差分支里面就归一化,训练更稳定,百层网络也能训练
- RMSNorm:LLaMA用的简化版,只算均方根E[x²],不做均值centering,计算更快,效果几乎一样
💡 生活化案例
Layer Norm就像评委打分时的标准化:
比如有5个评委分别给奶茶打分5、6、4、5、10分,直接平均是6分,但10分那个评委太极端
Layer Norm就是去掉最高分和最低分,只看中间评委的平均分,让评价更公平更稳定
RMSNorm就是只去掉极端分,不算平均分,看分数的"离散程度",算起来更快,但效果差不多
Pre-LN就是在每个评委看完选手就给分(残差分支内部归一化),Post-LN就是所有评委看完再一起给总分(输出归一化),分步给分更稳定
1.8 残差连接(Residual Connection)
残差连接是让Transformer能叠上百层的关键技术。把输入x直接"抄近路"加到输出上:output = x + SubLayer(x),即使SubLayer学坏了,x本身还能传下去,梯度也能直接回传,解决了"深层网络训练不动"的问题。
💡 生活化案例
残差连接就像抄书时留底稿:
你想把一本书重新抄一遍,传统方法就是从头读、重新写——如果写到中间写错了就全毁了
残差连接就是在抄的时候,底稿一直都在,你想在哪一页重新抄都行,抄错了没关系,从底稿那一页继续抄
网络越深,能保留的"底稿"就越多,就算中间几十层都学坏了,底稿(原始输入)还在,梯度还能从输出直接传回输入,训练就不会"断了"
1.9 前馈网络(Feed Forward Network, FFN)
FFN是Transformer每个Block里的另一个核心组件,由两个全连接层构成,中间用非线性激活函数:FFN(x) = W₂ × σ(W₁ × x)。维度从d膨胀到4d再缩回d,就像汉堡包的中间那层酱料,把输入"放大思考"再"收缩输出"。
- 维度从d→4d→d,膨胀4倍是经验最优(LLaMA、GPT都用这个比例)
- SwiGLU比ReLU/GELU更好:门控机制能动态决定哪些信息"通过",像LLaMA 2/3用的就是SwiGLU
- FFN参数占整个Transformer参数的约2/3,是压缩知识的关键组件
💡 生活化案例
FFN就像汉堡包的中间那层酱料:
第一层W₁(从d维到4d维)就像把普通塑料餐盒换成外卖盒,容量扩大4倍,一口气可以装很多食材
激活函数就像"只放顾客要的酱",动态过滤,不是所有食材都往里塞
第二层W₂(从4d维回到d维)再收缩回正常大小的餐盒,只保留最精华的那部分
所以FFN的作用是:先把信息放大、充分"思考"各种可能性,再收缩提取最重要的部分
1.10 因果掩码(Causal Mask)
因果掩码是让Transformer能自回归(AR)生成的核心机制:生成第N个Token时,只能看到位置1到N-1的历史信息,不能"偷看"后面的内容。通过在Softmax前把非法位置设为负无穷(-∞)实现。
💡 生活化案例
因果掩码就像期末考试阅卷:
阅卷老师只能看当前学生的卷子和之前学生的卷子(看到过去),绝对不能偷看后面同学的卷子
这样才能保证公平:第3个学生的答案不能参考第4个学生写的
自回归生成也一样:生成第5个词时,只能用前4个词的信息,不能参考还没生成的第6、7、8个词
因果掩码就相当于每个学生考试时,在自己卷子和前面同学卷子之间拉一道帘子,后面的人看不到
1.11 SwiGLU激活函数
SwiGLU是LLaMA系列模型使用的激活函数,结合了Swish门控和GLU(门控线性单元)的优点:SwiGLU(x) = Swish(W₁x) ⊙ Sigmoid(W₂x) ⊙ W₃x。三个投影+W₁,W₂,W₃,需要更多参数,但表达能力更强。
💡 生活化案例
SwiGLU就像一个有过滤网的奶茶杯:
W₁x → Swish:把奶茶倒进第一个杯子,看看这个味道有没有用
W₂x → Sigmoid:生产一个"认可度",越接近1越认可,接近0就拒绝
Hadamard积(⊙):把认可度和前面的味道相乘,认可度高就保留,认可度低就过滤掉
W₃x:第三个投影再处理一遍,做最终的味道调整
所以SwiGLU比普通激活函数(如ReLU)多了两层过滤,能更精细地决定什么信息"通过",什么信息"挡住",表达能力更强,LLaMA用SwiGLU比用GELU效果更好
1.12 RoPE旋转位置编码
RoPE(Rotary Position Embedding)是LLaMA等现代模型使用的位置编码方式,通过给Query和Key乘以旋转矩阵来引入位置信息,是"相对位置编码"而非"绝对位置"。公式涉及复数旋转:RoPE(q_m, k_n) = ⟨R_θ,m·q_m, R_θ,n·k_n⟩ = ⟨q_m, k_n⟩,这意味着只有当m=n(相对位置为0)时点积才最大,正好编码"越近越相关"的规律。
💡 生活化案例
RoPE就像餐厅里根据"相对座位距离"决定互动强度:
绝对位置编码:就像给每个座位编号001号、002号、003号,模型记住的是"003号和002号坐得近"
RoPE:不给座位编号,只看两个人之间隔了几个座位,距离近就多聊天,距离远就少聊
RoPE的核心思想:重要的不是"你在哪个座位",而是"你和其他人隔了多近"
餐厅例子:坐在你左边隔1个座位的人(位置2)和坐在你右边隔1个座位的人(位置4),都和你"隔了1个人",互动模式类似——RoPE就是编码这种相对关系
1.13 GQA/MQA(分组/多查询注意力)
MHA(Multi-Head Attention)每个头有独立的Q、K、V投影,参数量大;MQA让所有Q头共享一个K和V头,KV缓存减少32倍但效果下降;GQA是折中方案:多个Query头分组共享K/V头(如LLaMA 2 70B:32个Q头共享8个K/V头),在效果和效率间取得平衡。
💡 生活化案例
GQA就像会议室里的"资料分发员":
MHA:每个服务员都有自己的一叠资料(Q头×32,K头×32,V头×32),资料分发速度慢,因为每来一个新员工就要分发32份资料
MQA:只有1个服务员有资料,所有服务员都找他要,效率高但太集中,容易成为瓶颈
GQA:8个服务员各有分工,每组4个服务员找同一个资料分发员要资料,这样分工均匀、效率也高
就像LLaMA 2:32个Query头分8组,每组共享1个K/V头,资料分发快了3倍,但效果几乎不变
1.14 KV缓存的作用
自回归生成(AR Decoding)时,每个新Token都需要和之前所有Token做Attention。如果没有KV缓存,每次生成新Token都要重新计算之前所有Token的K和V,浪费99%的计算。KV缓存把之前所有Token的K和V存下来,每次只计算新Token的Q,然后和新Token的K一起做Attention。
💡 生活化案例
KV缓存就像解题时用草稿纸记录中间步骤:
没有KV缓存:每次求新答案,都要重新把前面的推导过程再算一遍,相当于草稿纸擦了又写、写了又擦
有KV缓存:把前面的中间结果(K和V)写在草稿纸上,每次只算新的一步,再把新结果加到草稿纸上
这样第100步的解题,只需要算第100步的计算量,而不用重新算前99步
但草稿纸(KV缓存)会越写越多,占用桌面空间(显存),写到8K个Token时,草稿纸能堆满整个桌面——这就是长上下文的显存压力
1.15 LoRA/QLoRA(低秩适配微调)
全参数微调需要更新所有模型权重(如70B模型要存储70B个参数的梯度,优化器状态,光GPU显存就需要几百GB),普通硬件根本跑不动。LoRA的核心思想是"冻结原模型,只训练小的旁路矩阵": LoRA就像给大照片加"小透镜":
混合精度训练是现代大模型训练的标配:用FP16/BF16做大部分计算(快,省显存),用FP32存主权重和梯度(精度不丢失),用BF16算力最强(NVIDIA Ampere+原生支持,动态范围比FP16大一倍)。BF16的指数位和FP32一样是8位,不会溢出,更适合训练。 混合精度训练就像"重要文件双份保存,日常用复印件":
Gradient Checkpointing(也称激活重计算)用时间换空间:前向传播时不保存所有中间激活值,只保存每隔几层的"检查点";反向传播时从最近的检查点重新算前向,一路算到需要激活值的地方。代价是额外30%的计算量,换来80%的显存节省。 Gradient Checkpointing就像图书馆不设书架,看书时现去取:
单卡装不下大模型,需要多种并行策略配合使用。 四种并行就像餐厅的四种分工模式:
标准Attention需要先把所有中间S = Q·Kᵀ(n×n矩阵)存到HBM(显存),再Softmax,再存O = Softmax(S)·V,显存峰值是O(n²)。FlashAttention通过Tiling(分块计算)+ Online Softmax,把显存峰值降到O(n),同时不损失精度。实际效果:H100上FlashAttention-2比标准Attention快2-4倍,显存节省10-20倍。 FlashAttention就像分段核算大型考试分数:
GPU就是奶茶店的厨房设备:
更新说明(2026年):
W = W₀ + ΔW = W₀ + B × A,其中A是d×r的降维矩阵,B是r×d的升维矩阵,r<
💡 生活化案例
原模型W₀就是一张巨大的照片(d×d = 4096×4096 = 1600万像素),不能直接拿着到处跑
LoRA就是在这张大照片上放一个小透镜(A和B的组合),只训练透镜的参数
透镜只有巴掌大(r×d + d×r ≈ 2×4096×64 = 52万个参数),任何显卡都能跑
拍完照(训练完),把透镜和照片叠加得到新照片(W' = W₀ + BA),以后看新照片不用每次拿透镜了
QLoRA更进一步:先把照片压缩成拇指大小的缩略图(4bit NF4量化),再加小透镜训练,这样70B的大照片单卡24GB就能训练1.16 混合精度训练
💡 生活化案例
FP32主权重:就像你的工作文档原件,存两份在不同的硬盘里,丢了就完了,绝对不能只用一份
FP16/BF16计算:日常编辑和审阅用复印件,速度快一倍、打印纸省一半
FP32梯度:计算修改意见时用复印件上的墨迹强度(梯度),墨迹深改得多、浅改得少
最终改完后,把修改合并到原件里,保持原件不变
BF16比FP16更好:就像复印件的墨水浓度范围(动态范围)和原件一样大,不会把"很深的墨迹"和"很浅的墨迹"都复印成同一种颜色1.17 Gradient Checkpointing(梯度检查点)
💡 生活化案例
没有Checkpointing:图书馆每个学生发一个专属书架,把书都提前摆好,看书快但书架占满整个图书馆
有Checkpointing:图书馆不设书架,只有一个中央书架,放最关键的书(检查点)。学生要看书?去中央书架现取,看完还回去
好处:书架数量大大减少(节省60-80%的书架空间)
代价:每次要翻找(重新计算),多花15-30%的时间
权衡:用额外30%的计算时间,换来能跑得下大模型——值!1.18 张量并行/流水线并行/数据并行
💡 生活化案例
数据并行DP:每个厨师都有一模一样的完整食谱(完整模型),同时给不同的桌做菜,做完比较谁的菜更好,再汇总意见(梯度平均)
张量并行TP:一个大火锅(单层)太重一个人端不动,拆成底料、肉类、蔬菜三份,三个人各端一份同时煮,速度快3倍,但需要三人之间互相传递食材(GPU间通讯)
流水线并行PP:做火锅分步骤备料→炒锅→加汤→出菜,四个人每人只做一个步骤,像流水线一样往下传,不用每个人都会全套
专家并行EP:就像医院挂号室分流,不同专科(专家)分布在不同窗口,挂号员(Router)把病人分配到对应专科,减少专科空转1.19 FlashAttention:算子融合的极致
💡 生活化案例
标准Attention:把全校1万张卷子全部铺开在地上(显存),一次性全部批完,场地要非常大(O(n²)显存)
FlashAttention:每次只批一个班(64份卷子)的卷子,批完收起来放一边,再拿下一个班的。全程只要能铺一个班的卷子就够了(O(n)显存)
速度反而更快:不用每次都在大场地(显存)里翻找,SRAM(桌上)空间虽小但速度极快,每次只用一张桌子就够了
关键洞察:卷子(中间矩阵)不用全部同时摊开,批完一个班再批下一个班——用时间换空间二、GPU架构与算力指标
🥤 奶茶店类比:厨房设备
• 显存容量 = 冰箱大小,越大能放的原材料(模型参数)越多
• 显存带宽 = 厨房门口的过道宽度,越宽原材料进出越快,出餐不堵
• 计算算力 = 厨师数量,越多一次性做的奶茶越多
• Tensor Core = 全自动摇奶茶机,比人工摇快10倍
• NVIDIA GPU = 进口高端设备,啥都能做,就是贵;国产GPU = 国产高性价比设备,够用还便宜
2.1 GPU架构演进历程
架构 年份 代表型号 显存类型 带宽 核心升级 Ampere 2020 A100 HBM2e 1.6TB/s 第三代Tensor Core Hopper 2022 H100 HBM3 3.35TB/s FP8原生支持,第四代Tensor Core Blackwell 2024 H200/B200 HBM3e 4.8TB/s 更大显存,第五代Tensor Core,支持FP4 Rubin (GB10/GB20) 2026 GB200 NVL2 HBM3e/HBM4 8.4TB/s (HBM4) 第六代Tensor Core,FP4原生,支持3D堆叠
💡 生活化案例
GPU架构升级就像高速公路升级:
Ampere就是双向四车道,时速限速120
Hopper就是双向八车道,加宽了货车车道(FP8),时速提到160
Blackwell就是双向十二车道,又加宽了应急车道(更大显存),新修了超宽车道(FP4),大货车(大模型)跑起来更爽了
2.2 GPU关键性能指标体系
配图:2.2 GPU关键性能指标体系
- 显存指标:容量(GB)决定能加载多大模型,带宽(GB/s)决定Decode阶段速度
- 计算指标:FP32/FP16/BF16/FP8 算力,决定Prefill阶段计算效率
- Tensor Core:专为矩阵乘法设计的硬件,FP16比CUDA核心快数百倍
- 互联指标:NVLink带宽,多卡GPU间数据传输,对大规模推理至关重要
💡 生活化案例
GPU就像快递公司的分拣中心:
显存容量就是仓库大小,仓库越大能放越多包裹(模型参数)
显存带宽就是仓库门口的马路宽度,马路越宽,包裹进出越快,分拣中心就能更快把包裹(Token)一个接一个送给你(Decode)
计算算力就是分拣工人数量,工人越多,一次性批量处理越多包裹,第一次打包(Prefill)就越快
Tensor Core就是自动分拣机器人,专门干矩阵乘法这种重活,比人工(CUDA核心)快几百倍
NVLink就是多个分拣中心之间的连接通道,通道越宽,多个中心合作分拣越快
2.3 大模型推理的GPU需求分析
配图:2.3 大模型推理的GPU需求分析
- 显存需求:FP16训练70B参数约需840GB,推理仅需约140GB(3-4倍差距)
- 推理显存构成:模型参数(每10亿参数约2GB)+ KV缓存(与并发数×序列长度正相关)
- 选型建议:千亿参数→H100/B200×多卡;百亿→A100 80GB/H200;中等→L40/L4;开发→RTX 4090/RTX 4080
💡 生活化案例
开电影院放电影(推理)和拍电影(训练)需要的场地不一样:
拍电影(训练)需要全剧组上百人,器材灯光都得放,所以需要巨大摄影棚(840GB显存)
放电影(推理)只需要一个放映厅,把拷贝放进去放就行,只需要140GB够了
电影拷贝越大(模型参数越多),放映厅需要的存拷贝的柜子就越大(显存容量),你同时放越多场电影(并发越高),放电影需要的过道缓存就越大(KV缓存)
2.4 2026年主流GPU型号性能对比
完整参数对比表(国内外所有主流型号)
| 厂商 | 型号 | 定位 | 显存 | 显存带宽 | FP16/BF16算力 | TDP | 生态 | 核心特点 |
|---|---|---|---|---|---|---|---|---|
| 国外厂商 | ||||||||
| NVIDIA | B200 SXM | 数据中心训练 | 144GB HBM3e | 4.8TB/s | 11520 TFLOPS (FP8) | 1000W | ⭐⭐⭐⭐⭐⭐ | 当前顶级,万亿参数训练 |
| NVIDIA | H200 SXM | 数据中心推理 | 141GB HBM3e | 4.8TB/s | 1979 TFLOPS (FP8) | 700W | ⭐⭐⭐⭐⭐⭐ | 千亿推理最佳选择 |
| NVIDIA | H100 SXM | 训练推理 | 80GB HBM3 | 3.35TB/s | 989 TFLOPS (FP8) | 700W | ⭐⭐⭐⭐⭐⭐ | 目前生产主力 |
| NVIDIA | A100 SXM | 训练推理 | 80GB HBM2e | 2.0TB/s | 312 TFLOPS (FP16) | 400W | ⭐⭐⭐⭐⭐⭐ | 百亿参数性价比之王 |
| NVIDIA | L40S | 推理/微调 | 48GB GDDR6 | 864GB/s | 1890 TFLOPS (FP8) | 350W | ⭐⭐⭐⭐⭐⭐ | 中等规模推理首选 |
| NVIDIA | RTX 4090 | 消费级开发 | 24GB GDDR6X | 1.0TB/s | 330 TFLOPS (FP16) | 450W | ⭐⭐⭐⭐⭐⭐ | 个人开发性价比无敌 |
| AMD | MI400X | HPC/训练 | 128GB HBM3 | 3.5TB/s | 1578 TFLOPS (FP16) | 560W | ⭐⭐⭐⭐ | 国际第二选择 |
| 国产厂商 | ||||||||
| 华为 | 昇腾 910B2 | 训练推理 | 64GB HBM2e | 1.2TB/s | 376 TFLOPS (FP16) 762 TOPS (INT8) | 310W | ⭐⭐⭐⭐⭐⭐ | 国产目前主力,生态完善 |
| 华为 | 昇腾 920 | 训练推理 | 80GB HBM3 | 2.4TB/s | 576 TFLOPS (FP16) | 350W | ⭐⭐⭐⭐⭐ | 国产第一,对标H100,2025年大规模量产 |
| 华为 | 昇腾 930 | 训练推理 | 128GB HBM3e | 3.8TB/s | 1120 TFLOPS (FP8) | 450W | ⭐⭐⭐⭐⭐ | 2026年最新量产,对标B200,FP8性能大幅提升,支持FP4量化 |
| 百度 | 昆仑芯 3代 P800 | 训练推理 | 96GB HBM3 | 4.0TB/s (评论提及) | ~480 TFLOPS | 350W | ⭐⭐⭐⭐ | 显存超大,文心一言适配 |
| 百度 | 昆仑芯 3代 | 训练推理 | 64GB HBM2e | 1.6TB/s | 320 TFLOPS | 300W | ⭐⭐⭐⭐ | 标准款 |
| 百度 | 昆仑芯 2代 | 推理 | 32GB GDDR6 | 512GB/s | 128 TFLOPS | 220W | ⭐⭐⭐⭐ | 推理市占不错 |
| 海光 | K100 AI | 训练推理 | - | 896GB/s | - | - | ⭐⭐⭐⭐ | 兼容CUDA,带宽不错 |
| 海光 | DCU 4000 | 训练推理 | 80GB HBM3 | 2.0TB/s | 500 TFLOPS | 350W | ⭐⭐⭐⭐ | 兼容CUDA,对标A100 |
| 海光 | DCU 3000 | 训练推理 | 64GB HBM2e | 1.0TB/s | 280 TFLOPS | 300W | ⭐⭐⭐⭐ | 兼容CUDA,迁移成本最低 |
| 寒武纪 | 思元 590 | 训练推理 | 64GB HBM3 | 2.0TB/s | 384 TFLOPS | 350W | ⭐⭐⭐⭐ | 产品线完整 |
| 寒武纪 | 思元 370X | 推理 | 32GB GDDR6 | 512GB/s | 192 TFLOPS | 300W | ⭐⭐⭐⭐ | 推理性价比高 |
| 沐曦 | 曦云 C550 (MXN3000) | 训练推理 | 64GB HBM2e | 1.6-1.8TB/s | 240 TFLOPS (FP16) 560 TOPS (INT8) | 300W | ⭐⭐⭐ | 显存带宽一骑绝尘 |
| 沐曦 | MXI3000 | 推理 | 32GB GDDR6 | 768GB/s | 128 TFLOPS | 220W | ⭐⭐⭐ | 推理专用 |
| 阿里燧原 | 云燧 T40 | 训练推理 | 64GB HBM2e | 1.6TB/s | 320 TFLOPS | 300W | ⭐⭐⭐⭐ | 阿里内部大规模使用 |
| 阿里燧原 | 云燧 i40 | 推理 | 32GB GDDR6 | 800GB/s | 160 TFLOPS | 250W | ⭐⭐⭐⭐ | 推理专用 |
| 天数智芯 | 天域 150S | 训练推理 | 32GB HBM2 | 1.0TB/s | 224 TFLOPS (FP16) 384 TOPS (INT8) | 300W | ⭐⭐⭐ | 入市较早 |
| 天数智芯 | 天垓100 | 训练推理 | 32GB HBM2 | 1.0TB/s | 128 TFLOPS | 300W | ⭐⭐⭐ | 老款 |
| 壁仞科技 | BR100 | 训练推理 | 64GB HBM2e | 2.0TB/s | 1024 TFLOPS (BF16) | 500W | ⭐⭐⭐ | 峰值算力高,推出早 |
| 壁仞科技 | BR104 | 推理 | 32GB GDDR6 | 800GB/s | 256 TFLOPS (BF16) | 300W | ⭐⭐⭐ | 推理专用 |
| 砺算科技 | TrueGPU | 图形/推理 | - | - | - | - | ⭐⭐ | 新进国产图形GPU玩家 |
| 摩尔线程 | MTT S80 | 推理/消费级 | 24GB GDDR6X | 816GB/s | 150 TFLOPS | 300W | ⭐⭐⭐ | 消费级+数据中心双布局 |
| 景嘉微 | JM9 | 图形/推理 | 16GB GDDR5 | 400GB/s | 50 TFLOPS | 200W | ⭐⭐⭐ | 主打桌面图形 |
| 平头哥 | 曳影1520 | 边缘PPU | 16MB On-Chip | - | 12.8 TOPS (INT8) | 10W | ⭐⭐⭐⭐ | 端侧AI,探索IDC应用 |
概念澄清
- 阿里燧原:做数据中心GPU,训练推理都支持,和华为海光定位一样,是数据中心产品,阿里云计算大规模使用
- 平头哥PPU:架构定义是Processor Processing Unit,不同于传统GPU,目前曳影1520主打低功耗边缘端侧AI推理,但行业也在探索PPU架构在数据中心IDC的应用可能性
知乎文章最新数据补充(2025年9月)
- 华为昇腾 910B2:FP16算力 376 TFLOPS,INT8推理算力 762 TOPS,比原910B提升
- 百度昆仑芯 3代 P800:给到 96GB HBM3 超大显存,评论区提及显存带宽可达 4.0TB/s,显存容量业界领先
- 沐曦 曦云 C550:显存带宽 1.6-1.8TB/s,FP16 240 TFLOPS,INT8 560 TOPS,带宽表现突出
- 海光 K100 AI:显存带宽 896 GB/s,表现不错
- 天数智芯 天域 150S:FP16 224 TFLOPS,INT8 384 TOPS
- 新增国产玩家:砺算科技,推出TrueGPU系列,主打图形GPU
💡 生活化案例(GPU市场格局)
GPU市场就像货运行业:
英伟达B200/H200就是18米超大进口货柜车,马力大,能拉超级重的超长货物,全国高速都修好了(CUDA生态),就是贵
华为昇腾920就是国产的16米重卡,马力接近进口车,拉国内的货足够用,还能走国内的专用高速(CANN生态),比进口车便宜,政府采购都愿意用
海光DCU就是用了国外技术合资生产的卡车,几乎和进口车一模一样,你原来跑进口车的司机直接就能开,不用重新学,转产成本最低
燧原就是阿里自家车队,主要给阿里自己拉货,外面用得少
平头哥PPU就是电动三轮车,拉点小区快递小货,不能拉大卡车的重货,定位不一样,也在探索拉小批量进城货
RTX 4090就是家用皮卡车,拉个几吨货完全没问题,价格只有重卡的十分之一,个人拉点小货太香了
2026年GPU行业格局总结
- 全球市场:NVIDIA仍然占据数据中心90%+市场,CUDA生态护城河极深,短时间难以撼动,H100/H200/B200仍是生产首选,2026年新一代Rubin架构GB200开始逐步交付,成为万亿参数模型训练新标杆
- 中国市场:华为昇腾领先明显,910B2生态完善市占第一,920性能接近H100,2025年已经大规模放量;2026年最新量产昇腾930性能对标B200,FP8算力达1120 TFLOPS,配备128GB HBM3e,市场份额进一步提升
- 国产完整玩家图谱:
- 第一梯队:华为昇腾(生态性能双优,2026年市占超40%)
- 第二梯队:百度昆仑芯(3代P800 96GB HBM3大规模落地)、海光(DCU 5000对标H100量产)、寒武纪(思元690发布)、沐曦(曦云 C600量产)、阿里燧原(云燧 T50大规模落地)、天数智芯,各有特色
- 新进图形GPU:砺算科技TrueGPU系列2026年大规模商用
- 边缘端侧:平头哥曳影2000发布,性能提升3倍
- AMD依然是国际第二选择:MI500在2026年发布,性能接近B200,HPC和AI训练市场份额小幅提升,但AI大模型生态仍不如NVIDIA完善
- 个人开发:NVIDIA RTX 4090/4090D仍是首选,2026年RTX 5090上市,支持24GB/48GB显存版本,AI推理性能提升1.8倍
2.5 多卡互联技术:NVLink vs PCIe vs InfiniBand
多卡训练/推理时,GPU之间的互联带宽是决定能否有效并行的关键瓶颈。单卡算力再强,互联带宽不够,卡间通信就会成为瓶颈。
| 互联技术 | 带宽(双向) | 延迟 | 典型场景 | 类比 |
|---|---|---|---|---|
| PCIe 5.0 ×16 | 128 GB/s | ~1μs | 消费级多卡训练(传统方式) | 城市普通公路,多车并线 |
| NVLink 4.0 (H100) | 900 GB/s | ~1μs | 高端训练,单机多卡 | 8车道高速,路路直通 |
| InfiniBand HDR | 200 GB/s | ~1.5μs | 多机通信,多千卡集群 | 城际高速,需过路费 |
| NVLink 5.0 (B200) | 1800 GB/s | ~1μs | 2026年旗舰GPU互联 | 超级8车道高速 |
💡 生活化案例
多卡互联就像餐厅后厨的传菜通道:PCIe就像手推车传菜通道,宽度一般,一次只能推几份菜;NVLink就像全自动传送带,直接把菜从后厨送到前厅,宽度大7倍;InfiniBand就像城际高速公路,多个餐厅之间送食材,速度快但有过路费(额外延迟)。
2.6 Tensor Core:矩阵乘法专用硬件加速
Tensor Core是NVIDIA在Volta架构引入的矩阵乘法专用硬件单元,在Hopper(H100/H200)上支持FP16/BF16/FP8矩阵乘法,单核Tensor Core每周期能做256 FLOPs(CUDA Core只能做4 FLOPs),速度快64倍!
💡 生活化案例
Tensor Core就像全自动摇奶茶机 vs 手工用勺子:CUDA Core是通用处理器(勺子),Tensor Core是专用奶茶机(按一个按钮,同时处理多份原料,速度快几十倍)。Transformer里90%的计算都是矩阵乘法,所以Tensor Core能快百倍——就像奶茶店99%的活都是摇奶茶,专用奶茶机vs手工的差距就是百倍。
三、大模型算力需求理论分析
🥤 奶茶店类比:人力需求计算
算力需求就是奶茶店需要多少人手:
• 训练模型 = 研发新奶茶配方,要试几百次配比,需要大量厨师(算力)研发好几个月
• 推理模型 = 按照现成配方做奶茶,只需要按步骤来,比研发省很多人手
• 训练算力公式 = 研发一款新奶茶需要的总工时 = 配方复杂度 × 试验次数
• 推理算力公式 = 做一杯奶茶需要的工时 = 配方复杂度 × 奶茶杯数
3.1 训练阶段算力需求计算
配图:3.1 训练阶段算力需求计算
核心公式:训练总算力(FLOPs)≈ 6 × 模型参数量(N)× 训练语料Token数(T)
- 公式推导:前向传播 ≈ 2×N×T,反向传播 ≈ 4×N×T,合计 ≈ 6×N×T
- DeepSeek-V3:671×10⁹ × 14.8×10¹² ≈ 5.95×10²⁵ FLOPs
- Qwen3.5 7B:7×10⁹ × 10¹² = 4.2×10²² FLOPs
💡 生活化案例
训练大模型就像把一本几百万字的百科全书抄一遍。公式里6就是你抄一遍要写6个字的力气(前向写一遍,反向检查改一遍,总共差不多6倍力气),参数量就是这本书总共有多少个知识点,Token数就是总共有多少个字,乘起来就是你抄完这本书总共需要花多少力气。DeepSeek-V3这本超级大百科,全世界所有人一起抄都得抄好几年,但是只用花不到600万美元电费就搞定了——因为GPU这个抄书机器人太能干嘛。
3.2 推理阶段算力需求分析
配图:3.2 推理阶段算力需求分析
核心公式:推理算力(FLOPs)≈ 2 × 模型参数量(N)× 输出Token数(O)
- 自回归生成:每个Token生成需一次完整前向传播,每次约 2×N FLOPs
- 典型案例:30B参数模型生成100个Token,推理算力 ≈ 6×10¹² FLOPs
💡 生活化案例
推理就像你看完这本书,别人问你一个问题,你从书里找答案回答。每回答一个字(Token)都得把整本书知识点过一遍,所以力气就是两倍知识点乘以回答字数。回答100个字,就是看两遍知识点 × 100,力气就出来了。比训练抄一遍书力气小多了。
3.3 训练 vs 推理:算力需求对比
配图:3.3 训练 vs 推理:算力需求对比
- 算力差异:训练是推理的10⁴~10⁶倍(万亿Token训练 vs 百级Token推理)
- 显存差异:训练是推理的3-4倍,需额外存储梯度和优化器状态
- 计算特性:训练为密集型计算,推理Decode阶段为访存密集型(Memory Bound)
- 优化方向:训练靠算力堆叠,推理靠带宽和内存管理
💡 生活化案例
训练就像建一座水电站大坝,需要天文数字的水泥钢筋(算力),特别大一块地方放材料(显存);推理就像水电站发电,只需要你按需求放水,需要的日常维护空间比建坝小多了,关键是放水渠道要宽(显存带宽),不然水放不出来,电发不出来。
3.4 典型模型算力需求汇总
| 模型规模 | 训练算力(FLOPs) | 推理(100 Token)算力(FLOPs) |
|---|---|---|
| 7B密集 | 4.2×10²² | 1.4×10¹² |
| 70B密集 | 4.2×10²³ | 1.4×10¹³ |
| DeepSeek-V3(671B MoE) | 5.95×10²⁵ | ≈37B密集模型 = 7.4×10¹² |
💡 生活化案例
这个表就像不同大小汽车的油耗:7B就像小轿车,百公里(100 Token)耗油很少;70B就像大卡车,油耗就上去了;DeepSeek-V3虽然看着参数特大,就像双层大巴,但是其实每次只有前几排坐人,油耗也就和一个中巴车差不多。
四、大模型的运算时间
🥤 奶茶店类比:出餐速度
运算时间就是奶茶店的出餐速度:
• Prefill预填充阶段 = 顾客点单后,先把所有材料都准备好(珍珠煮好、茶泡好、糖加好),这一步一次搞定,不管做几杯都只准备一次
• Decode解码阶段 = 一杯一杯装杯封口,做一杯出一杯,每一杯都要花时间
• TTFT首Token延迟 = 顾客点单到拿到第一杯的时间
• TPS生成速度 = 每分钟能做好多少杯奶茶
4.1 单用户单请求场景分析
配图:4.1 单用户单请求场景分析
- Prefill阶段(预填充):处理用户输入Prompt,计算密集(Compute Bound),BatchSize=输入长度
- Decode阶段(解码生成):自回归逐Token生成,访存密集(Memory Bound),BatchSize=1
- 核心指标:TTFT = 首Token延迟(Prefill耗时);TPS = Tokens Per Second(生成速度)
- 端到端延迟 = TTFT + (输出Token数 ÷ TPS)
💡 生活化案例
你问AI一个问题,AI回答就像泡方便面:
Prefill阶段就是拆包装、放料、加开水,这一步需要你动手(计算),从你拿到方便面到盖上盖子,这个时间就是TTFT(首包延迟)
Decode阶段就是泡好了一口一口吃,每一口就是一个Token,一分钟吃多少口就是TPS(吃的速度)
总时间就是从你拿到方便面到你吃完,等于开盖时间加吃的时间——如果面太多,吃的时间占大部分
4.2 阶段耗时实测数据
测试环境:A100 40GB,Llama 2 7B,输入512 Token
| 输出Token数 | Prefill耗时 | Decode耗时 | 总计 |
|---|---|---|---|
| 50 | 230ms | 890ms | 1.12秒 |
| 200 | 230ms | 3.6秒 | 3.83秒 |
| 500 | 230ms | 8.9秒 | 9.13秒 |
结论:Decode耗时随输出长度线性增长,是主要优化方向
💡 生活化案例
还是那个泡面例子,不管你吃多少,拆包装加开水时间差不多都是230毫秒,但是你吃50口和吃500口时间差远了,所以吃的速度决定总时间,要快就得吃的快。
4.3 延迟优化方向
配图:4.3 延迟优化方向
- Prefill慢(>2秒):增大BatchSize,换算力更强GPU,使用FlashAttention-3
- Decode慢(TPS<20):换高带宽GPU(H100/H200),减少并发数,优化KV缓存管理
- 显存不足:INT8量化(-50%显存),减少BatchSize,截断上下文长度
💡 生活化案例
如果泡面拆包太慢(Prefill慢),你就提前把料包都分好(增大Batch),或者找个手更快的人帮你拆(换更强GPU);如果吃太慢(Decode慢),你就换一张更宽的桌子(高带宽),别同时好多人一起吃(减少并发);如果桌子太小放不下整碗泡面(显存不够),你就把面饼掰一半吃(量化压缩),别一次泡太多(减少Batch)。
五、推理引擎与优化技术
🥤 奶茶店类比:出餐流程优化
推理引擎就是奶茶店的出餐流程优化方案:
• vLLM = 流水线作业,提前备好所有小料,顾客点单直接组装,并发高,一次能出几十单
• TensorRT-LLM = 老手厨师,所有步骤都优化到极致,最快速度出餐,低延迟
• PagedAttention = 智能冰箱管理,材料按需取用,不浪费冰箱空间,利用率90%+
• 量化技术 = 把大桶奶茶分装成小杯,同样的冰箱能放更多,出餐更快
5.1 主流推理引擎技术架构
配图:5.1 主流推理引擎技术架构
- vLLM(UC Berkeley/开源):PagedAttention,连续批处理,高并发吞吐,显存利用率90%+;2026年vLLM 0.7更新:原生支持MLA/KV缓存压缩、MoE专家调度优化、Chunked Prefill、自动设备映射,支持超过10000并发,吞吐较v0.4提升2.3倍
- TensorRT-LLM(NVIDIA):算子融合,FP8量化(Hopper/Blackwell原生),极致低延迟;2026年1.0正式版更新:支持DeepSeek MLA、FlashAttention-3、FP4量化、动态批处理优化,推理延迟较0.6版本降低40%,Blackwell架构下性能提升显著
- SGLang(开源社区):RadixAttention,前缀共享,适合长上下文和复杂工作流;2026年更新:支持函数调用工作流编排、百万级上下文缓存复用,长文档处理性能领先
- TGI(HuggingFace):开箱即用,动态批处理,流式输出,模型版本管理,生态完善
💡 生活化案例
推理引擎就像不同快递公司的分拣系统:
vLLM特别会用仓库空间,能挤下更多快递并发,送的总件数最多
TensorRT-LLM特别擅长把好几个分拣步骤揉成一步,分拣最快,单个快递出来最慢不超时,追求极致速度
SGLang特别擅长处理长地址,很多快递地址前缀都一样,它只存一次,特别省空间
TGI就是菜鸟驿站,啥快递都能收,不用怎么配置就能用,就是速度没前几个快
5.2 推理优化核心技术
配图:5.2 推理优化核心技术
- PagedAttention(vLLm):KV缓存分页管理,类似OS虚拟内存,内存碎片接近零
- 连续批处理:动态合并不同请求的Decode步,GPU利用率显著提升
- 量化技术:FP16→INT8(-50%显存,1.5-2x速度)→INT4(-75%显存,2-4x速度)
- 推测解码:小模型快速预测多个Token,大模型并行验证,Decode步数减少2-3倍
💡 生活化案例
这些优化就像停车场管理:
PagedAttention就是智能停车场,不管你什么车型都能塞进去,几乎没有空位浪费,能停更多车
连续批处理就是把多辆车凑一波一起抬杆子进去,不用一辆抬一次,提升效率
量化就是把车停到立体车库,同样面积能停两倍四倍车,虽然上下麻烦一点,但总数量上去了,而且大部分车都能停
推测解码就是让保安帮你快速看一下车牌,提前抬杆,不用等系统慢慢验证,加快进库速度
5.3 Continuous Batching(连续批处理)
传统Static Batching:把多个请求凑成一组同时推理,但必须等所有请求完成(最慢的请求拖慢整体)才能发出下一批。Continuous Batching(动态批处理/Iteration-level batching)更进一步:在每个Token生成完后,立即把已完成推理的请求腾出位置,让新请求"插队"进来一起推理,不用等整批完成才能加入。
💡 生活化案例
Continuous Batching就像快餐店里的"并锅炒":
Static Batching:快餐店把10份炒饭单子凑成一锅一起炒,但必须等最慢的一份(点了加料的)做完,才能把整批一起出餐,前面9份都要等
Continuous Batching:厨房不是等整批做完,而是每炒好一盘就端出去,立即把新的炒饭单子补进来,厨房从不空转
快餐店翻台率(=GPU吞吐)从1小时5批→1小时20批,多接了很多单
这就是为什么vLLM和SGLang推理速度比普通方法快3-5倍的原因之一
5.4 Speculative Decoding(推测解码)
自回归生成每次只能出一个Token,是串行的,即使GPU算力很强也要等。Speculative Decoding用"小模型一次猜多个Token,大模型验证"的策略提速:用小模型(Draft Model,如7B)一次生成4-8个候选Token,再用大模型并行验证每个Token是否正确,正确的就直接接受,错误的就回退——大模型验证4-8个Token的算力代价 << 大模型自己生成4-8个Token的时间。
💡 生活化案例
Speculative Decoding就像"助理写提纲、领导审阅":
传统方式:助理每次只写一行字,领导逐字审核后才让写下一行(慢,串行)
推测解码:助理先快速写一个完整提纲(4-8行),领导一次性审阅全部(快,并行)
助理写的快的部分(Token接受率高≈60-80%)领导直接批准,跳过中间步骤
助理写错的部分(接受率低的Token),领导指出后从那个点重新写
总时间比逐字汇报快2-3倍:助理写4行提纲很快,领导一次性审完也很快
5.5 Chunked Prefill(分块预填充)
Prefill阶段处理用户输入(计算密集),Decode阶段生成Token(访存密集)。当一个长Prompt进入推理系统时,会长时间占据GPU做Prefill,导致后面的短请求等待(Head-of-Line Blocking),P99延迟飙升。Chunked Prefill把长输入切成多个小块(chunk),与系统中的其他请求混合调度,交替做Prefill和Decode,保证GPU不空闲。
💡 生活化案例
Chunked Prefill就像银行柜员同时服务排队的人:
没有Chunked Prefill(普通模式):来了个大额转账业务(长Prompt),柜员处理10分钟,后面的10个人都排队等着,等出意见(超时投诉一堆)
Chunked Prefill:柜员每次处理大行业务的一小部分(chunk),处理完一小块就去接待排队的普通客户(一两个简单的),交叉处理
每个人都不用等太久(没有单一请求独占),P99延迟(最倒霉那个人的等待时间)大幅降低
长Prompt最终也能处理完,只是被切成小块"见缝插针",整体效率更高
5.6 KV缓存Offloading(卸载)
长上下文场景(如100万Token),KV缓存会占用大量显存(数百GB),导致GPU无法承载高并发请求。KV Cache Offloading策略把不活跃会话的KV缓存卸载到CPU内存甚至NVMe SSD,释放GPU显存给活跃请求。当不活跃会话再次被激活时,再从CPU/SSD加载回来。
💡 生活化案例
KV缓存Offloading就像会议室用完恢复原状:
开完会后,所有会议室里都有投影仪、白板、矿泉水(= KV缓存占满GPU)
如果一直不清理,以后每次开会都要申请新会议室,但会议室数量是有限的
Offloading策略:开完会后把会议室恢复原状(卸载),投影仪放回仓库(CPU),用完的矿泉水箱放地下室(SSD)
新会议随时可以申请到"干净的会议室"(释放显存给活跃请求)
如果那个"仓库/地下室"的会议要重新开(用户再次访问),就去取回来(重新加载),虽然要几秒钟,但比没地方开会好多了
5.7 Prefix Caching / RadixAttention(SGLang)
SGLang的核心优化:多个请求如果共享相同的前缀(如"你是一个Python编程助手"),它们的KV缓存在Prefill阶段会被完全共享,不需要重复计算。RadixAttention是SGLang维护的Radix Tree(基数树)结构,把所有请求的KV缓存的前缀树存储在显存中,相同前缀只需计算一次。
💡 生活化案例
Prefix Caching就像同一公司员工用同一模板写报告:
没有Prefix Caching:10个员工都要先手抄一遍"公司抬头、保密协议、审批流程"(共同前缀),然后各自写自己的正文,效率很低
有Prefix Caching:只打印一份模板放在桌上,所有人直接用这份模板写正文,不用重复排版
RadixAttention:就是给所有模板建了一个索引系统,新员工来先查有没有现成模板,有就直接用,没有就新建模板
就像编程助手场景,每个用户都先输入"你是一个Python编程助手",Prefill可以复用,多用户并发时效率大幅提升
5.8 EP/DP分离部署架构
Prefill(计算密集)和Decode(访存密集)的算力需求差异极大:Prefill需要高算力但显存带宽要求一般;Decode需要高显存带宽但算力要求一般。EP/DP分离架构(Expert Parallelism / Data Parallelism)把Prefill阶段和Decode阶段分开调度到不同类型的GPU上:Prefill用高算力GPU(如H100,Tensor Core强),Decode用高带宽GPU(如H200,141GB/s带宽),用Transfer Engine连接。
💡 生活化案例
EP/DP分离架构就像火锅店"前厅快、厨房慢"的分工:
传统同构部署:前厅和后厨都是同一批人(同一批GPU),客人点完单后,前厅要等后厨出菜,后厨要等前厅接待,效率都受影响
EP/DP分离:前厅专门雇跑得快的人(Prefill池 = 高算力GPU),专门负责接待快速问需求;后厨专门雇能同时处理多份菜的师傅(Decode池 = 高带宽GPU),专门负责慢工出细活
前后台互不干扰:前台不堵(快速响应),后台稳定出菜(高并发长输出),整体效率最大化
这就是为什么DeepSeek-V3上线时用EP/DP分离,成本降到原来1/4
5.9 性能优化方法汇总
配图:5.3 性能优化方法汇总
- KV缓存复用:降低显存占用50-70%,所有推理场景适用
- 算子融合:减少内存访问,提升计算效率,所有场景适用
- 批处理优化:提升GPU利用率30-50%,高并发场景效果显著
- 混合精度:FP16→INT8,速度提升1.5-2x,精度损失可接受
💡 生活化案例
优化就像餐厅上菜:
KV缓存复用就是你点过的菜厨房记下来,下次点不用重新切配,直接炒,省时间省空间
算子融合就是切完菜直接炒,不用切完放案板再转移到炒锅,少倒一次手,省时间
批处理优化就是一桌人点的菜一起炒,别一个一个炒,省火省时间
混合精度就是小菜用便宜盘子装,大菜用好盘子,既省了盘子钱,客人也满意
5.10 推理服务性能基准测试
测试环境:A100 40GB,Llama 2 7B,输入512 Token
| 引擎 | 并发 | Token/s | P99延迟 | 显存占用 |
|---|---|---|---|---|
| HuggingFace原生 | 1 | 22 | 2800ms | 14.2GB |
| vLLM 0.4 | 16 | 896 | 450ms | 36.8GB |
| TensorRT-LLM | 8 | 1200 | 180ms | 12.8GB |
💡 生活化案例
这个测试就像不同餐厅出菜速度,同样的厨房(A100)同样的菜品(Llama 2 7B):
原生HuggingFace就是家庭小厨房,一次做一个菜,一分钟出22盘,等最后一盘要2.8秒
vLLM就是中型餐馆,一次做16盘,一分钟出近900盘,最差情况也只等0.45秒,就是占了大厨房
TensorRT-LLM就是高端米其林,专门优化了出菜流程,一分钟出1200盘,最差情况只等0.18秒,还不占厨房空间
5.11 2026年前沿推理技术进展
🥤 奶茶店类比:最新的门店运营黑科技
这些是2026年大规模落地的前沿技术,相当于奶茶店最新的运营黑科技,能让效率再提升30%-50%。
1. EP/DP分离架构(Encoding Processing / Decoding Processing 分离)
也叫PD分离(Prefill/Decode分离),把推理的两个阶段拆分到不同硬件上运行:
- EP阶段(预填充/编码):处理用户输入,计算密集型,分配给高算力GPU(如昇腾930、B200)
- DP阶段(解码/生成):逐Token生成,访存密集型,分配给高带宽GPU(如H200、昇腾910B2)
- 收益:整体成本降低20-30%,硬件利用率从40%提升到70%+,是当前大厂的主流部署架构
💡 生活化案例
奶茶店把"备料"和"装杯"分开:
备料(EP)需要力气大、速度快的厨师,专门在后台切水果、煮珍珠,一次备几十份的量
装杯(DP)需要手巧、速度稳的员工,专门在前台装杯封口,一杯一杯出
原来一个人既要备料又要装杯,忙不过来,现在分开后,效率直接翻倍,还不会出错。
2. Chunked Prefill(分块预填充)
把长输入拆分成多个小块,分批进行预填充,避免长输入独占GPU算力,大幅提升长上下文场景下的并发能力:
- 解决问题:原来1个10万Token的长请求会独占GPU几十秒,其他请求全部卡住
- 优化效果:长请求和短请求可以混合调度,P99延迟降低60%
- 2026年主流引擎vLLM 0.7+、TensorRT-LLM 1.0+均已原生支持
💡 生活化案例
有顾客点了100杯奶茶的大订单,原来要等他的100杯全部做完才接后面的单,后面的顾客要等半小时。
现在改成做20杯就插1杯其他顾客的小订单,大订单虽然慢几分钟,但小订单不用等很久,整体体验好很多。
3. Speculative Decoding(推测解码)
用一个小模型快速"猜"接下来的多个Token,再用大模型一次性验证,不用逐Token生成:
- 核心逻辑:小模型猜8个Token,大模型一次验证,猜对了直接用,猜错了再重新生成
- 收益:生成速度提升2-3倍,成本几乎不增加
- 进阶版:Medusa、Lookahead Decoding等技术,2026年已大规模应用
💡 生活化案例
熟客点单,服务员不用等他说完就知道他要"珍珠奶茶少冰三分糖",直接告诉后厨做,等顾客说完刚好做了一半。
猜对了就省很多时间,猜错了也不影响,重新做就行,整体出餐速度快很多。
4. KV Cache Offloading(KV缓存卸载)
把不活跃的KV缓存从GPU显存卸载到CPU内存/SSD,需要的时候再加载回来,大幅提升单卡支持的并发数:
- 收益:单卡支持的并发会话数从128提升到1024+,长会话场景成本降低80%
- 适合场景:客服、聊天机器人等用户停留时间长的场景
💡 生活化案例
奶茶店把暂时不用的原材料从冰箱移到旁边的冷藏柜,冰箱里只放当前在用的材料,这样冰箱能放更多当前要用的材料,不用每次进货都等空位置。
5. FP4 低精度量化
把模型参数从FP16压缩到FP4,显存占用减少75%,推理速度提升3-4倍,精度损失可接受:
- NVIDIA Blackwell架构、华为昇腾930均已原生支持FP4硬件加速
- 2026年千亿参数模型推理的标配技术,70B模型FP4量化后仅需35GB显存,单张消费级卡就能跑
💡 生活化案例
原来用大桶(FP16)装原材料,现在换成小杯(FP4)装,只要标注清楚是什么材料,用量一样准,同样的冰箱能放4倍的材料,还不影响使用。
6. MLA(多头潜在注意力)
DeepSeek提出的下一代注意力架构,把KV缓存压缩到潜在空间,KV缓存大小减少95%:
- 解决问题:百万上下文场景下KV缓存占几十GB显存,根本放不下
- 效果:100万Token上下文的KV缓存仅需5GB显存,2026年新出的大模型基本都支持MLA架构
💡 生活化案例
原来每个顾客的订单都要打印整张A4纸存着,现在改成把订单信息压缩成一个二维码,贴在杯子上,存1000个订单只需要一个小盒子,不用占一整个文件柜。
六、智能体安全沙箱技术
6.1 ReAct机制
配图:6.1 ReAct机制
ReAct = Reason(思考)+ Act(执行)+ Observe(观察)三阶段循环
- Reason:分析任务、识别缺口、制定行动计划
- Act:选择工具(搜索/计算/代码),构建参数并执行
- Observe:获取结果,提取关键信息,更新知识库和推理状态
💡 生活化案例
ReAct就像你解数学题:
先看题目想思路(Reason):这道题要算面积,我记得公式,但是不知道半径,得先找半径
然后拿出计算器算半径(Act):输入直径除以2
然后看计算器结果对不对(Observe):哦,半径算出来了,现在可以套公式算面积了
然后循环...直到算出答案
6.2 Agent核心循环与状态机设计
配图:6.2 Agent核心循环与状态机设计
状态机:Pending(等待分配)→ Running(执行中)→ Waiting_Tool(等待工具)→ Completed/Failed
超时机制:防止死循环;重试策略:Transient失败自动重试;熔断:持续失败停止调用
💡 生活化案例
这就像快递配送流程:
快递在仓库等着分配快递员就是Pending
快递员在路上送就是Running
快递员在你家门口等你下楼就是Waiting_Tool
你签收了就是Completed,你不在家送不了就是Failed
如果快递员三次找不到你,就不送了带回网点,这就是熔断
6.3 安全沙箱架构设计
配图:6.3 安全沙箱架构设计
| 沙箱类型 | 技术 | 冷启动时间 | 安全等级 |
|---|---|---|---|
| Firecracker MicroVM | KVM+独立内核 | 125-150ms | ⭐⭐⭐⭐⭐⭐ |
| OCI容器 | namespace+cgroup隔离 | <50ms | ⭐⭐⭐⭐☆ |
| gVisor | 用户空间轻量内核 | <50ms | ⭐⭐⭐⭐☆ |
Tool Proxy模式:API Key永远留在控制平面,沙箱只有临时Token
💡 生活化案例
安全沙箱就像医院隔离病房:
Firecracker就是单间负压隔离病房,完全独立,空气都不跟外面通,安全等级最高,就是准备病房要一点时间
Docker容器就是普通隔离病房,用帘子隔开,也能做到基本隔离,准备快,安全性差一点点
Tool Proxy就是你病人要开药,医生从外面给你递进去,药方钥匙医生拿着,病人只能拿到当天要吃的药,不会把整盒药都拿进去
6.4 Kubernetes沙箱容器实现
配图:6.4 Kubernetes沙箱容器实现
- KubeCon 2025里程碑:Google正式发布Agent Sandbox(Kubernetes SIG)
- 生命周期四步:Warmup预热→Claim申请→Assign分配→Destroy销毁
- 预热机制:提前启动空闲沙箱池,降低冷启动延迟
- 快照回收:任务结束后立即清理所有用户数据,防止数据泄露
💡 生活化案例
这就像商场的临时试衣间:
商场开门前就把几个试衣间打扫干净准备好了,这就是Warmup预热
你来了要试衣服,前台给你分配一个,这就是Claim申请→Assign分配
你试完走了,服务员马上进去清理干净,把你丢的纸都收走,给下一个人用,这就是Destroy销毁和快照回收
6.5 沙箱类型与应用场景
配图:6.5 沙箱类型与应用场景
- Cloud-Hosted(E2B):云端托管MicroVM,冷启动<1s,完整隔离,适合SaaS产品
- Local-Process:本地进程执行,冷启动即时,无隔离,适合内部工具
- API-Open:API开放型,无冷启动,无隔离,适合公开数据处理
💡 生活化案例
Cloud-Hosted就像外面的共享办公空间,你用你的,我用我的,互相不干扰,安全;Local-Process就像你自己家里书房,你想用就用,没人管你,就是没隔离;API-Open就像小区门口便利店,谁都能进,卖的都是公开商品,不用隔离。
6.6 临时沙箱 vs 常驻沙箱
配图:6.6 临时沙箱 vs 常驻沙箱
- 临时沙箱:任务结束时销毁,冷启动延迟较大,资源按需分配,安全隔离强
- 常驻沙箱:保持运行,无冷启动延迟,资源长期占用,适合长会话(>50步)
- 选型建议:简单任务(<10步)→临时沙箱;复杂Agent→常驻沙箱;混合→预热池+动态切换
💡 生活化案例
临时沙箱就像一次性筷子,用完就扔,干净卫生,就是每次要用都得拆包装;常驻沙箱就像家里的筷子,一直放在筷子筒,用了洗洗下次再用,不用每次拆,就是一直占着你家筷子筒位置。
6.7 沙箱管理与调度系统
配图:6.7 沙箱管理与调度系统
- 调度层(K8s Operator):管理沙箱生命周期,声明式API,自动扩缩容
- 资源池:Firecracker池/Docker池/gVisor池,支持多租户隔离
- 监控指标:日志拉取、指标收集、快照管理、异常告警
- BYOC模式:客户自带云账号,沙箱运行在客户VPC内,满足金融/医疗合规
💡 生活化案例
沙箱调度就像酒店前台:
Operator就是前台经理,管着所有房间(沙箱)的入住退房,客人多了多开房间,客人少了关房间
资源池就是不同类型的房间(豪华房/标准房/经济房),不同客人住不同房
BYOC就是你自己买了酒店公寓,让酒店帮你管理,房间在你自己买的楼层,你的隐私数据都在你自己这儿,酒店只帮你打扫,符合高端客户隐私要求
6.8 BYOK:客户自带Kubernetes集群
BYOK(Bring Your Own Kubernetes)是一种企业级部署模式:客户用自己的Kubernetes集群运行Agent服务,Agent运行在客户的VPC(私有网络)里,数据不出客户环境,满足金融、政务等强合规要求。平台只提供Agent镜像和编排系统,客户自己管理底层集群。
💡 生活化案例
BYOK就像自带食材去饭馆加工:传统托管模式是把你公司的机密文件带到外面的打印店打印,打印店能接触到你的文件;BYOK模式是把打印机器租给你,直接放在你自己公司里用,打印店(平台)只负责定期来给机器做保养,自己公司的文件永远不会离开公司——食品安全自己负责(合规),饭馆只收加工费(按调用收费)。
6.9 沙箱管理调度:预热与生命周期
Agent沙箱的调度非常复杂:用户请求到达时需要毫秒级启动沙箱;沙箱运行完需要清理数据、恢复环境;BYOK模式下还要处理多租户隔离。核心概念:Pre-warm(预热沙池)+ Warmup(实例预热)+ Claim(分配)+ Destroy(销毁)。
💡 生活化案例
沙箱管理就像酒店房间管理:Pre-warm(预热)就是酒店提前把房间打扫干净、空调开好;Claim(分配)就是客人办入住时前台立即分配已经准备好的空房间,不用等打扫;Destroy(销毁)就是客人退房后,房间彻底恢复原状——换床单、清垃圾、重置所有东西,就像从未有人住过一样。BYOK多租户隔离就是同一酒店不同楼层分给不同公司(租户),物理隔离。
6.10 Tool Proxy安全模式
Tool Proxy是Agent安全架构的最后一层防线:即使沙箱被攻破,API Key也不会泄露。机制:API Key只存在于控制平面,沙箱要调用Tool时发请求给Tool Proxy,Proxy在内部用Key调用外部服务,把结果返回给沙箱——沙箱永远只知道"有某个API能查天气",但不知道API Key是什么。
💡 生活化案例
Tool Proxy就像POS机不让你看到银行卡密码:无Tool Proxy就是你去超市买东西,收银员把你的银行卡和密码一起收走然后自己刷卡——密码泄露风险;Tool Proxy就是POS机有安全键盘,你自己输入密码,超市收银员只看到"已付款",永远不知道密码。Agent场景中,即使沙箱被完全控制,攻击者中→配送中→已完成/已取消
七、AI基础设施架构设计
🥤 奶茶店类比:连锁奶茶店运营体系
AI基础设施架构就是连锁奶茶店的整体运营体系:
• 应用编排层 = 前台收银,给顾客点单,推荐合适的产品,高峰时引导顾客分流
• 模型工程层 = 研发部门,优化奶茶配方,把大份配方改成小份,降低成本
• 推理引擎层 = 后厨流程,标准化出餐步骤,保证速度和质量
• 异构硬件层 = 中央厨房,统一采购设备和原材料,不同设备做不同产品,最大化效率
7.1 应用编排层:流量治理与智能路由
配图:7.1 应用编排层:流量治理与智能路由
- 意图分类:识别用户请求类型(问答/代码/摘要/对话),分发至对应专业模型
- 流量调度:根据负载自动扩缩容,多版本模型A/B测试,金丝雀发布
- 降级策略:高负载时自动切换至轻量模型,保证可用性
- 成本监控:Token级成本核算,实时Dashboard,优化ROI
💡 生活化案例
应用编排层就像医院导诊台:
导诊台护士先问你哪儿不舒服(意图分类),你感冒了就去呼吸科(专业模型),你骨折了就去骨科(另一个专业模型),不用都去全科
如果今天呼吸科人太多了(高负载),就让轻症先去全科看看(降级策略),保证医院不挤爆
护士还会统计每天每个科室看了多少病人,花了多少成本,帮医院算账(成本监控)
7.2 模型工程层:模型压缩与版本管理
配图:7.2 模型工程层:模型压缩与版本管理
- 量化压缩:FP16→INT8(-50%显存,1.5-2x速度)→INT4(-75%显存,2-4x速度)
- 知识蒸馏:大模型教小模型,保持核心能力同时降低推理成本
- 结构化剪枝:去除冗余神经元和连接,保留核心能力
- MoE路由优化:专家调度策略优化,减少跨节点通信开销
💡 生活化案例
模型工程就像把一个大西瓜(大模型)变成方便吃的西瓜块:
量化就是把西瓜皮削掉,把籽去掉,重量轻了一半多,不影响你吃西瓜瓤
知识蒸馏就是大西瓜挤出来西瓜汁,小杯子也能装下,味道还是那个西瓜味
剪枝就是把西瓜上坏的地方切掉,只留好的能吃的部分,更轻更好带
7.3 推理引擎层:硬件加速与架构解耦
配图:7.3 推理引擎层:硬件加速与架构解耦
- 算子融合:10+个细粒度CUDA内核合并为1个,减少内核启动开销和内存访问
- 多精度支持:FP16/BF16/INT8/FP8自适应,根据硬件选择最优精度
- 动态批处理:根据请求负载自动调整BatchSize,流式输出
- MLA/GQA引擎级优化:KV缓存压缩,适配DeepSeek/Qwen等主流架构
💡 生活化案例
推理引擎就像厨房炒菜:
算子融合就是切完菜直接炒,不用切完放案板再转移到炒锅,少倒一次手,省时间
多精度支持就是不同锅炒不同菜,铁锅炒肉,砂锅炖汤,都能用最合适的锅
动态批处理就是来了几个客人点同一个菜,一次炒出来,别一个一个炒,省火省时间
7.4 异构硬件层:统一调度与资源池化
配图:7.4 异构硬件层:统一调度与资源池化
- NVIDIA主导格局:H100/H200/B200系列占据数据中心90%+市场,CUDA生态护城河极深
- 国产方案进步:华为昇腾910B/920与H100性能差距缩小至20%以内,CANN软件栈完整,已经在国内信创市场大规模落地;寒武纪、海光也占据一定份额
- 统一调度层:整合GPU+NPU+FPGA,通过Kubernetes实现算力池化,统一调度,按需分配
💡 生活化案例
异构硬件调度就像物流公司调度车队:
英伟达就是进口大卡车,性能好跑得快,全国高速都修好了(CUDA生态),大部分货都是它拉
国产卡就是国产卡车,性能接近进口了,价格更便宜,走国内国道省道(国内信创)完全没问题,现在越来越多人用
统一调度就是物流调度中心,不管你是啥牌子卡车,有货就派出去拉,谁空着谁拉,不浪费运力
八、OpenClaw实战案例分析
🥤 奶茶店类比:连锁奶茶店管理系统
OpenClaw就是奶茶店的智能管理系统:
• SOUL.md = 奶茶店的品牌定位和服务标准,比如"主打新鲜水果茶,服务热情",规定了所有门店的风格
• MEMORY.md = 奶茶店的老顾客档案,记住老顾客的喜好(比如张三要少糖,李四要去冰)
• 每日日志 = 每天的营业记录,今天卖了多少杯,什么卖得好,有什么问题
• 心跳机制 = 店长每半小时巡一次店,看看有没有缺货,有没有设备坏了,不用等顾客投诉才发现
8.1 记忆机制与可塑性设计
配图:8.1 记忆机制与可塑性设计
- SOUL.md:定义AI人格和语气,塑造Agent性格,规定沟通风格
- MEMORY.md:长期记忆,重要决策、偏好、持久事实,仅在主要私人会话中加载
- memory/YYYY-MM-DD.md:每日对话日志,仅追加,会话开始时读取今天和昨天内容
- 三层记忆的价值:每次启动从文件恢复,而非从零开始,真正具备连续性
💡 生活化案例
这三层记忆就像你的大脑记忆:
SOUL.md就是你的性格,你天生就是内向还是外向,说话什么风格,一辈子不怎么变
MEMORY.md就是你长期记忆,你家在哪,你手机号多少,你喜欢吃什么,这些都是重要信息,记一辈子
每日日志就是你今天做了啥,昨天见了谁,这些最近的事情你记得清楚,时间久了不重要的就忘了,重要的才转去长期记忆
8.2 上下文窗口管理机制
配图:8.2 上下文窗口管理机制
- 上下文窗口:发送给模型的全部内容上限,受Token限制(如128K)
- 窗口内容构成:记忆文件 + SOUL/AGENTS文件 + 当前会话历史 + Skill内容
- 软阈值触发Memory Flush:Token余量不足时,静默提醒将重要信息写入记忆文件
- 压缩保留策略:超出窗口时自动摘要,保留关键信息,丢弃次要细节
💡 生活化案例
上下文窗口就像你书包,书包大小有限(Token限制),只能装这么多书。你每天上学,先装你的性格说明书和长期知识点(记忆文件),再装今天上课要用到的课本笔记(当前会话),如果装不下了,就把上周已经考完的卷子摘要一下,只留分数,把卷子扔掉,腾出空间放新书。
8.3 Token优化策略:处理超长输入
配图:8.3 Token优化策略:处理超长输入
- 技能按需加载:仅在任务相关时加载对应Skill,减少Token消耗
- 历史截断:超出限制时自动摘要压缩,保留关键信息
- 工具结果精简:tool call结果自动摘要后存入上下文
- 记忆刷新:持久信息写入memory/文件,上下文腾出空间
💡 生活化案例
Token优化就像你打包行李去旅行,箱子大小有限:
你去海边就只带夏装,不用带冬天羽绒服(技能按需加载)
去年的旅行发票没用了就扔了,只留发票照片摘要(历史截断)
外卖小票吃完就扔了,只保留订单号(工具结果精简)
重要地址电话记在你笔记本(记忆文件)里,不用一直放箱子里(记忆刷新)
8.4 心跳机制:防止AI失联
配图:8.4 心跳机制:防止AI失联
- 心跳机制:定期触发的主动检查机制,让AI从被动响应转向主动工作
- 触发间隔:默认30分钟(可配置),读取HEARTBEAT.md任务清单
- 执行逻辑:检查环境状态→执行待办→静默或通知(NO_REPLY)
- HEARTBEAT.md设计:短checklist,避免token浪费;无需通知的内容静默执行
💡 生活化案例
心跳机制就像你家闹钟,每天定点响:闹钟响了你就看看今天要做什么,有没有快递要拿,有没有垃圾要倒,然后做完该做的,不打扰主人,没大事就不说话。
九、Transformer架构详解:从地基到封顶
Transformer是大模型的地基,理解了它的每一层结构,就理解了整个大模型的工作原理。本章用"盖楼房"类比,从最底层讲起,把每层建筑材料的作用讲清楚。
9.1 残差连接:让百层高楼成为可能的秘密
残差连接(Residual Connection)是Transformer能叠到100层以上的核心原因。每个Block的输出不是简单的y = f(x),而是y = x + f(x)(输入和输出相加)。即使子层f(x)完全没学到东西(f(x)=0),输出还是x,梯度也能直接回传到底层。所以残差连接就像楼房的钢筋,让100层的高楼不会因为地基不牢而倒塌。
💡 生活化案例
残差连接就像100层大楼的钢筋骨架:
没有钢筋:每层都要自己承重,100层太重,最底层会被压垮(梯度消失,训练不动)
有钢筋:即使每层的水泥(子层f(x))没凝固好,钢筋(x)也能把重量直接传到地基
更重要的是:梯度回传时,也有一条钢筋近路,直接从100层通到地基,梯度不衰减
这就是ResNet能叠到1000层、Transformer能叠到100层的秘密!
9.2 Pre-LN vs Post-LN:LayerNorm放在残差路径哪里?
原始Transformer用Post-LN(LayerNorm在残差连接之后),但Post-LN训练不稳定,百层以上梯度爆炸。LLaMA等现代模型都用Pre-LN(LayerNorm在残差分支内部),训练更稳定。
9.3 FFN为什么扩展4倍?SwiGLU为什么比GELU更好?
FFN(Feed Forward Network)是Transformer里参数最多的组件(约占2/3参数)。维度从d膨胀到4d再缩回d,4倍是经验最优(实验发现效果最好)。SwiGLU比GELU多了门控机制,能动态决定什么信息"通过",表达能力更强。
💡 生活化案例
FFN就像汉堡包的中间那层酱料:
第一层W1(d→4d):把普通塑料餐盒换成外卖盒,容量扩大4倍,一口气装很多食材(信息膨胀)
激活函数:酱料只放顾客要的口味,动态过滤(SwiGLU比GELU多了过滤网)
第二层W2(4d→d):再收缩回正常大小的餐盒,只保留精华
为什么4倍?就像汉堡中间那层酱料放太多会漏,放太少不够味,4倍是最好吃的经验配方
十、AI Agent架构设计:机器人执行任务
Agent是LLM的"升维"——LLM只能回答问题,Agent能自主规划、调用工具、记忆历史,完成复杂任务。本章用"机器人执行任务"类比讲Agent全貌。
10.1 ReAct循环状态机
ReAct(Reason + Act + Observe)是Agent的核心思考框架:大模型不是一步到位给出答案,而是循环"思考→行动→观察→再思考",像人一样边做边调整。
💡 生活化案例
ReAct就像"助理帮老板办事":
Think:助理先想清楚要做什么——老板让我查天气然后告诉妈妈,先查天气
Act:助理打开手机查天气API(执行工具)
Observe:看到结果"北京今天晴,25°C"(工具返回)
判断:结果满意吗?是的,继续下一步:告诉妈妈
下一轮Act:发邮件给妈妈;收到"发送成功"→ 结束,向老板汇报"搞定了"
这就是Agent和普通LLM的区别——不是一次性回答,而是循环执行+观察结果
10.2 Agent工具调用完整流程
Agent通过工具(Tool)扩展能力,能上网搜索、查数据库、发邮件、调用API。工具调用的核心挑战是:什么时候该调用工具?调用哪个工具?参数怎么填?
10.3 多Agent协作架构
复杂任务靠单一Agent效率低下,多Agent协作是未来方向:不同Agent专精不同领域(搜索Agent、写代码Agent、审核Agent),通过消息传递协作,就像一个公司有不同部门。
💡 生活化案例
多Agent就像一家公司:
调度Agent = 老板,接收客户需求,分配给不同部门
搜索Agent = 市场部,负责调研数据
写代码Agent = 技术部,负责生成报告内容
发布Agent = 运营部,负责把报告发出去
各部门完成自己的任务后汇报给老板,老板汇总结果回复客户
这就是Anthropic的Claude Agent、OpenAI的MCP生态的底层逻辑!
十一、模型微调技术:厨师学习新菜
全参数微调太贵,LoRA/QLoRA让单卡微调70B模型成为可能。本章用"厨师学习新菜"类比,讲清楚三种微调方式的原理和适用场景。
11.1 LoRA原理详解:只训练小透镜
LoRA(Low-Rank Adaptation)的核心思想是:大模型已经"很聪明",不需要从零学,只需要"微调方向"。所以冻结原模型W0,只训练旁路矩阵A和B,W = W0 + ΔW = W0 + B×A,其中A是d×r的降维矩阵,B是r×d的升维矩阵,r< LoRA就像给大照片加"小透镜":
QLoRA = 4bit NF4量化 + 分页优化器 + LoRA,三管齐下,把70B模型的训练显存从350GB降到24GB,让普通显卡也能微调大模型。 QLoRA就像"压缩照片 + 小透镜 + 电脑内存管理"三合一:
我们从2018年至今的AI技术发展历程,看每一波技术浪潮背后的技术逻辑、产品形态和本质原因,就能明白为什么现在Agent会成为行业焦点。 AI的三次革命就像通讯工具的进化:
核心技术突破:Transformer架构成熟,GPT-1/2/3、BERT等预训练模型出现,参数从1亿涨到1750亿。 本质是解决了"AI能不能听懂人话"的问题:原来的AI只能做特定任务(比如人脸识别),现在大模型能理解任意自然语言输入,第一次做到了"通用"。但这个阶段的大模型还只是实验室产品,成本极高,只能做简单问答,没法落地到生产场景。 这个阶段的大模型就像1980年的固定电话:是个划时代的发明,能和远方的人通话了,但是价格极贵,只有单位和有钱人家才装,功能也只有打电话,普通人用不上。
核心技术突破:ChatGPT发布,RLHF人类反馈强化学习让大模型输出符合人类偏好,推理成本下降100倍,第一次能大规模商用。 本质是解决了"AI能不能低成本用"的问题:原来调用一次GPT-3要几十块钱,现在调用一次只要几分钱,普通人和中小企业都用得起了。这个阶段的AI还是"工具"属性:写文案、画图、做PPT、翻译,都是辅助人类生成内容,不能独立完成复杂任务。 这个阶段的生成式AI就像2000年的功能手机:价格下来了,普通人买得起了,功能也多了,能发短信、玩游戏、听MP3,但还是工具,你让它做什么它才做什么,不会主动帮你做事。
核心技术突破:ReAct框架、工具调用能力、安全沙箱技术成熟,AI第一次能"主动行动",而不只是被动回答问题。 本质是解决了"AI能不能主动做事"的问题:原来的AI你问一句它答一句,现在Agent能自己理解目标、规划步骤、调用工具、修正错误,直到完成任务。比如你说"帮我把这个bug修复了",它会自己读代码、找问题、写修复代码、运行测试、验证通过,不需要你一步步指挥。 这个阶段的Agent就像2010年的智能手机:不再是简单的工具,而是你的私人助理,能帮你订机票、导航、付款、处理工作,甚至不用你说,它就能主动提醒你"今天要下雨记得带伞"、"下周要出差身份证过期了记得补办"。它已经不是你用的时候才拿出来的工具,而是融入了你生活工作的每一部分。
每一次革命都不是替代上一代,而是能力的升级:现在的Agent也需要大模型作为思考核心,就像智能手机也需要能打电话一样。未来10年,Agent会像现在的智能手机一样普及,每个企业、每个人都会有自己的专属Agent,帮我们处理大部分重复性工作。 一个Agent请求背后,全链路都干了啥:
• GPU就是餐厅后厨的灶台:猛火灶(Prefill卡)炒菜快,煲汤灶(Decode卡)保温好,不同灶台干不同活
三个最常见的AI场景基础设施搭配方案,每个都是前面知识点的实战落地:
我们三次平台迭代踩过的所有坑,都是因为没吃透基础设施底层原理;所有的优化效果,也都是把底层原理用到了极致:
这是当前行业最核心的问题,本质不是能力问题,而是三个底层矛盾: 这就像你不会直接让总公司老板帮你修电脑、取快递,不是老板不会,是权限、成本、效率都不合适,Agent就是你身边的助理,大模型是远方的专家,分工不同。 过去20年互联网的本质是"数据中心化":用户的数据全部存在平台服务器上,平台用你的数据赚钱。而Agent时代正在逆转这个趋势: 这就像原来你把钱存在银行,银行拿你的钱放贷赚利息,现在你自己有了保险柜和理财能力,钱不用存在银行,自己就能打理,收益全归自己。这也是为什么Agent会成为下一个十年的核心赛道——它解决了互联网的根本矛盾:隐私和价值分配问题。 核心原理记忆口诀:💡 生活化案例
原模型W0就是一张巨大的高清照片(1600万像素),已经拍得很好看了
但你想让照片里的猫看起来更可爱一点(垂直领域微调)
LoRA就是在大照片上放一个小透镜(A和B),只训练透镜的参数
透镜只有巴掌大(0.4%的参数量),任何显卡都能跑
拍完照(训练完),把透镜和照片叠加得到新照片(W' = W0 + BA)
以后看新照片不用每次拿透镜了,透镜已经"融进"照片里了,推理零成本11.2 QLoRA:让70B模型单卡可训练
💡 生活化案例
4bit NF4量化:把大照片压缩成拇指大小的缩略图(从70GB→17.5GB),画质差不多但小很多
分页优化器:优化器状态(Adam的m和v)不占显卡内存,自动存到电脑内存里
LoRA:再加一个小透镜(只训练0.4%的参数)
三合一:70B大模型,从需要8张A100,变成单张RTX 4090(24GB)能跑
这就是2023年开源社区最重要的技术突破,GPT-4级别的模型单卡可微调十二、AI发展历程:从大模型到Agent的三次革命
🥤 类比:通讯工具的进化史
• 大模型时代 = 固定电话:只能在特定地方用,功能单一,就是打电话
• 生成式AI时代 = 功能手机:能发短信、玩小游戏,功能多了,但还是工具
• Agent时代 = 智能手机:能装APP、能支付、能导航,变成了你生活的一部分,能帮你做各种事
12.1 第一阶段:大模型时代(2018-2022)—— 从"没用"到"有用"
标志性产品:
为什么这个阶段火?
💡 生活化案例
12.2 第二阶段:生成式AI爆发(2022-2024)—— 从"有用"到"好用"
标志性产品:
为什么这个阶段火?
💡 生活化案例
12.3 第三阶段:Agent时代(2024-至今)—— 从"工具"到"代理"
标志性产品:
为什么这个阶段火?
💡 生活化案例
12.4 三次革命的本质变化
阶段 核心能力 交互方式 价值 类比 大模型时代 理解语言 一问一答 信息查询 固定电话 生成式AI时代 生成内容 指令式 效率工具 功能手机 Agent时代 自主行动 目标驱动 智能代理 智能手机
开发说"帮我修复这段代码的空指针bug" →
1. 编排层:识别意图是代码修复,分发到代码专属Agent,路由到代码模型 → 第七章应用编排知识点
2. Agent循环:Reason(分析bug根因)→ Act(读取代码文件,在沙箱里编译运行)→ Observe(看错误输出)→ 重复3次找到问题 → 第六章ReAct循环知识点
3. 沙箱安全:用户代码在Firecracker里跑,就算rm -rf也只会毁自己的沙箱,API Key不泄露 → 第六章安全沙箱知识点
4. 推理层:vLLM 0.7处理,PagedAttention省显存,Chunked Prefill优化首包延迟 → 第五章推理引擎知识点
5. 算力层:Prefill阶段走昇腾930算力池,Decode阶段走H200带宽池,统一调度 → 第二章GPU知识点
💡 故事隐喻:AI基础设施就像开连锁餐馆
• 推理引擎就是厨师团队:刀工好、会配菜、出菜快,同样的灶台能多做几倍的菜
• 编排层就是前台服务员:客人来了先问想吃啥(意图识别),带到位,下单给后厨
• 安全沙箱就是传菜通道:菜从后厨到客人手上,全程不被调换,也不会弄脏其他菜
• OpenClaw就是店长:把灶台、厨师、服务员、传菜员安排得明明白白,客人吃得满意,老板成本还低
12.5 典型场景选型参考:不同场景的基础设施搭配
产品线1:智档 - 百万字文档问答产品
产品线2:智码 - 企业内部 Coding Agent 服务
产品线3:智盒 - 个人本地Agent盒子
12.6 深度思考与未来展望
💡 核心知识点复盘
✅ GPU选型吃透显存公式,成本降40% → 第二章GPU知识
✅ vLLM+MLA优化,并发提8倍成本降75% → 第五章推理引擎知识
✅ 安全沙箱落地,解决代码运行安全问题 → 第六章安全沙箱知识
✅ EP/DP分离架构,1万用户在线只需要20张卡 → 第五章前沿技术知识
本质思考:Agent能做的事,为什么大模型不直接做?
隐私边界的扩张:AI时代的新生产关系
2026-2030年技术与行业趋势
❓ 普通人的机会在哪里?
Prefill拼算力,Decode拼带宽,
安全靠沙箱,上下文靠压缩。
上层应用年年变,底层原理永不过时。