
了解腾讯营销
腾讯营销(原腾讯广告)是腾讯面向企业的统一商业服务平台,依托集团技术实力与微信、QQ 全域生态,坐拥十亿级用户流量矩阵,打通品牌与用户的连接通路,为广告主提供全链路数字化营销解决方案,助力广告主数字化经营与生意增长。
平台核心优势
技术:前瞻技术布局,毫秒级承载海量广告请求;依托算法、大模型、强化学习, AIGC 创意理解与自动生成能力,所有技术方案均落地真实工业场景,直面十亿用户大规模上线验证。
产品:从0到1打造服务广告主经营的工具产品,产品体验直接影响客户商业决策,每一套方案都锚定真实生意转化。
营销:以数据 + 创意重构增长逻辑,在大规模真实商业场景中落地验证每一个创新思路。
期待与你一起,探索AI时代下技术与商业的最新可能。

腾讯营销(原腾讯广告)商业化团队多岗位热招中
点击下方岗位名称,一键投递!

青云热招课题
广告推荐模型 Scaling Up(序列和非序列统一建模方向)
面向生成式推荐的强化学习优化技术研究
面向商业化推荐平台的生成式推荐技术研究
基于大模型Agent的腾讯电商广告推荐研究
多模态大模型与强化学习驱动的广告投放Agent
面向商业化推荐的统一多模态生成
面向商业化场景的统一多模态表征大模型技术研究
基于LLM的广告系统实验设计与衡量
机器学习平台技术研究
优化算法在广告推荐场景的应用研究
基于Agentic AI的自主进化广告审核专家Agent构建
大规模语义理解的 agent 数据和知识问答


校招技术岗位
算法-多模态方向
算法-推荐算法方向
算法-机器学习方向
技术研究-高性能计算方向
算法-数据科学方向


社招技术岗位
大模型深度LTV-算法工程师
多模态大模型算法工程师
高级数据产品agent算法工程师
广告推荐模型算法工程师/专家
多模态大模型算法工程师
资深AI研发工程师(微信数据专区联动)
高级GPU训练工程师
高级GPU推理加速工程师
高级PS框架研发工程师



技术内容导语
Transformer依托强大的建模能力和Scaling效率在推荐领域被广泛应用于超长序列建模和生成式推荐等方向,但
受 LLM 领域线性注意力(Linear Attention)及混合架构研究的启发,线性注意力天然具备
然而,现有线性注意力模型每步只能做 rank-1 的浅层写入,建模质量与 Transformer 仍有差距;而具有多步深度写入能力的 TTT(Test-Time Training)虽质量突破,却因串行依赖导致训练吞吐量比线性注意力慢,难以工业部署。
为此,腾讯广告技术团队与北京大学合作提出PRISM(Parallel Residual Iterative Sequence Model)——在保持线性注意力
PRISM 通过分析 TTT-MLP 的梯度结构,揭示其高表达力源于“步长 × 残差 × 方向”的多步迭代模式,并发现这一高表达力与串行瓶颈是同一根因(权重迭代更新)的两面。基于这一洞察,PRISM 在兼容 parallel scan 的线性状态上显式重建了该迭代模式,通过局部anchor代理消除 token 间串行,通过闭合式预计算消除 step 间串行,最终呈现为一个统一的残差拟合过程:第一步自然退化为线性注意力的标准写入,后续步以不到 10% 的参数增量叠加低秩修正。在四个序列推荐基准上,PRISM 匹配 TTT 质量且吞吐量提升 174 倍;与少量 Transformer 层组成混合架构后超越纯 Transformer baseline。
该工作已被机器学习领域顶级会议ICML 2026录用,论文题目《PRISM: Parallel Residual Iterative Sequence Model》。可点击文末「阅读原文」查看原文。
01
背景:从无限背包到有限背包
一、Transformer 的无限背包与线性注意力的有限背包
Transformer 的 Attention 机制本质上是一个“无限背包”:它把每一个 token 的 KV 都完整保存在 KV Cache 中,推理时逐一比对。这带来了极强的表达力,但存储和计算量随序列长度
为此,一系列线性复杂度序列模型(如 Linear Attention、RWKV、Mamba、Gated DeltaNet 等)提出了“有限背包”方案:用一个固定大小的状态矩阵
背包容量有限,每来一个新 token,模型必须决定往里写什么、同时擦掉什么。这个“写与擦”的规则,决定了有限背包模型的天花板。但在深入讨论“写与擦”之前,我们先要回答一个更基本的问题。
二、有限背包本质上是 RNN,为何还能并行?
确实如此,有限背包模型的数学形式本质上就是 RNN:
每一步的state
关键在于一个数学技巧:Parallel Scan(并行前缀扫描)。
当递推关系(recurrence)的形式满足线性结构
具体来说,N 步的串行递推可以在
但这里有一个很强的前提:
GDN(Gated DeltaNet)满足这个条件:
三、为什么并行这么重要?GPU 的“搬运工”瓶颈
一个常见的误解是将“串行慢”归因于更多的浮点运算。实际上,瓶颈在别处。现代 GPU 的计算核心(Tensor Core / CUDA Core)算力极为充沛,A100 GPU 每秒能做 312 万亿次浮点运算(312 TFLOPS)。真正的瓶颈不是“算”,而是“搬”。
GPU 的存储分为两层:
HBM(High Bandwidth Memory,高带宽显存):容量大(40-80 GB),但读写速度“慢”(约 2 TB/s)。模型参数、state 矩阵 、中间 activation 都存在这里。
SRAM(片上缓存):容量小(每个 SM 约 192 KB),但读写速度极快(约 19 TB/s,快 10 倍)。GPU 的计算核心只能直接访问 SRAM。
打个比方:SRAM 像工作台(小但触手可及),HBM 像仓库(大但每次取货要走一趟)。
所以每一次计算都要经历一个“搬运”流程:把数据从 HBM 搬进 SRAM,在 SRAM 里算完,再把结果搬回 HBM。这个搬运的时间往往远超计算本身,这就是所谓的memory-bound(存储带宽瓶颈)。
Parallel scan + fused kernel 的真正威力在于:把整个序列的 N 步递推打包成一个大算子(fused kernel),S 矩阵只需从 HBM 搬进 SRAM 一次,在 SRAM 里一口气算完所有步,再搬回去。数据搬运次数从
如果不能 parallel scan(比如 TTT),每个 token 都要独立地跑一遍迭代计算,每个 token 都要独占一次 HBM 与 SRAM 之间的搬运,搬运次数是
能否适配 “parallel scan” 不仅是算法设计上的美学选择,更直接决定了 10-100 倍的实际运行速度差异。
四、Rank-1 写入的瓶颈
以 GDN 为代表的线性注意力模型,每个 token 对
“擦”的部分实现了选择性遗忘:
如果一个 token 携带的语义是多维度的(它同时是某个句法结构的成分、某个语义角色的载体、某个 topic 的关键词),rank-1 的一行写入无法同时在这些维度上做精细调整。信息在压缩写入时不可避免地丢失。
核心矛盾:背包有限,每次却只允许写一行。这是当前所有线性复杂度模型共有瓶颈。
五、TTT 的突破与代价
既然 rank-1 写入太浅,一个自然的想法是:让模型学会更深的写入规则。
TTT(Test-Time Training)系列工作采取了一种根本性不同的策略:把记忆状态从一个 linear矩阵
但 TTT 的多步 GD打破了历史状态无关前提。每步的梯度
PRISM 要解决的核心问题:设计一个多步写入机制,同时满足两个条件——
像 TTT 一样有“步长 × 残差 × 方向”的多步迭代深度;
像 GDN 一样, 都是历史状态无关的,能被打包成 parallel scan 的 fused kernel。
02
分析:TTT-MLP 为什么效果好,但速度慢?
在设计 PRISM 之前,我们首先深入分析 TTT-MLP 的梯度结构,弄清楚它的高表达力到底从何而来。
一、“步长 × 残差 × 方向”模式的涌现
TTT-MLP 的状态是两层网络
每步更新具有一个结构模式:
步长:
,每个 hidden unit 的 activation,控制写入强度; 残差:
,当前还没写好的部分,随着 更新逐步递减; 方向:
,写入的方向,因为 每步更新所以方向每步不同。
TTT-MLP 的高表达力正来自这个“步长 × 残差 × 方向”模式:多步残差递减提供了优化深度(depth),
二、高表达力与串行是同一根因的两面
关键洞察:驱动“步长 × 残差 × 方向”模式的是权重每步更新。正是因为
具体来说,它造成了两个维度的串行瓶颈:
(一)Token 间串行(Inter-token Seriality)
瓶颈 A(遗忘与写入的耦合):TTT 的梯度更新让
的遗忘和写入纠缠在一起,recurrence 无法写成第一节所述的线性形式 ,parallel scan 的前提不再满足; 瓶颈 B(残差依赖历史状态):每个 token 的残差
需要读取前一个 token 的精确状态 ,所有 token 的计算过程只能排队执行。
(二)Step 间串行(Intra-step Seriality)
瓶颈 C(方向与残差的同步):在多步 GD 中,第 l+1 步的写入方向必须等待第 l 步的权重更新完毕才能确定,残差也必须等上一步算完才能得到,强制引入一个无法展开的循环;
瓶颈 C 是最核心的矛盾:它同时是 rank-L 表达力的载体和步间串行的根源。因此消除瓶颈 C 不能简单取消迭代,必须在取消同步耦合的同时保留多方向和残差递减带来的表达力。
03
方法:PRISM 的设计与实现
基于上述分析,PRISM 的策略非常明确:在兼容 parallel scan 的线性状态
一、核心迭代形式:步长 × 残差 × 方向
PRISM 显式构造了 TTT-MLP 的多步迭代模式:
每步是
与 TTT-MLP 的对应关系:
TTT-MLP(隐式) | PRISM(显式) |
方向和残差同步耦合(不可并行) | 方向和残差解耦(可并行) |
表3-1 PRISM 与 TTT-MLP 的对应关系
为什么 PRISM 必须用learned
TTT-MLP 之所以能 rank-L,是因为 MLP hidden layer
二、消除 Token 间串行:A/B 分离 + 局部 Anchor 代理
遗忘/写入分离(解决瓶颈 A):PRISM 的遗忘项
保持跟 GDN 完全一致 ,所有非线性操作限制在写入项 内。使迭代式保持 形式,parallelscan 骨架不动,Mamba的scan kernel 直接复用。 局部 Anchor 代理(解决瓶颈 B):用局部历史状态
(局部 anchor 基于短卷积(ShortConv)实现)替代全局状态 S 。Anchor 只依赖局部输入窗口,不读 ,所有token 的迭代计算可以同时运行。
至此,序列级别的 parallel scan 已完全恢复。anchor 让不同 token 的迭代可以同时启动,但每个 token 内部的 L 步之间仍需顺序执行(瓶颈 C)。
三、消除 Step 间串行:解耦链 + 闭合式预计算
解决瓶颈 C。因为有了 anchor,两条链自然解耦:
Direction chain 解耦:
,因为 anchor 是预先给定的局部统计量(不依赖迭代过程),所有 L 个方向可以同时算出。 Residual chain 线性化:将迭代内的 GELU 非线性吸收进预先计算好的缩放系数(preconditioner)
,梯度下降的迭代过程退化为纯 element-wise线性递推:
L步的串行循环被消解为单步闭合式计算。整个多步梯度下降计算过程可以编译成一个 fused kernel,数据只需要从 HBM 搬进 SRAM 一次。
四、架构全貌与 GDN 退化
多步梯度下降计算过程的原始产出是 L个 rank-1 迭代计算:
观察使第一步
PRISM 可以视为一种多步残差拟合计算过程,L=1 时精确退化为 GDN。后续步只是在第一步的基础上追加非线性修正,且可以使用low rank网络增量,额外参数量不超过基础模型的 10%。
04
实验结果
一、序列推荐
在公开序列推荐基准Amazon上,PRISM表现与Transformer baseline效果接近,超过大多数线性注意力类方法。计算效率方面,PRISM 与 GDN 同级,比 TTT-MLP快 174 倍。
模型 | Books H@200 | Movies H@200 | Elec H@200 | Training throughput @16K序列长度 |
GLA | 0.0879 | 0.1193 | 0.1196 | 57.4K token/s |
GDN | 0.1214 | 0.1241 | 0.1333 | 57.2K token/s |
TTT | 0.1255 | 0.1288 | 0.1344 | 0.34K token/s |
PRISM | 0.1258 | 0.1411 | 0.1409 | 57.3K token/s |
HSTU(Transformer) | 0.1224 | 0.1399 | 0.1407 | 18.2K token/s |
表4-1 不同模型的效果对比
二、语言建模(基于SlimPajama 2B训练, 130M 参数)
在更大规模的语言建模实验上(SlimPajama 2B tokens, Mistral tokenizer),PRISM 同样取得了全面领先:
模型 | Wiki PPL↓ | LMB PPL↓ | Avg ACC↑ |
PRISM | 34.68 | 27.00 | 40.1% |
PGDN | 35.68 | 28.01 | 38.3% |
EFLA | 35.51 | 28.50 | 38.1% |
GDN | 35.19 | 28.82 | 36.9% |
Mamba2 | 37.35 | 30.26 | 37.1% |
表4-2 更大规模的语言建模实验效果对比
PRISM 在 WikiText PPL、LAMBADA PPL 和 9 项 Zero-Shot 下游任务平均准确率上均为最优,领先 GDN 3.2 个百分点。
三、组件消融
消融配置 | Wiki PPL↓ | LMB PPL↓ | Avg ACC↑ |
完整 PRISM (L=2) | 34.68 | 27.00 | 40.1% |
solver 共享 K | 34.69 | 26.02 | 39.8% |
solver 用 base K | 35.68 | 27.68 | 38.6% |
去掉残差迭代 | 34.96 | 27.32 | 39.1% |
只保留 1 步 solver | 35.26 | 32.55 | 37.2% |
GDN (无 solver) | 35.19 | 28.82 | 36.9% |
表4-3 不同消融配置的效果对比
训练 PPL 差异极小,但下游泛化差异巨大。单步 solver (L=1) 的训练 PPL 几乎等于完整版,但 Avg ACC 下跌 2.9 个百分点——rank-L 的真正价值不在 next-token prediction 上,而在需要精确长程检索的下游任务上。
更值得注意的是 shared-K vs base-K 的对比:solver 两步共用独立的 K 效果部分下降(−0.3),但复用 GDN base 的 key 则大幅退化(−1.5)。这说明 solver 需要自己的方向空间,在 GDN 已经写入的 key 方向上重复操作无法补充新信息。
05
延伸思考
一、有限背包终究有限,混合架构也许是必然
即使有了 rank-L 的深度写入,有限背包终究是有限的。S 的容量是
从 PRISM 的视角看,这个直觉有一个很好的技术解释。PRISM 用短卷积(ShortConv)计算的局部 anchor 替代全局状态 S 来近似残差。由于短卷积窗口通常只覆盖最近 3-4 个 token,对于需要跨越数千步的长程依赖,近似质量必然下降。
如果在 PRISM 层之间穿插少量 Transformer 层,后者就充当了一种全局的、非线性的历史状态精确计算器,能补偿 anchor 在长程上的近似误差。从这个角度看,Transformer 本身就是 ShortConv anchor 的“全局升级版”:ShortConv 用固定窗口的局部卷积近似历史状态,Transformer 用全局 attention 精确算历史状态。
这也许解释了为什么近期几乎所有表现最好的长序列模型(Jamba、Zamba、Griffin 等)都采用了混合架构:不是因为 Linear Attention 或 SSM存在能力缺陷而需要 Transformer作为补充,而是因为有限背包和无限背包在架构层面是互补的。前者提供
二、线性注意力的 LoRA?
PRISM 的最终形式有一个有趣的结构特征:
这个“基础迭代过程 + low rank旁路”的形式,跟LoRA(Low-Rank Adaptation)非常相似,这启发了一个微调场景下的有趣思路。
LoRA 的核心思想是:冻结预训练好的大模型权重,只在关键层旁边加一条 low-rank 旁路来做微调。受 PRISM 形式的启发,我们可以设想一种面向 Linear Attention / SSM 模型的参数高效微调方法:对已训练好的模型,冻结基础迭代过程,只在写入支路上增加一条 PRISM 风格的残差拟合旁路,此外,这条旁路有闭合式(不增加训练时间),而且第一步退化为原模型的标准写入(不破坏预训练知识)。这意味着它满足 LoRA 的两个关键要求:参数高效和不损害原模型能力。
06
结语
PRISM 验证了“写入前思考”范式在线性注意力模型中的可行性:通过分析 TTT-MLP 的梯度结构揭示“步长 × 残差 × 方向”迭代模式,在线性状态上显式重建该模式并通过 anchor 代理和闭合式预计算实现完全并行。最终架构极简——GDN + 非线性旁路,训练速度与 GDN 同级,参数增量不到 10%。在推荐和语言建模两个场景上的验证表明,这是一项通用的线性注意力增强技术。
未来我们将进一步探索 PRISM 在更大参数规模上的 scaling 行为和推荐系统上的应用效果,以及其作为线性注意力模型参数高效微调方法的实际效果。

参考文献
[1] Sun et al. “Learning to (Learn at Test Time): RNNs with Expressive Hidden States.” NeurIPS 2024.
[2] Yang et al. “Gated Delta Networks with Pairwise Tokenized Graphs.” NeurIPS 2024.
[3] Katharopoulos et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.



「腾讯广告技术专题精选」
RankUp:从“模型变大”走向“表达变强”|腾讯广告推荐架构的一次范式跃迁

高招云直播