

智东西
编译 | 陈骏达
裁剪 | 云鹏
DeepSeek 又找到突破大模子推理瓶颈的新秩序了!
智东西 2 月 27 日报谈,昨天,DeepSeek 发布了一项名为 DualPath 的全新推理系统决策,直指现时大说话模子在智能体应用场景下遭逢的短板—— KV 缓存存储 I/O 瓶颈。该决策通过引入双旅途加载机制,显贵进步系统朦拢量,基本排斥了 KV 缓存的 I/O 支出。
DualPath 的中枢鼎新在于开辟了一条从存储纵贯解码引擎的新通谈。KV 缓存不再仅由预填充引擎加载,而是不错加载至解码引擎,再通过操办收罗中的 RDMA 高效传输至预填充端。这一蓄意不仅缓解了存储端的压力,还幸免了收罗拥塞,确保蔓延敏锐型任务不受阻挠。
与全局转机器协同后,DualPath 已毕了动态平衡两头负载,进一步进步资源运用率。在确凿智能体使命负载测试中,DualPath 将离线推理朦拢量进步最高达 1.87 倍,在线办事朦拢量平均进步 1.96 倍。
在大边界可彭胀性方面,DualPath 系统在最多 1152 张 GPU 上进行了考据。离线推理从 2P4D(2K 智能体)彭胀到 48P96D(48K 智能体)已毕近线性彭胀,任务完成时辰基本保合手一致。
值得一提的是,与之前 DeepSeek 发表的好多磋商论文雷同,这篇论文的第一作家吴永彤相同是 DeepSeek 的实习生。吴永彤现在在北京大学攻读博士学位,师从金鑫教授,主要磋商大模子基础模范关系课题,自 2025 年 8 月以来便在 DeepSeek 系统组使命,曾参与 DeepSeek-V3.2 的磋商。
论文结合:
https://arxiv.org/pdf/2602.21548
一、智能体 I/O 瓶颈突显,传统蓄意资本不菲
跟着智能体应用普及,多轮推理已成常态。智能体通过用具与外部环境进行数十甚而数百轮交互,凹凸文跨轮蕴蓄到极长长度。由于多轮、短追加的特质,KV 缓存射中率高达 95% 以上,加载驱散取代操办成为性能主导要素。
现存系统选择分层预填充、预填充 - 解码分离(PD 分离)和外部 KV 缓存存储架构。但问题在于:预填充引擎存储网卡带宽合手续足够,而解码引擎存储网卡带宽多数闲置。这种不屈衡线路了根人道低效——存储收罗带宽运用不均,而单纯加多预填充端带宽资本不菲。

现存瓶颈(左)与 DualPath(右)
DualPath 的提议恰是为了责罚上述问题,其中枢细察在于遏止" KV 缓存加载必须以预填充为中心"的传统蓄意。
现存系统仅通过存储到预填充引擎的单一谈径加载,导致预填充端带宽足够而解码端带宽闲置。DualPath 则加多了存储到解码旅途,将 KV 缓存先加载至闲散的解码引擎,再通过 RDMA 高效传输给预填充引擎。
这一模式团员了整个存储网卡带宽,再行分派收罗负载,从根柢上缓解预填充端的 I/O 瓶颈。
不外,该蓄意仍然濒临两大挑战:最初,引入格外的加载旅途会产生复杂的流量模式,并可能与模子履行中的集体通讯原语产生潜在阻挠,若管制失当会裁汰举座性能。
其次,系统必须在动态和异构的使命负载下在线决定使用哪条加载旅途,并同期确保 GPU 和网卡之间的负载平衡。
二、三大中枢组件打造 DualPath,新组件并未引入瓶颈
那么,DeepSeek 究竟是怎么责罚这些挑战的呢?DualPath 使用了两项过去使用的工夫:
(1)PD 分离,将教唆词妥协码处理分开以提高驱散。
(1)分层预填充,幸免了预填充引擎上的 HBM 瓶颈,并提高了 GPU 运用率。
而 DualPath 主要由三大中枢组件组成。推理引擎是基础履行单位,每个引擎管制一个 GPU,并明确分歧为专司预填充操办的预填充引擎和崇拜解码生成的解码引擎。
流量管制器内嵌于每个引擎,统筹所非凡据出动:包括主机与拓荒间的内存拷贝、预填充与解码引擎之间的 KV 缓存传输,以及通过存储网卡进行的 KV 缓存合手久化读写。其选择以操办网卡为中心的流量管制计谋,确保 KV 缓存流量不会阻挠蔓延敏锐的模子集体通讯。
央求转机器算作中央决策单位,禁受客户端央求并智能分发给各引擎,同期动态决策每条央求选择传统存储到预填充旅途还是新式存储到解码旅途,已毕双旅途间的流量平衡与全局负载优化。

在具体已毕上,DualPath 在每个预填充引擎妥协码引擎上预留一丝 DRAM 算作缓冲区。关于预填充端读旅途,射中 token 的 KV 缓存最初从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的 HBM,与未射中 token 的 KV 操办经过叠加履行。随后,齐全的教唆词 KV 会被传输至解码引擎缓冲区,供解码阶段使用。
关于解码端读旅途,射中 KV 最初加载到解码引擎缓冲区,在预填充引擎履行预填充时逐层通过 RDMA 读取,同期与操办叠加。未射中 KV 操办完成后回传至解码引擎,与射中 KV 消失酿成齐全教唆词缓存。
不管哪条旅途,数据传输皆选择分层流式形态,以缓解 HBM 容量压力并已毕操办与通讯的叠加。解码阶段启动前,解码引擎将齐全 KV 从缓冲区传入 HBM,完成主机到拓荒拷贝后开释 CPU 内存;在生成经过中,每当蕴蓄满一个固定大小的 token 块,就立即合手久化到存储。
为了考据该架构不会引入新的瓶颈,论文对操办网卡带宽和 DRAM 带宽进行了系统性分析。通过缔造每对预填充引擎—解码引擎之间的流量模子,并假定负载平衡与收罗无拥塞,作家推导出在一定的 P/D(预填充节点与解码节点数目之比)边界内,操办网卡、PCIe 以及 DRAM 均不会成为瓶颈。
在典型成就(举例每节点 8 个 GPU、存储带宽远小于操办带宽)下,可行的 P/D 区间遮掩大多数内容部署比例,评释系统能够在充分运用整个存储网卡带宽的同期,保合手操办与内存资源的沉稳运行。
三、系统落地仍濒临三大挑战,选择操办网卡为中心的流量管制
然而,米兰app在确凿系统中落地双旅途架构仍濒临三项中枢挑战。最初是细粒度数据传输。分层履行缓解了 HBM 容量压力,但也将 KV 拆分为多数小块,需要在存储、主机 DRAM 和 GPUHBM 之间高效搬运,同期驱散软件与硬件支出。
其次是流量终止。新增的 KV 传输可颖异扰模子履行中的蔓延敏锐型集体通讯(如 AllToAll、ReduceScatter/AllGather),若枯竭终止机制,将径直推高端到端推理蔓延。
终末是动态负载平衡。由于系统存在两条读取旅途,转机器必须汇集磁盘部队长度、GPU 负载和央求特征动态决策,不然容易再次酿成局部瓶颈。
为幸免 KV 传输阻挠模子通讯,系统选择以操办网卡为中心的流量管制机制。整个相差 GPU 的流量,包括 H2D/D2H 拷贝,调处经由与 GPU 配对的操办网卡,并通过 GPUDirectRDMA 完成传输,使全部数据流会聚到操办收罗,从而运用硬件 QoS 才气进行优先级终止。
在基于 InfiniBand 的部署中,模子推理通讯被映射到高优先级虚构通谈,KV 传输映射到低优先级通谈,并通过加权轮询保险前者带宽。这么既保护了蔓延敏锐通讯,又允许 KV 流量运用闲散带宽。实验还标明,在多数小块场景下,其更合乎细粒度传输。
在转机层面,系统选择两级自适合机制。引擎间转机为央求经受预填充引擎—解码引擎对并战胜读取旅途,通过 token 数目与磁盘部队长度已毕负载平衡;解码引擎转机分为跨组与组内两阶段,在平衡总 token 数的同期接头 HBM 容量拘谨,幸免资源过载。
引擎内转机主要作用于预填充引擎,通过猜测注视力层操办量设定"操办配额",以 FIFO 形态组批,必要时对央求分块,使各 GPU 操办时辰趋于一致,减少同步恭候。
总体而言,双旅途加载团员存储带宽,表面分析保证系统无新增瓶颈,操办网卡中心化蓄意已毕严格流量终止,自适合转机则保管负载平衡与低蔓延,共同组成一个高朦拢、可彭胀的推理架构。
四、实考据明 KV 缓存 I/O 支出已基本排斥,在千卡集群上已毕线性彭胀
为考据 DualPath 带来的性能进步,DeepSeek 在一个由 InfiniBand 互连的 GPU 办事器集群上进行实验,评估了三个模子的发达:DeepSeek V3.2 660B(记为 DS 660B)、DS 660B 的 27B 削弱版块(记为 DS 27B)以及算作稠密模子代表的 Qwen2.5-32B(记为 Qwen 32B)。
实验驱散骄傲,DualPath 在更大的批次边界和更长的最大有用凹凸文长度下获益愈加显贵。在 DS 660B 上,DualPath 相较于 DeepSeek 里面的基线推理框架最高已毕 1.87 倍加快,且性能接近假定零 I/O 支出的表面性能上限,评释 KV 缓存 I/O 支出已基本被排斥。

在 DS 27B 上,DualPath 相较于 DeepSeek 里面的基线推理框架最高进步 1.78 倍。
在改动追加长度和生成长度时,DualPath 在短 token 场景下上风更显露。跟着追加长度加多,GPU 操办压力增大,而生成长度加多则因预填充间隔变长,裁汰了 KV 缓存加载压力。
图 9 骄傲,跟着追加长度增长,未选择 DualPath 的推理引擎发达和 DualPath 的性能越发接近,标明系统瓶颈徐徐转向 GPU 操办。在不同追加边界下,DualPath 相较于基线已毕 1.82 至 1.99 倍加快,生成长度彭胀趋势雷同。
{jz:field.toptypename/}在不同预填充 - 解码比例下,DualPath 均显贵优于基线,平均已毕 1.64 倍加快,最高达 2.46 倍。基线推理引擎只可使用预填充节点的存储带宽,而 DualPath 能够运用整个节点的带宽,考据了在智能体场景下存储带宽是主要瓶颈。
在在线办事评估中,DualPath 在智能体央求到达速度上显贵优于基线,在 DS27B 和 DS660B 上分别达到 1.67 倍和 2.25 倍进步。

在负载平衡方面,DualPath 显贵改善了存储网卡和注视力层履行时辰的平衡性。相较于轮询转机,转机算法将存储网卡负载平衡倡导从 1.53 优化至 1.18。同期,在职务前 5% 履行阶段,将注视力层最大 / 平均履行时辰比驱散在 1.06 以内,减少了 GPU 闲散气泡。
在大边界可彭胀性方面,DualPath 系统在最多 1152 张 GPU 上进行了考据。离线推理从 2P4D(2K 智能体)彭胀到 48P96D(48K 智能体)已毕近线性彭胀,任务完成时辰基本保合手一致。

在线办事中,44P88D 成就在保合手相似蔓延的同期,将朦拢量进步 22 倍。整个实验中转机器 CPU 占用低于 10 核,标明其不是性能瓶颈。
大边界部署不仅减少资源碎屑化,还为并行度和 P/D 比例调优提供更大天真性,同期在突发在线央求场景下提供更多转机空间以缓解列队蔓延。
结语:智能体推理迎来提效利器,将来或引入自适合机制
跟着 DualPath 论文的发布,它有望为业界在处理大边界智能体推理任务时提供一个新的念念路。关于正苦于 KV 缓存 I/O 压力的开发者与磋商者而言,这大约是一个值得存眷的地方。
不外,DeepSeek 的磋商团队也坦言,离线推理的使命负载高度动态,下一步需要磋商更自适合和更天真实并行度和 P/D 比例成就秩序,举例模拟器或在线疗养机制