诚信为本专业服务 官网

我想相识
语种
中文简体 中文繁体 English
营业厅
网上营业厅 掌上营业厅
返回顶部
天翼云息壤大规模专家并行推理集群上线,,,,,,,开启推理新纪元!
2025-07-17 云公司

克日,,,,,,,天翼云上线全球运营商首个商用昇腾大规模专家并行(大EP)推理集群,,,,,,,团结息壤MaaS支持提供万亿级Tokens日挪用,,,,,,,支持用户国产化智算应用周全用云。。。。。。自2025年头以来,,,,,,,DeepSeek大模子依附其超高训练性价比、高推理性能掀起了全民AI热潮,,,,,,,人工智能周全迈入大规模应用阶段,,,,,,,推理应用在各行业周全加速落地,,,,,,,Tokens处置惩罚需求量与日俱增,,,,,,,这对推理系统的性能提出了更高的要求。。。。。。为应对这一挑战,,,,,,,大规模专家并行推理手艺与PD疏散手艺应运而生,,,,,,,为大模子推理应用的加速规模应用提供了强盛的手艺支持。。。。。。

大规??????缃诘阕也⑿惺忠眨虺拼驟P) 是一种针对大规模深度学习MoE模子(如DeepSeek)的高效推理手艺,,,,,,,可对推理路由专家举行大规模EP并行、对MLA和共享专家举行DP并行,,,,,,,并举行双流并行通讯掩饰,,,,,,,同时降低模子权重占用的NPU内存,,,,,,,提升KV Cache缓存空间,,,,,,,增添整个集群的吞吐。。。。。。PD疏散手艺是指将推理历程中的Prefill盘算和Decode盘算脱离。。。。。。Prefill和Decode两者盘算类型差别:Prefill为盘算麋集型,,,,,,,时延主要由算力决议; ; ;;;;Decode为访存带宽麋集型,,,,,,,时延主要由访存带宽决议。。。。。。PD混淆安排时,,,,,,,两者相互滋扰:Prefill时,,,,,,,Decode期待; ; ;;;;Decode时,,,,,,,Prefill时延增添,,,,,,,P/D时延不稳固,,,,,,,资源需求更大。。。。。。PD疏散安排时,,,,,,,Prefill阶段和Decode阶段划分安排于差别的物理节点,,,,,,,两者并行盘算以实现硬件平均吞吐效率的有用提升。。。。。。

腾博官网-诚信为本,专业服务!PD混淆安排示意图

腾博官网-诚信为本,专业服务!PD疏散安排示意图

天翼云携手昇腾围绕大EP与PD疏散手艺举行深度立异,,,,,,,将DeepSeek 671B满血版大模子按专家维度切分到差别的NPU上,,,,,,,使得单卡权重占用内存比例大幅降低,,,,,,,权重加载耗时大幅镌汰,,,,,,,且可用于KV数据盘算的内存显著增添,,,,,,,实现高并发、高吞吐、低时延的推理性能。。。。。。在大EP计划实验历程中,,,,,,,双方团结解决多专家的协同调理、跨节点通讯拥塞等难题,,,,,,,实现推理API服务挪用三级负载平衡:

· API server层实现流式与非流式请求疏散; ; ;;;;

· 在P/D节点实现推理请求实例级负载平衡调理; ; ;;;;

· 专家级负载平衡实时动态调解冗余专家来分担负荷,,,,,,,有用阻止盘算资源铺张,,,,,,,团结专家亲和安排,,,,,,,降低通讯量30%。。。。。。

天翼云昇腾大EP推理集群在输入1K、输出1K场景与输入2K、输出2K场景下单卡平均端到端吞吐均提升3.8倍左右; ; ;;;;在输入5K、输出2K场景下,,,,,,,单卡平均端到端吞吐提升5倍以上,,,,,,,知足长文档等刚性需求; ; ;;;;相比于古板DeepSeek双机安排方法,,,,,,,支持3倍以上的用户并发量,,,,,,,更好服务于客户智能化转型。。。。。。

天翼云MaaS提供大模子服务的开发者平台,,,,,,,提供功效富厚、清静以及高性价比的模子挪用服务,,,,,,,同时提供数据集、精调、评测等端到端能力,,,,,,,以及RAG、联网搜索等插件服务,,,,,,,全方位包管模子服务的开发与落地。。。。。。

天翼云始终坚持以科技立异为基础,,,,,,,坚定不移走自主可控之路,,,,,,,一连夯实国产云底座,,,,,,,与时俱进,,,,,,,开拓立异知足各行业多元化营业场景需求。。。。。。在新时代AI生长浪潮中,,,,,,,引领先进手艺的前进偏向,,,,,,,一直优化性能,,,,,,,突破立异,,,,,,,为AI智算生长孝顺强劲动力,,,,,,,服务于千行百业,,,,,,,共创未来。。。。。。

扫一扫在手机翻开目今页