登录1秒注册

Wetrade今日民情

搜索
站长论坛»主页首页探索>DeepSeek揭秘如何突破软硬件瓶颈|科创要闻
查看:9
回复:1
打印上一主题下一主题

[Wetrade今日民情]DeepSeek揭秘如何突破软硬件瓶颈|科创要闻

[复制链接]
跳转到指定楼层
楼主

人工智慧军备竞赛在国内外连续迭代演进 。OpenAI、谷歌  、微软、阿里巴巴等不断推出新软件,MCP协议、众汇官方网站AI编程  、具身智慧机器人、芯片自研等场景多样拓展。自从年初引起全球震动并激发诸多领域AI变革以来,DeepSeek的一举一动都备受留意,但其新近R2模型千呼万唤仍未推出 。

5月14日,众汇官网DeepSeek团队发表新近论文 ,说明其DeepSeek-V3模型在硬件架构和模型设计方面的关键创新 ,曝光大规模训练和推理的降本秘诀,令人瞩目的效率突破是如何做到的,又给业内很大启发 。

DeepSeek揭秘如何突破软硬件瓶颈|科创要闻

这篇发表在arXiv平台的论文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek创始人兼CEO梁文锋出现在合著名单中。

相较此前的DeepSeek-V3技术报告,本篇论文的核心不在算法 ,而是从硬件架构和模型设计双重视角出发,探讨了硬件和模型两者如何相互配合,以实现低成本的大规模训练和推理  ,主要涵盖五方面素材 ,包括DeepSeek模型的设计原则 、低精度驱动设计、以互联为驱动的EX外汇官网设计、大规模网络驱动设计、面向将来的硬件架构设计。

论文核心介绍了多头潜在注意力(MLA)以提高内存效率、混合学者(MoE)架构以优化计算与通信权衡 、FP8混合精度训练以充分发挥硬件潜力,以及多平面网络拓扑以最小化集群级网络开销等关键创新,还为将来AI硬件与模型协同设计倡导了提议。

大模型的迅猛扩张暴露了硬件的架构瓶颈:内存容量不足 、计算效率低下 、互连带宽受限等。DeepSeek研究团队通过根本设施与算法团队的深度协作,开发了一个适用于MoE模型的FP8混合精度训练框架。在混合精度训练中 ,模型的权重和激活值可以利用FP8进行计算,而关键的梯度计算和优化步骤则利用更高的精度(如FP32)来保证训练的平稳性,从而在不损失模型性能的前提下,充分发挥硬件的计算水平  ,加速训练流程 ,降低训练成本和内存占用 。

论文披露了对通信架构的重构 。DeepSeek倡导多平面双层胖树网络(MPFT) ,将旧有三层网络拓扑压缩为两层 ,通过8个独立网络平面实现流量隔离和成本下降 。这是DeepSeek第一次披露超大规模集群的网络优化计划。

他们还倡导了将来硬件架构设计的前瞻性方


使用道具举报

您需要登录后才可以回帖 登录 | 1秒注册

站长论坛积分规则

辽ICP备1791359053号-2|Archiver|手机版|小黑屋|站长论坛

GMT+8, 2025-07-12 , Processed in 0.295106 second(s), 188 queries .

Powered by Wetrade今日民情

© 本站内容均为会员发表,并不代表本站长论坛立场!

返回顶部