Navigation menu
新闻中心
独家传播!华为如何在几秒钟内制造数以万计的
您是否注意到AI最近变得越来越“聪明”?能够写小说,翻译和帮助医生观看CT电影的文字与“超级桥工厂”密不可分,该工厂是沉默的,这是IA计算机力量的一群。随着人工智能从简单的规则判断发展为能够处理十亿个参数的较大模型,一台计算机的计算机功率就像是面对大海的小型sampan,计算机电源组可以形成成千上万或数千台计算机,例如构造块,例如“计算机电源载体”。将成千上万台计算机集成到有机计算机中时,必须解决一组世界一流的问题。这是如何使它们作为精确时钟一起工作的吗?当任何设备故障时,如何保持有效的功能?如何通过出色的训练快速解决施法波?接下来,我们将发现计算机电源组AI接纳的这些关键功能一方面,我们将看到华为团队如何利用工程智慧来驯服这个计算机喂养怪物。超节点高可用性:不停止工作24小时工作的智能工厂就像是必须始终在线的医院紧急系统,而AI的培训和推理不能轻易中断。计算机食品集群中的每台计算机都有一个“主管”。如果机器失败(例如突然停电或硬件损坏),则系统将立即启动备份机并处理任务。重新训练职业将甘蔗传输到完美,维护诸如自主培训和语音识别之类的任务,并且由于各个团队的失败而不会完全停止。对于CloudMatrix 384超级节点,华为团队为整个超节日提出了一个容错解决方案。这将分为“系统层的故障耐受性”,“商业层的故障耐受性”,然后,随后,“失败公差.masu。的操作和维护层的ance。核心思想是将失败问题转换为海底主题,并通过操作和维护方法优雅地消除它。系统层的容忍度是指更改超级响应的原因是对OS+网络的反应是避免蓝色系统筛选并避免在超级灭菌级别的范围内的一般性变化。保留网络的网络和失败的拍卖。对操作和维护层的失败是指识别subsa和优雅的恢复技术的构造,从而降低了subsas事件的影响,从而减少了通过积极的方式进行的。n那这是“线性”。计算能力群集使用任务分配的精确算法,作为交响乐乐团音乐家在每台计算机上执行自己的任务,避免了“这三个僧侣没有水”的困惑。例如,如果它启用了需要数十亿个计算的模型,则成千上万的计算机几乎可以随着尺度增加而增加计算机功率。华为团队提出了四种主要技术,包括炸玉米饼拓扑感知的协作编排技术,NENSF计算机网络和技术水平的网络存储,拓扑识别,NB通信通信技术以及无创的测量和诊断技术的测量和诊断技术的交流。实验和理论分析结果表明,在训练Pangu Ultra 135B密度模型时,与卡256的基线相比,4K卡上的群集线性800T A2在4K卡上为96%。在训练Pange Ultra MoE 718B的Escaso时,与卡512 95.05%的基线相比,8K A2卡群的线性性。与256张卡的基线相比,4K卡clo的udmatrix群集的线性为96.48%。 Vanka群集训练快速恢复:当使用“文件能力”的教练训练超级级规模模型,这些模型使用数以万计的计算机单元(通常称为“ Vanka”)时,有时“攻击”可以是“攻击”是不可避免的。此时,系统会自动记录最近的培训进度,例如游戏文件。一旦检测到故障,就会立即找到计算单元,省略了失败的部分,并不断避免从最后一个文件点进行连续训练。例如,如果它启用了需要30天的模型,则可以在几分钟内恢复进度,以便即使设备有中央故障,视频再现也可以继续。为了实现Wankka群集训练,华为团队取得了快速的成就Wankka集群训练中的恢复并提出了以下创新:正常节点通过参数平面网络将CKPT终端传递到备份节点。完成参数状态的恢复后,您可以有效地减少训练的恢复时间,而不是3分钟。第二个是在线过程恢复。为了响应硬件UCE的故障,通过商业界面Ascend软件Cardern,Mindcluster框架和软件来实现故障地址的在线维修,从而进一步减少了30年的培训恢复时间。第三个是恢复在线操作员级别。 CloudMatrix 384产品HCCS和ROCE参数平面网络为HCCL操作员提供保留功能,抵抗长期网络异常,它们实现了受网络故障和培训任务影响的第二级通信操作员,并未中断。在超大型的MOE模型中恢复推论:几个英雄可以提供帮助。随着MOE模型架构为1000亿的演变,该实例展示的网络体系结构是从传统到8张卡的1机器演变为大型EPRECTECTURE。许多专家在多个服务器节点中实现,以降低内存带宽压力。目前,在大型EP网络体系结构下,由于更大的失败概率和部署量表的增加而导致的故障爆炸半径增加的可靠性问题。硬件故障使整个解码实例可用,从而导致推理服务中的损坏或中断。华为提出了三级故障公差解决方案,实例切换,实例恢复,在硬件控制器层的实例和合作中,框架层和最终响应的实例和合作,取决于大规模推断架构的可靠性问题,这是由当前模型引起的。S Super-Lle Moe的S。几种场景范围纳里人可以使用各种失败耐度恢复方法来最大程度地减少用户损失。在此情况下快速重新启动恢复技术:根据环境测试的实际验证,该技术在20分钟x 5分钟内减少了实例恢复时间。 Reintento在令牌级别:基于CloudMatrix 384 Supernodium方案的DeepSeekv3,验证30-60实现了实例的恢复。卡片减少了弹性恢复技术:解决硬件故障下的业务中断问题作为当前任务。通过专家的过渡,推理过程在失败期间不会结束。降低卡被用作一种故障容忍方法,以动态调整推理实例规模并在没有用户识别的几秒钟内恢复。失败管理和感知诊断:24小时在线设备医生的食物聚类计算机的动作具有真实的时间监控系统,并安装了“健康”手镯“在每台计算机上,可以连续监控温度,计算机功率,数据传输速度等。发现该设备的执行异常(例如,不良热量散热速度减慢)立即发出警报并分析了一个医生的失败原因,以防止较小的网络,从而避免了较小的障碍,并且会遇到问题,并开始遇到困难的机构,并开始遇到问题。华为团队在计算机食品组中进行硬件失败的时间,提供了一组解决方案:基于AI的硬件硬件硬件灾难的物理形式的高度释放架构设计,MATRIX 384超级节点净值失败失败失败失败的失败失败了。碳云。对于计算能力组的故障识别函数,华为团队建立了识别大型群集线故障(完全可观察到的电池)和故障诊断(完全电池故障库,跨域失败的诊断 - 计算机节点的诊断,网络不足诊断的诊断)。可观察到的完整条纹功能:大尺度集群故障的识别功能主要是在集群操作视图,警报视图,网络链接监视,访问和警报配置以及可观察到的网络流程功能中创建的。故障诊断功能:包括完整的第四次犯规故障库,交叉域失败的诊断,计算机节点故障的诊断和网络故障诊断。建模和模拟:正式启动基于电源的“数字风隧道”之前的复杂模型的培训和促进,使计算机电源组可以在虚拟环境中“排练”数字风tunne例如,在开发新药物检测模型时,我们首先预测模型的性能在某种程度上模拟了不同的参数,数据分配的数据输入和计算机资源分配方案。首先,这种方法“首先,下一个实用”意味着发现瓶颈和逻辑Lagoons在计算机系统中的逻辑和资源进行了很多时间和资源,并提出了一些实现的方法。该方法提出了一些实现的方法。 Markov的建模和模拟的创新方式,重点是培训的三个中心领域,推理和高可用性,对多维系统建模,预测和绩效调整进行分析,实现有效的分配以及对组的资源的动态优化,以及对系统的最大训练和型号训练的实用性。平台,Adaptpack编排优化了Slong Eccasque的液泡PP,使性能提高了4.5%-8.24%。与通信计算机方案合作,引入了ADAT/R技术,以将通信曝光时间减少89.84%,总唯一通行时间增加了3.25%。通过AdaptXpert,MOE的末端至末端产量提高了7.5%。 SIM2Infer推理建模和仿真:Astron复杂推理推理的Markov建模和仿真平台提供了自动映射和仿真,从高级别运算符的描述到基础硬件指令,平均误差为6.6%。 Sim2 Vavility高可用性建模模拟:Markov的高可用性建模模拟框架,单独的时间步长模拟,对单个通道持续时间内的失败性能降低的影响建模,模拟故障场景和复杂系统培训任务中的操作响应和操作响应,并完成compl的完成ETE周期监测性能恢复状态的模拟。框架迁移:通过华为发射的完整场景AI框架Shengsi Mindspore,更换了模型车型的冷轮胎,于2020年3月完全开放,开发人员的生态系统正在迅速增长。 Shengsi Mindspore的基于ASDEN + SHENGSIADEMAS的独立性还使用传统的生态系统来提供适应模型伟大时代的挑战和需求的兼容性解决方案。在训练阶段,Mindspore覆盖了超过90%的Pytorch界面,实现了第三局框架的完美迁移,并通过多个级别的管道技术和优化了Coreal -Time Mpilation(JIT),可显着提高执行效率,以响应动态图形的效率问题。在推理阶段,思维孔基于常规生态系统横向面的重量配置,允许单击即可单击而无需修改。通过VLLM-MINTSPORE补充连接到VLLM框架,以承认该模型的大量推断的服务功能。它允许快速实施Pangu 72b模型,并提供改进的推理性能。 Para la infraestructura de clúster de potencia de Aston Computing, el equipo de Huawei podrá diagnosticar cualquier dimensión del supernodio, alta disponibilidad de linealidad de clúster, recuperación rápida de la capacitación de un clúster de un CA, tolerancia a fallas sysmage system in geen system系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统tem system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system System System System System System System System System System System System System System System System System System System System System System System System System System Syste Syste Syste系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统m system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system system系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统EM系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统系统电脑电源通过建筑创新(例如光电动杂交)。工程层使用智能手段(例如AI的操作和维护)来弥合复杂性差距,从而实现了下一个代理计算机能量的有效,抵抗和自我加热的基础架构。