【企业内训】英伟达Nvidia全系技术栈培训-技术架构、智算平台、算力中心建设等

 

 

 
 
 
英伟达Nvidia全系技术栈培训-技术架构、智算平台、算力中心建设等

 

 
 
 
 
 
领域 : NV系技术栈
 
 
 
 
 

 

培训知识范围 : 英伟达AI/HPC技术架构体系详解

建议培训方式 : 线下/线上培训

培训目标及效果: 让学员系统了解海外最先进的AI/HPC系统端到端技术架构与应用

培训知识范围 : 英伟达DGX、HGX、GPU、IB网络架构与方案

建议培训方式 : 线下/线上培训

培训目标及效果让学员进一步学习海外最先进的AI/HPC系统基础设施架构与实现方案

培训知识范围 : 英伟达大语言模型端到端调优方案

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果让学员在英伟达系统中,能够端到端完成大模型性能调优,提升集群总体性能表现。

培训知识范围 : 英伟达CUDA、NCCL详解

建议培训方式 : 线下/线上培训

培训目标及效果了解基础设施GPU、IB硬件如何与AI框架实现联动,支撑AI模型训练与广泛应用。

培训知识范围 : 英伟达IB技术方案与工程实践经验详解

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果了解IB端到端实现方案、UFM原理与应用能力、如何通过IBdiagnet分析全网链路健康度等。

培训知识范围 : NV环境适配的AI开发框架(pytorch、tensorflow、paddlepaddle等)、分布式训练框架(deepspeed、megtraon)培训

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果让学员深度了解AI开发框架的实验原理、使用、部署方法,能够在真实环境基于分布式框架训练llama、gpt等模型。

培训知识范围 :

1、基于NV算力资源的智算平台功能介绍

2、模型开发全流程工具使用流程介绍(以某智算平台为例进行现场实操,包括训练数据创建与管理、模型开发、模型训练、模型部署、模型推理、模型微调等核心步骤)

3、介绍智算平台与NV基础设施交互逻辑,对基础设施的性能要求

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果让学员熟悉智算平台在AI业务开发应用中的作用及其端到端操作流程,熟悉训练、推理的关键流程

培训知识范围 :

AI算力平台网络方案

1、基于NV算力资源的网络基础设施产品介绍;

2、大模型训练对网络的要求;

3、基于NV算力资源的网络关键技术和解决方案;

4、基于NV算力资源的网络组网设计;

建议培训方式 : 线下/线上培训

培训目标及效果让学员熟悉智算中心网络产品发展现状已经智算中心对网络基础设施的性能需求,掌握智算中心网络方案的设计

培训知识范围 :

AI算力平台存储方案

1、大模型全流程中存储的要求;

2、存储容量和性能规划;

3、存储解决方案;

建议培训方式 : 线下/线上培训

培训目标及效果让学员熟悉智算中心存储产品发展现状已经智算中心对存储基础设施的性能需求,掌握智算中心存储方案的设计

培训知识范围 :

基于英伟达生态的模型调优培训:

1、模型调优服务内容介绍,集群算力提升优化策略

2、模型调优实战案例介绍

3、针对基于英伟达环境万卡集群的模型调优方案介绍

建议培训方式 : 线下/线上培训

培训目标及效果讲解基于英伟达生态的模型迁移及调优服务内容,让学员熟悉模型调优的必要性、原理和实现技术方案;熟悉模型调优的工作内容、问题定位思路和调测调优的流程及问题处理方案。

培训知识范围 :

智算中心整体组网架构及相关设备选型原则:

1、基于英伟达环境的万卡集群建设交付

2、大规模IB参数网建设与自动化

建议培训方式 : 线下/线上培训

培训目标及效果

让学员详细了解智算中心中计算、存储、网络、平台等各个子系统的建设原则及之间整体集成的规范,熟悉各网络面的收敛比配置原则,熟悉算存比配置原则、样本面网络带宽配置原则等,例如:

1、重点讲解万卡集群从规划、设计、建设、测试、调优、维护等不同环节的要点,建议项目的工期、工序、工具、能力准备与推荐;

2、大规模IB参数网建设中如何监管施工质量。有哪些脚本、工具或平台的自动化巡检,精准判定设备、链路故障点(链路中断、设备串线、误码率高等)。通过什么管理手段,可以消除或者降低此类风险

培训知识范围 :

智算中心建设交付方案

1、基于NV的智算中心建设交付案例介绍

2、针对用户的定制化需求的交付策略

3、硬集、软集工作流程以及注意事项

4、交付验收标准及评审注意事项

5、针对基于英伟达环境万卡集群的交付流程介绍

建议培训方式 : 线下/线上培训

培训目标及效果面向交付人员,让学员了解基于英伟达环境的智算中心解决方案在不同需求场景下的智算项目设计与建设方案规范、交付流程、交付策略以及交付过程中的注意事项。

培训知识范围 :

智算中心测试方案与测试标准

1、智算集群整体测试方案,包括集群本身软硬件、模型部署和运行操作实践(单机多卡运行、多机多卡运行)

2、智算集群交付测试标准,包括基线功能性能、模型测试全流程实操(单机测试、集群测试)等,主要是稳定性和算力等

3、针对基于英伟达环境的万卡集群的整体测试方案以及测试验证策略全流程实战

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果面向测试人员,让学员了解基于英伟达环境的智算中心集群测试方法及操作流程,掌握后续针对智算集群的测试技能

培训知识范围 :

基于英伟达集群环境的运维工具如UFM等的介绍讲解

1、运维工具架构(软件架构、部署架构等)

2、运维工具功能介绍

3、运维工具可对外提供的接口能力

4、运维工具在英伟达环境万卡集群中的使用实战

建议培训方式 : 线下/线上培训,建议有实操环节

培训目标及效果面向运维、调优及客服人员,让学员了解基于英伟达环境的智算中心集群运行维护工具,掌握相关工具的架构、功能以及具体的使用方法

END

 

 
 
 
 

 

 

Product & Case.

产品与案例