企业实训|NV智算集群技术实训-某软件上市公司
4月01-02日北京,TsingtaoAI智算技术团队为某软件上市公司交付NV智算集群技术实训。
实训以英伟达A100服务器和InfiniBand网络为核心,系统梳理硬件选型、网络拓扑设计(Rail-optimized架构与万卡集群收敛比优化)、存储加速(GPUDirect Storage直连NVMe、多级缓存体系)等关键环节。重点突破NCCL通信库调优(Ring+Tree混合算法、LL128协议参数优化)、容器化部署(NVIDIA Container Toolkit深度集成)、及集群稳定性验证(72小时负载测试+故障注入模拟)。
针对行业高频痛点,深度解析“GPU利用率虚高”背后的内存带宽瓶颈、光模块失效的带内监控预测,以及国产昇腾/海光与NVIDIA混合组网的生态适配难题。通过Blackwell架构演进、MFU量化分析等前沿实践,将验收标准与实际运维场景深度结合,助力一线工程师从交付执行者向架构决策者跨越。
实训时长:2天 / 每天7小时

01号上午
智算集群整体架构认知
-
计算集群的发展与挑战 (传统数据中心 vs 智算中心的本质差异 )
-
集群基础建设介绍(AI 服务器节点、风冷液冷,服务器机柜)
-
GPU 服务器topo 结构
先进算力资源的网络关键技术
-
InfiniBand vs RoCE:性能对比与选型依据(带宽、延迟、丢包容忍度)
-
RDMA技术原理:零拷贝、内核旁路如何提升效率
-
先进算力nvLink、PCIe拓扑:节点内GPU互联的带宽瓶颈分析
-
PFC(优先级流控)与ECN(显式拥塞通知)配置要点
网络拓扑设计
-
单轨网络,多轨网络deepseek 经典设计
-
Rail-optimized拓扑 vs 传统Spine-Leaf的区别
-
万卡 AI 集群建设挑战、交付与测试
-
先进算力 Blackwell 与 先进算力L72 超节点演进(集群与互联)
集群性能分析与测试
-
环境准备:配置IB网卡IP、验证RDMA功能
-
使用ib_write_bw/ib_read_bw测试双向带宽
-
使用perftest工具验证延迟指标
-
对比TCP vs RDMA的性能差异
-
理解RDMA的性能优势,掌握基础测试工具
存储架构与GPUDirect技术
-
训练阶段:数据集加载(TB级顺序读)、Checkpoint保存(周期性爆发写)
-
推理阶段:模型参数加载、KV Cache的内存-存储协同
-
存储性能三要素:IOPS、带宽、延迟的权衡
-
痛点分析:大模型 CKPT优化手段
高性能存储架构设计
-
训练数据加载与存储优化与存算架构的思考
-
GPUDirect Storage:绕过CPU直接访问存储的原理
-
多级缓存体系:内存-先进算力Memory并行文件系统的数据流设计
-
使用GPUDirect Storage API加速数据加载(模拟场景)
01号下午
千卡集群交付流程
硬件选型与规划
-
GPU选型:A100 vs H100 vs H20的算力/功耗/成本对比
-
网络设备选型:IB交换机的端口密度、收敛比计算
-
服务器配置:CPU/内存/先进算力的配比原则
集群建设全流程
-
需求分析→方案设计→硬件到货→上架布线→系统安装→功能验证
-
硬集与软集的区别:物理组装 vs 软件配置的职责划分
-
痛点:如何避免硬件批次差异导致的兼容性问题?
-
案例:某千卡集群交付复盘
IB网络自动化配置
-
拓扑发现:使用ibnetdiscover生成网络拓扑图
-
UFM架构与功能
-
软件架构:管理节点+Agent部署模式
-
核心功能:拓扑可视化、性能监控、固件升级
-
对外接口:REST API、CLI、Prometheus集成
IB网络配置与UFM监控
-
手动配置IB子网管理器(OpenSM)
-
使用ibdiagnet诊断链路状态
-
演示UFM界面(视频/截图,受限于无交换机)
-
掌握IB网络的基础运维命令
NCCL通信原理
-
集合通信操作:AllReduce、AllGather、ReduceScatter的区别
-
NCCL的通信算法:Ring、Tree、Ring+Tree的适用场景
-
通信协议:Simple vs LL vs LL128的性能差异
-
原理图解:单机8卡AllReduce的数据流向
NCCL环境变量详解
-
核心变量:NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS、NCCL_MIN_NCHANNELS
-
网络相关:NCCL_IB_DISABLE、NCCL_SOCKET_IFNAME、NCCL_NET_GDR_LEVEL
-
调试变量:NCCL_DEBUG、NCCL_DEBUG_SUBSYS
单机多卡NCCL测试
-
使用nccl-tests测试单机8卡AllReduce带宽
-
对比nvLink vs PCIe的通信性能
-
调整NCCL环境变量观察性能变化
-
常见问题:GPU看得到但NCCL初始化失败的排查思路
疑难问题研讨
问题1:网络不丢包,但AllReduce带宽达不到设计值
排查思路:检查NCCL_ALGO、确认IB链路状态、验证GPU拓扑
问题2:GPU利用率90%+但训练慢
02号上午
大模型训练任务和推理任务的混跑的碎片化解决方案
-
分层解决方案(技术栈)
-
第一层:硬件与系统级隔离
-
第二层:运行时级调度与抢占
-
第三层:框架级优化与自适应
-
一个典型的混合部署策略示例
训练出错,快速判断算法问题还是硬件问题的一站式解决方案
-
硬件问题的典型特征
-
算法/代码问题的典型特征
-
系统性排查步骤(实战流程)
如何处理慢节点拖累整个集群的问题?
-
短期应急(止血) 重启任务/节点
-
中期优化(治标) 资源隔离与保障
-
长期预防(治本) 建立硬件健康度基线
重点阐述:
GPU 利用率“看起来很高”,但训练效率依然很低,先进算力-smi 显示 GPU Util 90%+,实际每 step 时间明显偏慢
容器环境搭建
-
Docker vs Singularity/Enroot在HPC场景的选择
-
Container Toolkit原理:如何让容器访问GPU
-
镜像构建:基础镜像+CUDA+PyTorch+训练代码的层次
-
网络命名空间:容器内如何使用宿主机IB网络
容器化部署大模型
-
拉取NGC官方PyTorch镜像(离线环境需提前准备tar包)
-
编写Dockerfile安装依赖(transformers/flash-attention等)
-
使用docker run启动容器并挂载数据集
-
运行某小尺寸模型测试训练流程
模型训练实战
-
使用torchrun启动多卡训练(DistributedDataParallel)
-
监控工具:先进算力-smi、dcgm-exporter实时查看GPU状态
-
训练日志分析:loss曲线、吞吐量(samples/s)、MFU计算
-
常见错误:CUDA OOM、通信超时的快速定位
模型训练
-
运行某小尺寸LLM预训练任务(尺寸视内存而定)
-
调整batch size/gradient accumulation观察显存占用
-
使用tensorboard可视化训练曲线
-
性能对比:单卡 vs 多卡的加速比分析/尝试开启混合精度训练(AMP)
02号下午
测试方案设计
-
测试维度:计算性能、通信带宽、存储IOPS
-
测试工具链:
-
GPU计算:CUDA Samples、cuBLAS benchmarks
-
网络:nccl-tests、ib_write_bw、SHARP测试
-
存储:FIO、IOR
-
验收标准制定:如何设定合理的性能基线?
GPU基线性能测试
-
运行CUDA Samples中的bandwidthTest、deviceQuery
-
使用HPL/HPCG测试峰值算力
-
GPU Burn压力测试:长时间满载运行检测稳定性
-
静默错误检测:使用dcgm-diag的诊断功能
-
记录:整理测试数据形成测试报告模板
稳定性测试方法
-
长时间负载测试:72小时连续训练任务
-
故障注入:模拟GPU掉卡、网络抖动场景
-
MFU(Model FLOPs Utilization)测试:计算有效算力利用率
运维工具体系
-
UFM深度实践:
-
部署架构:HA模式、数据库选择
-
监控指标:链路流量、错误计数、温度/功耗
-
告警配置:如何设置阈值避免误报
-
API集成:通过REST接口对接运维平台
-
DCGM(Data Center GPU Manager):
-
架构:Host Engine + Agent模式
-
健康检查:周期性诊断GPU状态
运维工具部署与监控
-
部署DCGM并配置Exporter
-
编写Grafana Dashboard展示GPU指标
-
模拟故障:拔掉光模块观察UFM告警(视频演示)
-
使用dcgmi命令行工具查询GPU健康状态
-
智算中心光模块故障率高,如何通过带内监控提前预测光模块失效
-
搭建一套可用的监控系统
资源调度与隔离
-
Slurm vs Kubernetes在AI集群的适用性
-
GPU共享与MIG(Multi-Instance GPU)技术
-
训练任务(独占) vs 推理任务(零散)的资源隔离策略
-
痛点:碎片化问题如何通过调度器解决?
国产芯片混合组网
-
华为昇腾、海光与英伟达的生态差异
-
混合算力中心架构设计:网络隔离 vs 统一调度
-
挑战:驱动版本管理、框架适配的复杂度
推理架构设计
-
并行策略:Tensor Parallelism vs Pipeline Parallelism
-
Prefill-Decode分离架构
-
推理框架:vLLM、TensorRT-LLM、FasterTransformer对比
-
案例:如何实现毫秒级推理延迟








TsingtaoAI是一家专注工业具身智能领域的国家高新技术企业,旗下北京、宁波等地设有研发及运营团队。核心团队主要来自韩国首尔大学、中国农业大学、北京科技大学、蔚来汽车、美团、京东、硅基流动等产研组织,拥有深厚的AI Infra与机器人算法积淀。公司通过自研的通用PoC实验底座与多模态Agent编排引擎,为工业制造、高校实训等场景提供从数据生成、算法训练到即时部署的全栈解决方案。
TsingtaoAI解决具身智能落地最后一公里工程难题。构建一个高效、低成本、可复制的具身智能技能任务开发平台,将平台与具身大模型和异构端侧计算单元组成面向工业企业的物理AI软硬一体化解决方案。获24项AI领域知识产权,包括多模态大模型具身智能实验实训系统等。关键算法基于RISC-V芯片和昇腾NPU优化适配,实现突出性能。项目获长三角算力算法创新大赛冠军,山东省人社厅数字工程师大赛二等奖,宁波AI大赛二等奖、北京东城AI科创大赛技术创新组前三名,WAIC CICC大赛具身智能赛道前三名,入选河北垂直大模型应用场景名单。通过华为昇腾兼容性认证,在华油能源等企业落地。