师资研修|具身智能融合创新算法提升研修班成功举办

 
7月27日-7月31日广州,工业和信息化部电子工业标准化研究院主办的具身智能融合创新算法提升师资培训成功举办,TsingtaoAI算法工程团队为本次师资培训提供授课&实训服务。
1.png
 
 
 
 
 
 
 
 
 
培训大纲内容
 
 
 
第一章
 
 

1.具身智能前沿讲座。具身智能前沿发展,具身智能概述,具身智能与大模型关系,Embodied AI和GAI概述,DeepSeek大模型在具身智能中应用,场景应用。

2.具身智能基本原理。具身智能整理框架:语音识别、视觉感知以及触觉传感识别的工作原理,ViT技术,多模态融合感知技术,数据对齐技术与视觉感知技术;自然语言处理与人机交互技术:自然语言理解与生成,自然语言与执行动作的交互。

3.实验 1-环境搭建与语音交互实验

实验内容:安装运行环境,安装语音识别、视觉感知环境,用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。 调用 DeepSeek-Whisper API 实现实时语音转文本,测试机械臂语音指令和自然语言指令下的动作反应。

第二章
 
 

1.具身感知原理。物体感知、行为感知、场景感知实现识别与特征提取,动作意图的理解;学习DeepSeek模型的部署和优化方法,包括语言模型 LLM,BERT, GPT 系列模型比较,Transformer 架构;大模型开发基础:大模型的训练与应用、大模型实操与 API 调用、提示工程技术;RAG基础与架构:RAG 基础与架构、文档切分常见算法、向量数据库常见算法。

2.实验 2- 基于具身感知的物体识别与抓取

学习语音、 视觉、 文本三模态数据融合交互学习的算法,学习大模型算法, 实现机器人对语音指令的识别与理解,实现物体识别并进行抓取 3D 数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性。

 

 

第三章
 
 

1.具身推理原理。多模态融合推理(视觉-语言关联,感知-行为关联)学习 DeepSeek-3D 场景理解的任务规划:动作序列规划,路径优化,决策优化;3D 视觉感知的工作原理及技术特点。进一步实现不同场景下的 3D 数据采集与实时分析,通过集成后的数据融合算法与处理方法, 识别形状复杂的物体,结合大模型算法生成空间语义信息,提升物体定位精度。

2.实验 3-多模态融合推理(基于人机对话语音交互的任务调度)

设计语音指令并编写指令解析代码,根据语音指令进行任务规划和动作执行,测试机械臂在自然语言指令下的动作反应;

通过多任务处理和优先级调度算法,改进语音识别与理解的准确性和鲁棒性;

实现视觉与语言的匹配和动作响应,测试机械臂对语言指令的响应与反馈;

通过 DeepSeek-Agent 任务调度,实现复杂任务规划与视觉引导。

第四章
 
 

1.具身执行原理:智能体 Agent 的控制与执行;学习模仿学习,执行控制、强化学习的基本原理;具身智能体 Agent 开发:Agent 开发基础、ReAct 框架与剖析 Agent 核心部件;智能设备与小参数模型:智能设备上的模型优化基础、模型在智能设备上的部署、边缘计算中的大模型应用;智能体Agent的控制与执行技术:智能体控制算法与应用,协作机器人控制策略, 智能体精度与稳定性调优,使用反馈控制技术提升动作的准确性。

2.实验 4-具身智能体 Agent 的搭建与控制执行

进行 DeepSeek-Agent 开发,Agent 核心功能模块实现与性能测试评估;

编程实现智能体(机械臂)的高精度抓取与安全避障智能体控制接口编程;

推理环境配置,分布式推理所需的硬件与软件环境搭建,基于 NCCL 和 Horovod 的分布式推理框架互进行推理演练。

第五章
 
 

1.具身智能反馈优化:基于大模型的分布式推理与反馈优化;高效的微调方法(参数高效、内存高效),使用 DeepSeek-Tuning 工具包进行 LoRA 微调;大模型推理优化,推理过程的概述与常见挑战,模型推理的性能瓶颈分析,多机多卡分布式推理的必要性与优势,MindIE 简介与多模态推理,推理优化的前沿技术与研究调技术。

2.实验 5:基于推理的优化执行(大模型的分布式推理实操与动作执行优化)使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化。

通过多机多卡进行推理的性能分析与优化, 在特定任务下的 llama3.1 405B 模型分布式推理,部署 DeepSeek-MoE-16x8B 模型,使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化

第六章
 
 

1.具身智能综合设计:工业制造领域智能分拣 Agent 构建。介绍工业制造中智能分拣的需求, 定义具体应用场景。进行数据准备与预处理, 模型选择与训练,智能分拣 Agent 架构设计,集成与测试,性能评估与优化,视觉定位(YOLOv6+DeepSeek-Vision 融合)与决策逻辑(DeepSeek-LLM 生成可解释的分拣策略);AIGC 应用开发实践课程-多模态大模型应用开发:AIGC 相关的理论和技术,包括视觉大模型和多模态大模型的原理及应用。

2.实验 6:工业制造产品智能分拣系统开发

系统需求分析与设计:学员根据所学知识,分析智能分拣系统的需求,并设计系统架构。

模型训练与调优:学员使用提供的数据集训练模型,并进行参数调优,以提高分拣准确率。

智能分拣 Agent 实现:学员利用 LLM 和 ReAct 框架,实现一个能够响应分拣指令的智能Agent。

系统集成与测试:学员将训练好的模型和智能 Agent 集成到系统中,进行整体测试。

性能评估与报告撰写:学员评估系统性能,并撰写实验报告,总结学习成果和经验教训。

第七章 交流讨论与感想
 
 

环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。

智能导航算法:结合大模型的强化学习算法,训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。

人机交互体验:借助大模型在自然语言处理方面的优势,实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。

协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,主要聚焦于通过具身智能提升机器人的灵活性与适应性。

智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。

676dbd7c-d9aa-4da1-9baf-f28219a4a3de.png

 

 
实训方案优势
 
 
 

 

1、真实场景模拟:

通过3D视觉和触觉传感实现环境感知和任务执行,学生可以体验从仿真到真实场景的任务转移过程,提升其实践操作能力。

2、创新性与前沿性:

系统整合了当前最前沿的DeepSeek、多模态融合、深度学习和3D视觉等技术,符合当前具身智能的最新发展方向。

3、高度模块化与灵活扩展:

硬件和软件模块高度集成,可根据实际需求更换3D相机、传感器及大模型等,使平台具有高度的扩展性。

05ee1a4a-706c-4cb7-a5c5-2c6c1cfa36f6.png
f391ee5f-378c-4905-bd61-7625c756e74e.jpg

 

 
师资介绍
 
 
 

 

 

 

 

朱老师,华南师范大学教授、博士生导师

 

人工智能学院人工智能机器人研究团队召集人,人工智能学院人工智能机器人研究中心主任,广东省人工智能机器人教育产业学院院长。中国科学院大学博士、北京大学博士后、澳门大学博士后、美国Texas State University访问学者。中国科学院深圳先进技术研究院客座研究员,中国计算机学会高级会员。 被授予华南师范大学教学名师、华南师范大学先进个人、广东省杰出发明人、深圳市地方级人才等称号。

 

肖老师,AI大模型资深算法专家

 

拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师,担任中国电子系统技术有限公司的算法Leader,高性能计算技术专家,是一位经验丰富且技术精湛的资深AI基础设施操盘手。他拥有超过十年的高性能计算喝算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家500强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师,直接参与了移动复合机器人和协作机器人的开发工作,通过引入大模型技术,成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化,获得多项专利和荣誉。 华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。

工作经历

2006年,英特尔上海国际实验室,高性能计算系统架构设计,大型并行图形系统的架构与设计开发;

2009年,头部安全公司,并发与安全架构和视频监控系统设计,公安安全系统的架构设计与开发;

2012年,大型通信集团,大型应急通信系统和视频安全监控设计,确保了系统的安全性和可靠性;

2016年,大数据公司,企业家数据的数据安全和系统安全设计,多家公司设计和实施了信息化安全管理方案,大规模数据的分析和优化;

2019年,大型央企,GPU、CUDA与算力平台:深入研究并应用了GPU和CUDA技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域;应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行;算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。

2022.10,头部机器人公司,移动复合机器人和协作机器人的开发,移动复合机器人的开发,在移动复合机器人的研发过程中,我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术,我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。

  1. 环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。

  2. 智能导航算法:结合大模型的强化学习算法,我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。

  3. 人机交互体验:借助大模型在自然语言处理方面的优势,我们实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。

协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,我主要聚焦于通过具身智能提升机器人的灵活性与适应性。

  1. 智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。

  2. 自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。

专业能力

并行计算和高性能计算;

深度学习模型设计和优化;

多模态大模型应用设计;

GPU与CUDA编程;

城市大脑与智能交通;

工业机器人和复合机器人大模型;

数据挖掘与运行优化;

国产信创环境适配优化;

专利

基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9)  ;

大型语义分析方法及装置 (CN202110499308.5) ;

奖项:  荣获2021年度集团优秀解决方案奖  ;

授课经历

重庆大学:深度学习模型在大型物流场景的应用;

头部能源上市公司:大型时序数据预测模型的应用;

头部音视频公司:图形和视频大模型的应用;

百度合作:分拣实训和智能眼实训;

985高校:机器学习与数据挖掘分析;

主讲课程

《高性能图形图像计算与算法》

《计算机视觉中的图像处理技术》

《视觉和多模态大模型应用》

《具身智能与多模态大模型应用》

《机器学习中的知识自学习与数据优化挖掘》

《大规模分布式系统设计与实现》

《GPU、CUDA与算力模型应用实战》

《华为昇腾芯片下的大模型迁移和训练课程》

 

关于TsingtaoAI

TsingtaoAI通过对前沿先进具身机器人与协作机器人的算法和智能体开发,搭建面向自动化工厂的具身智能实训平台,可以让企业在实际大规模产线决策建设前,进行预研实训,以让企业获得更快接入超级AI工厂的能力。

 

TsingtaoAI基于PBL的项目式实训理念,自研基于DeepSeek的具身智能实训解决方案、LLM的AIGC应用开发实训平台、基于LLM大模型的AI通识素养课数字人助手、一站式机器学习/深度学习/大模型AI训练实训平台和基于大语言模型的AIGC案例学习平台,为央国企、上市公司、外资企业、政府部门和高校提供AI&具身智能实训道场建设服务。

 

 

Product & Case.

产品与案例