TsingtaoAI具身智能机器人开发套件及实训方案
在科技蓬勃发展、创新需求日益增长的当下,高校科研与教学面临着前所未有的机遇与挑战。为助力高校在人工智能、机器人技术等前沿领域取得突破,同时提升教学质量、培养创新型人才,我们精心打造了TsingtaoAI 具身智能机器人开发套件。
该产品套件创新性地融合了先进大模型技术、深度相机与多轴协作机械臂技术,构建了一个功能强大、灵活易用的人机协作解决方案。其核心在于将智能决策、精准感知与高效执行完美结合,为高校相关领域的发展注入新动力。
在高校科研方面,大模型技术是套件的智慧核心。深度求索 DeepSeek-R1 大语言模型和通义千问 Qwen2.5-VL-Max 视觉语言模型相互协作,赋予机械臂强大的智能分析能力。面对复杂的科研任务,机械臂能够在多模态视觉语言大模型的加持下,精准理解指令含义。例如在化学实验自动化场景中,它可以 “听” 懂科研人员的语音指令,“看” 清实验器具和试剂的位置,快速分析并规划出精确的操作步骤,实现实验过程的自动化,有效提高实验效率,减少人为误差,加速科研项目的推进。在数据采集与处理工作中,机械臂配合深度相机,能够高效采集大量精确的数据,大模型则实时对这些数据进行深度分析,挖掘潜在价值,为科研人员提供有针对性的研究方向和决策依据,助力高校在人工智能、机器人技术等前沿领域实现更多突破。
在教学领域,TsingtaoAI具身智能机器人开发套件是创新教学的得力助手。它将抽象晦涩的理论知识转化为生动有趣的实践操作,为学生打开了深度学习的大门。在机器人编程课程中,学生可以借助大模型与协同机械臂,通过简单的自然语言指令控制机械臂完成各种复杂动作,在实践中深入理解机器人编程的逻辑和原理,培养动手能力。在人机交互课程上,学生与机械臂进行自然流畅的对话式交互,亲身体验自然语言处理技术在实际中的应用,激发创新思维。这种直观、互动性强的教学方式,极大地提升了学生的学习兴趣和参与度,让他们更好地掌握专业技能,为未来从事相关领域的工作或研究奠定坚实基础。同时,该套件也有助于高校打造与时俱进的教学体系,提升教育质量与竞争力,培养适应时代发展需求的高素质人才。
设计精巧,性能优越:采用一体化设计,本体重量仅 3kg,负载能力却可达 1kg,工作半径为 350mm,体积小巧且功能强大。它搭载无刷直流舵机,重复定位精度高达 ±0.5mm。机身配备两块显示屏,支持 M5 生态应用,可有效拓展协作应用空间。
操作便捷,性价比高:借助拖动示教以及 myblockly 简单的可视化编程,用户能够迅速上手操作。同时,它支持 ROS/moveIt 等开发系统及大象机器人自主研发的 roboflow 操作软件,便于用户根据需求进行二次开发。在经济方面,这款机械臂在标准 8 小时工作制下,能够替代重复性、标准性的工作,为科研项目有效降本增效。此外,其精巧的结构设计使其能完美融入实际环境,还具备基于精确动力学模型的防碰撞检测功能,可与人安全协同作业。
深度相机
这是一款性能卓越的双目 3D 相机,专为机器人视觉应用设计,具有以下显著特点:
适应全场景,感知能力强:搭载新一代深度引擎芯片 MX6800 及高性能主被动融合双目成像系统,可在不同光照和复杂动态环境中稳定输出高质量深度数据。具备大基线、长距离、高精度特性,最大测量范围超 10 米,对角 FOV 超 100°,并集成激光测距模块,实现零盲区测量。防护等级达 IP65,能适应严苛环境。通过主被动融合双目技术,可准确识别不同反射率表面、半透明材质和细小物体,避免机器人运行潜在风险。
功能先进,使用便捷:支持极短曝光和 60fps 图像输出帧率,集成深度和 RGB 全局快门技术,无运动畸变成像。为深度、红外双目、RGB 图像和 IMU 数据提供统一硬件时间戳,具备灵活精准的帧同步和多机同步功能,可扩展实现多模态场景感知。相机内完成深度图像计算及传感器精准同步,降低上位机算力要求和数据传输时延,预置多种场景化深度模式,搭配 SDK 及开发者生态,便于快速部署。
AI Box智算盒
AI算力:基于NVIDIA Jetson Orin Nano模块,提供40 TOPS算力,支持多神经网络并行推理。
处理器:6核Arm Cortex-A78AE CPU + 512核NVIDIA Ampere GPU,配备4GB LPDDR5内存。
扩展与接口
网络通信:1个千兆以太网接口,支持有线连接;预留2个Nano SIM卡槽(支持4G/5G扩展)及M.2接口(可扩展5G模块)。
外设接口:2×USB 3.2 Gen1、1×USB 2.0、1×Mini PCIe、2×M.2(M/B Key),支持存储和功能模块扩展。
工业级设计
电源:支持9~36V宽电压输入,适应复杂工业供电环境。
散热与尺寸:开放式载体结构搭配主动散热风扇(60×60×13mm),尺寸125×125×51mm,无风扇设计支持-10~50℃宽温工作。
开发支持
软件生态:预装NVIDIA JetPack SDK,支持CUDA、TensorRT等框架;集成Allxon平台实现远程OTA升级。
深度求索DeepSeek-R1大语言模型,通义千问Qwen2.5-VL-Max视觉语言模型,实现动作编排和视觉理解功能,支持16种指令操作。
开发环境
开发环境基于 Python 3.10,具有稳定性高、开发效率强等优势,特别适用于处理多模态视觉和语言大模型,支持自然语言处理和视觉理解功能。Python 作为广泛应用的开发语言,能够高效处理数据分析、图像处理、音频处理、机器学习等多种任务,为项目提供灵活和可扩展的开发框架。
以下是本开发环境中使用的关键软件包:
-
numpy==1.26.4:提供高效的数值计算功能。
-
opencv-python:用于计算机视觉任务,如图像处理和视频分析。
-
appbuilder-sdk:为开发提供便捷的工具和接口。
-
Pillow:强大的图像处理库。
-
qianfan:提供相关的服务和支持。
-
pyaudio:需先执行 sudo apt-get install portaudio19-dev 进行依赖安装,再通过 pip install pyaudio 安装,用于音频处理。
-
pybind11==2.11.0 和 pybind11-global==2.11.0:用于 Python 与 C++ 的交互。
-
plyfile:用于处理 PLY 文件格式。
-
open3d:用于三维数据处理和可视化。
-
openai:可用于调用 OpenAI 的相关服务。
-
redis:高性能的键值对存储数据库,可用于缓存和数据存储。
大模型 API 调用
-
在深度求索DeepSeek官方平台上购买API服务https://platform.deepseek.com/usage。
-
文字识别(ASR)和语音合成 (TTS) 模型:百度AppBuilder-SDK短语音识别(极速版),百度AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)
大模型技术与机械臂的深度融合,是TsingtaoAI的核心竞争力所在,代表了自动化领域的重大技术突破。通过集成多模态视觉语言大模型,TsingtaoAI实现了机械臂在视觉、语言及感知层面的全面智能化升级,赋予其更强的智能感知与决策能力。多模态大模型融合视觉信息、语言理解与环境感知,可在复杂场景中实时识别并解析图像、声音、文本等多种输入信号,使机械臂不仅能感知环境,更能理解任务需求,进而做出精准反应。这一融合让机械臂操作更灵活、更人性化,用户可通过自然语言命令与之交互,无需复杂编程或手动操作。
多模态视觉语言大模型还增强了机械臂的适应性与自主学习能力,使其能在不同环境中自我调整与优化。通过实时分析处理来自传感器、深度相机及语音输入的多维数据,机械臂可精准响应任务需求,并在执行过程中持续优化操作策略,提升工作效率
持续升级的技术保障:
不断更新优化的大模型算法,为产品的持续升级提供无限可能,确保用户始终能享受到前沿技术服务。随着人工智能和深度学习领域的迅猛发展,大模型算法持续优化创新,不仅提升机械臂的智能化水平,还能随时契合最新行业需求与技术趋势。通过定期软件更新与算法迭代,用户可不断获得更强大的功能与更高的工作效率,这一优势极大地延长了产品生命周期,保障用户在使用过程中的技术前瞻性。
开源助力二次开发:
提供开源源代码,鼓励用户开展二次开发与创新,充分彰显其卓越的可扩展性。借助开源平台,用户可自由访问、修改代码,并依据自身需求定制个性化功能与应用,为不同场景下的自动化需求提供定制化解决方案。这一开源特性使本产品在基础功能之上,具备更高灵活性,能够快速响应市场与技术变化。
丰富接口拓展应用:
配备丰富的接口与开发资源,极大增强了可扩展性,方便用户集成其他硬件设备或软件系统,进一步拓展产品应用范围。通过灵活的硬件接口与各类功能性 API 接口,用户可将本产品与多种传感器、执行器、外部控制系统及第三方软件平台集成。这不仅简化了不同应用场景下的部署流程,还使产品能在多种应用中提供定制化自动化解决方案。
6.1 多模态指令执行
精准动作控制
-
指定关节坐标运动:支持依据用户输入的末端执行器关节坐标(x, y, z),精确控制机械臂到达指定位置,满足高精度操作需求。此功能可确保机械臂在执行任务时实现精准定位,适用于如装配、焊接等对精度要求极高的工作场景。
-
LED 灯颜色调节:机械臂配备可调节的 LED 灯,用户能够根据实际需求设置不同的灯光颜色。该功能一方面可用于状态指示,通过不同颜色直观显示机械臂的工作状态,如红色代表故障、绿色代表正常工作;另一方面可作为创意展示元素,提升交互体验和视觉效果。
-
生动动作执行:为增强互动性和趣味性,机械臂能够执行点头、摇头、跳舞等多种生动动作。这些动作不仅能带来轻松有趣的交互体验,还能帮助学生更好地理解机械臂的运动控制和程序编写方式。
功能操作指令
-
吸泵开关控制:机械臂配备吸泵控制系统,用户可通过指令灵活开关吸泵,实现物体的抓取和释放操作。这一功能广泛应用于物料搬运、自动化装配等场景,能有效提升工作生产效率,可轻松应对各种物料的搬运需求。
-
多模态抓取功能:结合深度相机与大模型的视觉理解能力,机械臂可精准识别并抓取不同形状、材质的物体。通过视觉感知精准定位物体,再利用吸盘完成抓取操作,使其能够适应搬运、装配等复杂任务需求。
-
拖动示教功能:允许用户手动引导机械臂运动,机械臂会自动记录运动轨迹并在后续自动复现。该功能极大简化了编程过程,即使没有编程经验的用户也能方便地进行任务编程,降低了操作门槛。
-
等待时间设置:在执行复杂任务时,用户可在指令中插入等待时间,灵活控制动作序列中的停顿,确保动作按顺序执行,或为其他操作提供必要的缓冲,实现更复杂的任务流程。
-
机械臂放松功能:在需要调整机械臂姿态或进行维护时,用户可使用此指令让机械臂各个关节放松,使其处于松弛状态,方便进行调整和维护操作,保障设备的正常运行。
-
俯视姿态拍照:可将机械臂的末端执行器移动到指定的俯视角度,用于图像采集或其他视觉检测任务。适用于质量检测、图像识别等多种应用场景,为相关工作提供准确的图像数据支持。
6.2、Agnet人机交互
创新性地采用基于自然语言处理的大模型与机械臂相结合的智能 Agent 人机交互模式,旨在为用户打造简便直观的交互体验。通过这种交互方式,用户无需掌握复杂编程技能或操作命令,仅需运用自然语言下达指令,机械臂便能迅速理解并精准执行。
自然语言指令操控
基于自然语言的人机交互方式,让用户能够通过简洁易懂的自然语言指令控制机械臂。诸如 “抓取红色苹果”“将工件搬运到指定位置” 等指令,机械臂均可理解并准确执行。系统内置的大模型凭借先进的NLP算法,能够精准解析指令中的关键目标、动作及位置信息,将自然语言指令高效转换为具体的动作指令,极大提升了用户体验,显著降低操作门槛。
6.3、智能体动作编排
智能体 Agent 作为系统的核心调度模块,承担着将用户输入的自然语言指令解析为一系列机械臂具体动作的重任。以用户指令 “将蓝色球放到右侧的架子上” 为例,智能体将依循以下步骤执行:
-
任务分解:把复杂指令拆解为诸如 “抓取蓝色球” 和 “移动到右侧架子” 等单一动作,使任务执行更具条理性。
-
动作编排:依据任务优先级以及实际场景状况,合理规划动作执行顺序,保障每一步操作高效完成。通过这种任务解析与动作编排机制,系统得以准确领会用户需求,并高效执行复杂操作,使机械臂的动作编排与路径规划更为智能、高效。智能体 Agent 借助任务解析、动态路径规划、多智能体协作以及持续优化等技术,在多样化应用场景中展现出卓越的执行能力,大幅提升任务效率,同时确保操作的安全性与精确性。
6.4、多模态融合助力精准操作
系统融合多模态大模型的视觉理解能力,赋予机械臂强大的图像识别与信息感知功能。通过视觉与语言两种模态的深度整合,机械臂能够精准识别图像中的物体、场景信息及特征属性,并结合自然语言指令实现精确操作。例如:面对一堆物品,当用户发出 “抓取蓝色圆形物体” 的指令时,系统能够快速从图像中定位目标物体的颜色、形状和位置,生成精准的抓取路径并高效执行任务。这种视觉与语言深度融合的特性,使机械臂在复杂环境下依然能够精准、高效地完成任务,显著提升操作的智能化与实用性。
工业分拣场景
在工业分拣领域,本具身智能机器人开发套件凭借其多模态大模型的视觉理解能力,可精准识别不同形状、尺寸和材质的零部件。例如,在电子制造工厂的零部件分拣环节,面对大量外观相似的电子元件,套件中的机械臂能借助深度相机获取视觉信息,通过大模型快速分析并准确抓取目标元件,实现高效分拣。这为高校相关专业,如自动化、机械工程等,提供了丰富的创新实验课题。
学生可以研究如何优化大模型的识别算法,提高分拣准确率;探索机械臂运动路径规划,提升分拣效率;开展实验,实现不同类型工业机器人在分拣任务中的协同作业,从而培养学生在工业自动化领域的创新实践能力。在课程方面,可开设 “工业机器人智能分拣应用” 实验课程,让学生深入学习工业分拣流程、机器人编程以及大模型在工业场景中的应用。
农作物采摘场景
农作物采摘往往面临劳动强度大、人力成本高的问题。本开发套件能够大显身手,以草莓采摘为例,其机械臂在多模态大模型和视觉系统的协同下,可识别草莓的成熟度、位置和形状。通过精准的动作控制,轻柔地采摘草莓,避免损伤果实。对于高校农业工程、机器人工程等专业,这为学生提供了创新实验机会。
学生可以针对不同农作物的生长特性和采摘要求,改进机械臂的末端执行器设计;利用大模型优化视觉识别算法,适应复杂的农田环境光照变化;开展实验研究如何实现机器人在农田中的自主导航与采摘任务规划。
在课程设置上,可设立 “农业机器人应用技术”实验 实验课程,涵盖农作物生长特性分析、机器人视觉感知与控制、农业场景下的机器人编程等内容,让学生全面掌握农业机器人技术在农作物采摘中的应用。
物流运输场景
物流运输环节包含仓储、分拣、搬运等多个复杂流程。本具身智能机器人开发套件能实现从货架上精准分拣物料,并搬运至指定位置。例如在物流仓库中,机械臂可依据多模态大模型获取的定位和语义信息,快速从众多货物中分拣出目标物品,再由移动底盘配合完成搬运。对于高校物流管理、自动化专业的学生而言,可围绕此开展创新实验。
比如研究如何运用大模型优化物流机器人的任务调度算法,提高仓库物流效率;实验不同类型物流机器人与套件的协同作业模式;探索利用大模型实现物流运输过程中的智能路径规划,降低运输成本。高校还可开设 “物流机器人与智能仓储系统” 实验课程,教授物流流程优化、机器人系统集成以及大模型在物流场景中的应用等知识,培养学生在智慧物流领域的专业素养。
生产制造场景
在生产制造领域,本开发套件可助力完成装配、焊接等高精度任务。以电子产品装配为例,机械臂能依据大模型解析的产品装配图纸和工艺要求,精准控制各关节运动,将微小零部件准确装配到位。对于高校机械制造、电子信息工程等专业,这为学生提供了绝佳的创新实践平台。
学生可以通过实验改进大模型对复杂装配工艺的理解和执行能力;研究如何提升机械臂在装配过程中的精度控制和稳定性;开展项目探索多台套件在自动化生产线上的协同工作模式。高校可开设 “智能生产制造与机器人应用” 实验课程,涵盖生产制造工艺、机器人编程与控制、大模型驱动的智能制造技术等内容,使学生掌握生产制造领域的前沿技术与创新应用。
TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、华中科技大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队擅长面向教育领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。TsingtaoAI自研基于LLM大模型的AIGC应用开发实训平台、基于AI大模型的具身智能实训解决方案、面向CS类的AI训练实训平台等产品方案,为高校提供实训解决方案、师资研修和实验实训课程开发服务。