AI 策略训练架构
在将模型部署到船载边缘计算单元之前,人工智能需在高性能服务器上经历数百万次的虚拟演练。
采用 离线训练 模式,确保模型在“出厂”前已具备抗流与稳向能力。
环境设置 1. 训练环境与对象 (依据交付物 3)
虚拟考场
基于 Gazebo 物理引擎。
- 提供符合物理规律的波浪、风力场。
- 作用: 以 100 倍于实时的速度生成训练数据。
智能体 (考生)
深度Q网络 + 循环神经网络。
- 输入: 虚拟惯导/定位数据。
- 输出: 虚拟电机推力指令。
奖励机制 (考官)
人因工程奖励函数。
- 评分: 根据舒适度(角速度受限)和精度打分。
- 反馈: 指导人工智能优化策略梯度。
训练方法 2. 核心训练方法
课程学习 (硬件构型进阶)
由简入繁,训练人工智能掌握不同硬件构型的控制逻辑(匹配项目硬件规划):
阶段 1 (基础)
双桨构型。
学习基础差速控制。
双桨构型。
学习基础差速控制。
阶段 2 (进阶前)
三桨 (前侧推)。
学习船头力矩补偿。
三桨 (前侧推)。
学习船头力矩补偿。
阶段 3 (进阶中)
三桨 (中侧推)。
适应不同的旋转中心。
三桨 (中侧推)。
适应不同的旋转中心。
阶段 4 (全能)
四桨全配。
掌握原地转与蟹行协同。
四桨全配。
掌握原地转与蟹行协同。
虚实迁移 3. 虚实迁移流程 (依据交付物 3)
1. 数据校准
用真实海试数据微调仿真参数,确保虚拟物理接近真实。
2. 离线训练
在服务器上训练模型直至收敛,生成模型权重文件。
3. 部署烧录
将训练好的模型量化压缩,烧录进船载控制器,进行实船测试。
缺失分析
资料缺失 (申请表未详述)
申请表中关于具体训练算法的优化细节较少,建议准备以下答辩预案:
鲁棒性训练技术 (如域随机化)
申请表未提及“域随机化”等具体增强模型抗干扰能力的技术手段。这是评审可能关注的技术细节,需解释为何在仿真中引入随机变量是必要的。