AI 策略训练架构

在将模型部署到船载边缘计算单元之前,人工智能需在高性能服务器上经历数百万次的虚拟演练。
采用 离线训练 模式,确保模型在“出厂”前已具备抗流与稳向能力。

环境设置 1. 训练环境与对象 (依据交付物 3)

虚拟考场

基于 Gazebo 物理引擎。

  • 提供符合物理规律的波浪、风力场。
  • 作用: 以 100 倍于实时的速度生成训练数据。

智能体 (考生)

深度Q网络 + 循环神经网络。

  • 输入: 虚拟惯导/定位数据。
  • 输出: 虚拟电机推力指令。

奖励机制 (考官)

人因工程奖励函数。

  • 评分: 根据舒适度(角速度受限)和精度打分。
  • 反馈: 指导人工智能优化策略梯度。

训练方法 2. 核心训练方法

课程学习 (硬件构型进阶)

由简入繁,训练人工智能掌握不同硬件构型的控制逻辑(匹配项目硬件规划):

阶段 1 (基础)
双桨构型。
学习基础差速控制。
阶段 2 (进阶前)
三桨 (前侧推)。
学习船头力矩补偿。
阶段 3 (进阶中)
三桨 (中侧推)。
适应不同的旋转中心。
阶段 4 (全能)
四桨全配。
掌握原地转与蟹行协同。

虚实迁移 3. 虚实迁移流程 (依据交付物 3)

1. 数据校准

用真实海试数据微调仿真参数,确保虚拟物理接近真实。

2. 离线训练

在服务器上训练模型直至收敛,生成模型权重文件。

3. 部署烧录

将训练好的模型量化压缩,烧录进船载控制器,进行实船测试。

缺失分析

资料缺失 (申请表未详述)

申请表中关于具体训练算法的优化细节较少,建议准备以下答辩预案:

鲁棒性训练技术 (如域随机化)

申请表未提及“域随机化”等具体增强模型抗干扰能力的技术手段。这是评审可能关注的技术细节,需解释为何在仿真中引入随机变量是必要的。

上一页 (ESS 2 核心架构 (AI)) 返回首页