深度强化学习架构详解

AI 核心算法架构

本架構專用於 ESS 2 的智能航向修正模式。
核心採用 DQN (Deep Q-Network) 結合 RNN，專注於航向保持與平滑控制。

當前船頭朝向 (罗盘) 與目標航向的夾角。

IMU 傳感器測得的實時旋轉速率。

輸入一段時間內的狀態序列，供 RNN 判斷環境趨勢。

补充信息

以下关键安全逻辑在申请表中未具体描述，但属于工程必备，需在汇报时重点补充：

PWM 控制信號。

PWM 控制信號。

修正大角度或橫移。

配合原地旋轉。

依據申请表及 Survey 研究設定參數，訓練 AI 達到舒適度指標。

保持航向： 獎勵 Heading 偏差趨近 0。

直線行駛： 獎勵軌跡誤差最小化。

大幅偏航： 偏差 > 10° 給予懲罰。

S型軌跡： 懲罰無效的左右修正。

擺動限制： Swing > 12° 給予懲罰。

角速度限制： Velocity > 2.5°/s 給予懲罰。