人因工程奖励函数
不同於傳統控制只追求“誤差最小”,本系統將“松山湖實測” 得出的舒適度指標寫入 AI 的價值觀,訓練它在修正航向時兼顧乘員感受。
SOURCE 1. 指标来源:ESS_Survey-R5
實地調研結論
基於 2025 年 4 月在東莞松山湖進行的 5.5 米釣魚船實測,我們量化了導致乘客“暈船”或“不適”的物理閾值。
結論 A: 擺動幅度超過 12° 會令人不適。
結論 B: 角速度超過 2.5°/s 會引發暈眩感。
轉化為數學約束
我們將這些感性指標轉化為強化學習中的懲罰項 。
如果 AI 為了快速回正而猛打方向盤(角速度 > 2.5°/s),即使航向準了,也會被扣分。
迫使 AI 學習“平滑過渡”的策略。
FORMULA 2. 獎勵函數結構
總獎勵 = 精度獎勵 - 舒適度懲罰 - 能耗懲罰
A. 精度獎勵
+- 航向误差: 航向偏差越小,得分越高。
- 交叉轨道误差: 偏離航線距離越小,得分越高。
- 目標: 引導船隻走直線。
B. 舒適度懲罰
-- 角速度懲罰: 當 |ω| > 2.5°/s 時,給予非線性懲罰(越快罰越重)。
- 擺動幅度懲罰: 當擺動 > 12° 時,給予懲罰。
- 目標: 防止急轉彎和劇烈晃動。
C. 能耗懲罰
-- 動作幅度: 懲罰電機推力的劇烈變化。
- 總推力: 鼓勵用最小的能量維持航向。
- 目標: 延長電池續航,減少機械磨損。
5. 极端情况应对:非线性加权
問題場景: 當遭遇 30° 劇烈偏航時,如何打破“舒適度”限制以優先保命?
策略:指数级惩罚
我們不設定硬性的 "阈值",而是通過將航向误差設為平方項 來實現自然切換:
• 小偏差 (5°): $5^2 = 25$。此時懲罰很小,AI 為了避免舒適度扣分(例如扣 50),會選擇溫柔修正。
• 大偏差 (30°): $30^2 = 900$。偏差懲罰瞬間暴增,遠超舒適度扣分。AI 會自動判斷“舒適度已不重要”,全速回正。
AI 行為預期 (示意)
*此為原理說明,非申请表原文:
- 情況 A (偏 30°): 偏差懲罰 (900) >>> 舒適度懲罰 (50)。👉 AI 犧牲舒適度,全速救船。
- 情況 B (偏 5°): 偏差懲罰 (25) < 舒適度懲罰 (50)。👉 AI 優先保舒適,緩慢回正。
資料缺失
權重參數
Mainform 未列出精度、舒適度和能耗三者之間的具體權重比例 (Alpha, Beta, Gamma)。這需要通過仿真訓練來微調。
個人化設定
申請表未提及是否允許用戶自定義這些閾值(例如:老船長可能喜歡更靈敏的響應,而遊客喜歡更平穩)。這可作為未來 APP 升級點。