第五章 认知声纳波形设计的强化学习求解

张开发
2026/4/7 20:07:32 15 分钟阅读

分享文章

第五章 认知声纳波形设计的强化学习求解
5.1 基于互信息最大化的连续动作空间探索传统声纳波形设计基于固定规则库(如线性调频LFM、双曲调频HFM),缺乏对时变水声信道的自适应能力。强化学习框架将波形参数优化建模为序贯决策过程,智能体通过与环境交互学习最大化探测性能的最优策略,实现从"预先设计"到"在线认知"的范式转变。5.1.1 将LFM/HFM参数(带宽、脉宽、调频斜率)建模为连续MDP过程认知声纳波形设计的状态-动作空间具有内在连续性。马尔可夫决策过程(MDP)形式化定义为五元组 (S,A,P,R,γ) ,其中状态空间 S 表征信道观测历史与当前环境认知,动作空间 A 定义波形参数的可行域。对于主动声纳探测,动作 a∈A⊂R3 映射至LFM/HFM脉冲的物理参数:a=[B,T,K]T其中 B 为带宽(Hz),T 为脉宽(s),K 为调频斜率(Hz/s)。LFM瞬时频率呈线性演化:f(t)=fc​+K⋅t,t∈[0,T],K=TB​HFM则满足双曲调制律:f(t)=1−f0​K​tf0​​,K=f1​Tf0​(f1​−f0​)​连续动作空间的维度诅咒通过参数边界约束缓解:A={a∣Bmin​≤B≤Bmax​,Tmin​≤T≤Tmax​,Kmin​≤K≤Kmax​}状态 s∈S 编码信道估计的充分统计量,包含多径时延扩展 στ​ 、多普勒扩展 σf​ 、以及历史波形-性能对的嵌入向量:st​=[στ​(t),σf​(t),et−1​,et−2​]T状态转移概率 P(st+1​∣st​,at​) 表征水声信道的随机演化,受海洋动力学(内波、潮

更多文章