奖励的概念是强化学习的核心,也广泛应用于自然科学、工程学和社会科学。生物通过与环境互动并观察由此产生的奖励刺激来学习行为。奖励的表达在很大程度上代表了系统的感知,并定义了动态系统的行为状态。在强化学习中,寻找能够解释动态系统行为决策的奖励一直是一个开放的挑战。
本研究旨在提出在连续时间和动作空间中使用离散时间奖励的强化学习算法,其中连续空间对应于物理定律描述的系统的现象或行为。将状态导数反馈到学习过程中的方法导致了基于离散时间奖励的强化学习分析框架的发展,这与现有的积分强化学习框架有本质区别。
“当想到将导数反馈到学习过程中时,我感觉就像闪电一样。你猜怎么着?它在数学上与离散时间基于奖励的策略学习有关,”CiChen博士回忆起他的顿悟时刻时说道。
在离散时间奖励的指导下,行为决策律的搜索过程分为前馈信号学习和反馈增益学习两个阶段。研究发现,利用基于离散时间奖励的技术可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。
核心是利用采样数据从数据中提取规律。为此,预处理动态系统的动作和输出,并构建前馈信号,用于反馈增益学习和在线实时控制回路的设计。然后,在离散时间序列上测量输入输出数据和前馈信号,在此基础上使用张量积组装离散时间数据样本。通过策略迭代计算最优贝尔曼方程。通过策略评估和改进,通过严格的数学运算和收敛推导从离散时间数据样本中获得最优反馈增益。最后,前馈信号和反馈增益共同贡献最优决策律。图片来源:中国科学出版社
上述方法已应用于电力系统状态调节,实现输出反馈的优化设计,该过程省去了动态模型辨识的中间阶段,并通过从现有的积分强化学习框架中去除奖励积分算子,显著提高了计算效率。
本研究利用离散时间奖励引导来发现连续时间动态系统的优化策略,构建理解和改进动态系统的计算工具,该成果可在自然科学、工程学和社会科学中发挥重要作用。
该项研究由一个国际科学家团队领导,包括陈博士(广东工业大学自动化学院)、谢利华博士(新加坡南洋理工大学电气与电子工程学院)和谢胜利博士(粤港澳智能离散制造联合实验室、广东省物联网信息技术重点实验室),并由刘逸璐博士(美国田纳西大学电气工程与计算机科学系)和FrankL.Lewis博士(美国德克萨斯大学阿灵顿分校UTA研究所)共同参与。