新闻动态

山东大学通用智能实验室师生论文获KDD 2025录用

近日,山东大学计算机科学与技术学院通用智能实验室师生撰写的论文被KDD 2025录用。第31届ACM知识发现与数据挖掘国际会议(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)将于2025年8月3日至8月7日在加拿大多伦多举行。SIGKDD 是数据挖掘领域的旗舰国际会议之一,也是中国计算机学会(CCF)推荐的 A 类会议
录用的文章如下:

标题:Offline Trajectory Optimization for Offline Reinforcement Learning

作者:Ziqi Zhao, Zhaochun Ren, Liu Yang, Yunsen Liang, Fajie Yuan, Pengjie Ren, Zhumin Chen, Jun Ma, Xin Xin

内容简介:

离线强化学习(Offline Reinforcement Learning) 旨在无需在线探索的情况下学习策略。为了扩充训练数据,基于模型的离线强化学习通过学习一个环境动态模型,作为虚拟环境生成模拟数据,以提升策略学习效果。然而,现有的离线RL数据增强方法存在以下两个主要问题:(i)短期模拟轨迹带来的提升有限;(ii)缺乏对生成数据的评估与纠正,导致增强数据质量不高。

本文提出了一种新的用于离线强化学习的离线轨迹优化方法(OTTO)。其核心动机是进行长时间跨度的轨迹模拟,并基于模型不确定性对增强数据进行评估与纠正。具体而言,我们提出了一种基于Transformer集成模型的预测方法,称为World Transformers,用于预测环境状态的动态变化及其对应的奖励函数。我们设计了三种策略,基于扰动离线数据中的动作,使用World Transformers生成长时间跨度的轨迹模拟。随后,我们引入了基于不确定性的World Evaluator,用于评估生成轨迹的置信度,并对置信度较低的数据进行纠正。最终,我们将原始数据与纠正后的增强数据联合用于训练离线RL算法。OTTO可作为一个插件模块,灵活集成到现有的无模型离线RL方法中,提升代表性算法的性能,甚至在如AntMaze这类奖励稀疏的复杂环境中也表现出显著效果。大量基准测试实验证明了OTTO的有效性。

图:OTTO方法示意图

Copyright©SDU IR Lab, All rights reserved.
地址:山东省济南市山大南路27号山东大学中心校区 人工智能学院

地址:山东省青岛市滨海路72号山东大学青岛校区 计算机科学与技术学院