Publications

Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang (2025). Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback. 39th AAAI Conference on Artificial Intelligence (AAAI 2025).

Xiaoyuan Zhang, Xinyan Cai, Bo Liu, Weidong Huang, Song-Chun Zhu, Siyuan Qi, Yaodong Yang (2025). Differentiable Information Enhanced Model-Based Reinforcement Learning. 39th AAAI Conference on Artificial Intelligence (AAAI 2025).

Zhaowei Zhang, Fengshuo Bai, Qizhi Chen, Chengdong Ma, Mingzhi Wang, Haoran Sun, Zilong Zheng, Yaodong Yang (2025). Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs. The 13th International Conference on Learning Representations (ICLR 2025).

Hantao Lou, Jiaming Ji, Kaile Wang, Yaodong Yang (2025). Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction. AAAI Alignment Track 2025.

Yue Li, Shurui Wang, Zhou Lv, Zhaoji Wang, Yunbiao Zhao, Ying Xie, Yang Xu, Yaodong Yang, Et Al (2025). Transforming the synthesis of carbon nanotubes with machine learning models and automation. Matter.

Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Yaodong Yang, Et Al. (2024). JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

Xiaotian Liu, Ming Hu, Yijie Peng, Yaodong Yang (2024). Multi-Agent Deep Reinforcement Learning for Multi-Echelon Inventory Management. Production and Operations Management.

Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang (2024). Panacea: Pareto Alignment via Preference Adaptation for LLMs. Advances in Neural Information Processing Systems, 2024.

Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Tianyi Qiu, Juntao Dai, Yaodong Yang (2024). Aligner: Efficient Alignment by Learning to Correct. Advances in Neural Information Processing Systems, 2024.

Qianxu Wang, Congyue Deng, Tyler Ga Wei Lum, Yuanpei Chen, Yaodong Yang, Jeannette Bohg, Yixin Zhu, Leonidas Guibas (2024). Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping. 2024 Conference on Robot Learning.

Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang (2024). Omnisafe: An infrastructure for accelerating safe reinforcement learning research. Journal of Machine Learning Research.

Chengdong Ma, Aming Li, Yali Du, Hao Dong, Yaodong Yang (2024). Efficient and scalable reinforcement learning for large-scale network control. Nature Machine Intelligence.

Qinghao Wang, Yaodong Yang (2024). Carbon trading supply chain management based on constrained deep reinforcement learning. Autonomous Agents and Multi-Agent Systems.

Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang (2024). ProgressGym: Alignment with a Millennium of Moral Progress. NeurIPS 2024 Track on Datasets and Benchmarks (Spotlight).

Ruiqing Chen, Xiaoyuan Zhang, Yali Du, Yifan Zhong, Zheng Tian, Fanglei Sun, Yaodong Yang (2024). Off-agent trust region policy optimization. International Joint Conference on Artificial Intelligence (IJCAI 2024).

(2024). .

Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng (2024). Efficient adaptation in mixed-motive environments via hierarchical opponent modeling and planning. 41st International Conference on Machine Learning 2024.

Jieming Cui, Tengyu Liu, Nian Liu, Yaodong Yang, Yixin Zhu, Siyuan Huang (2024). Anyskill: Learning open-vocabulary physical skill for interactive agents. Computer Vision and Pattern Recognition (CVPR 2024).

Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li (2024). End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations. Proceedings of the 41st International Conference on Machine Learning 2024.

Yi-Da Tang, Jmir Preprints, Kuo Zhang, Xiangyu Yan, Dph, Xiangbin Meng, Jiaming Ji, Hua Xu, Jingqian Liu, Jingjia Wang, Xuliang Wang, Jun Gao, Da Liu, Yuan-Geng-Shuo Wang, Chunli Shao, Wenyao Wang, Yaodong Yang (2024). Revolutionizing Healthcare: The Transformative Impact of LLMs in Medicine. Journal of Medical Internet Research.

Yuyang Li, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, Siyuan Huang (2024). Grasp multiple objects with one hand. IEEE Robotics and Automation Letters (RA-L) & International Conference on Intelligent Robots and Systems (IROS).

Sirui Chen, Zhaowei Zhang, Yaodong Yang, Yali Du (2024). STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning. 38th Conference on Artificial Intelligence (AAAI 2024).

Yifan Zhong, Grudzien Kuba, Xidong Feng, Siyi Hu, Jiaming Ji, Yaodong Yang (2024). Heterogeneous-Agent Reinforcement Learning. Journal of Machine Learning Research.

Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, QIANG FU, Xiaojun Chang, Yaodong Yang (2024). Maximum entropy heterogeneous-agent reinforcement learning. International Conference on Learning Representations (ICLR 2024).

Shangding Gu, Jakub Grudzien Kuba, Yuanpei Chen, Yali Du, Long Yang, Alois Knoll, Yaodong Yang (2023). Safe multi-agent reinforcement learning for multi-robot control. Artificial Intelligence (AIJ).

Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang (2023). Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark. Neural Information Processing Systems, 2023.

Zhijian Duan, Wenhan Huang, Dinghuai Zhang, Yali Du, Jun Wang, Yaodong Yang, Xiaotie Deng (2023). Is Nash Equilibrium Approximator Learnable?. Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2023).

Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Boyuan Chen, Ruiyang Sun, Yizhou Wang, Yaodong Yang (2023). BeaverTails: A Human-Preference Dataset for LLM Harmlessness Alignment. Neural Information Processing Systems, 2023.

Weikang Wan, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, He Wang (2023). Unidexgrasp++: Improving dexterous grasping policy learning via geometry-aware curriculum and iterative generalist-specialist learning. International Conference on Computer Vision (ICCV 2023).

Muning Wen, Runji Lin, HanjingWANG, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang, Weinan Zhang (2023). Large Sequence Models for Sequential Decision-Making: A Survey. Frontiers of Computer Science (FCS).

Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, Luo Mai (2023). GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models. The Fortieth International Conference on Machine Learning (ICML 2023).

Oliver Slumbers, David Henry Mguni, Stephen Marcus McAleer, Stefano B. Blumberg, Jun Wang, Yaodong Yang (2023). A Game-Theoretic Framework for Managing Risk in Multi-Agent Systems. The Fortieth International Conference on Machine Learning (ICML 2023).

Xiaohang Tang, Le Cong Dinh, Stephen Marcus McAleer, Yaodong Yang (2023). Regret-Minimizing Double Oracle for Extensive-Form Games. The Fortieth International Conference on Machine Learning (ICML 2023).

Qinghao Wang, Yanling PENG, Yijie Peng, Yaodong Yang (2023). A Deep Reinforcement Learning-driven Vine Copula Method for Correlation Structure Analysis of Mortgage. China Journal of Econometrics.

Ming Zhou, Ziyu Wan, Hanjing Wang, Muning Wen, Runzhe Wu, Ying Wen, Yaodong Yang, Yong Yu, Jun Wang, Weinan Zhang (2023). MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning. Journal of Machine Learning Research (JMLR).

David Mguni, Haojun Chen, Taher Jafferjee, Jianhong Wang, Long Fei, Xidong Feng, Stephen McAleer, Feifei Tong, Jun Wang, Yaodong Yang (2023). MANSA: Learning Fast and Slow in Multi-Agent Systems. The Fortieth International Conference on Machine Learning (ICML 2023).

David Mguni, Taher Jafferjee, Jianhong Wang, Nicolas Perez Nieves, Tianpei Yang, Matthew Taylor, Wenbin Song, Feifei Tong, Hui Chen, Jiangcheng Zhu, Jun Wang, Yaodong Yang (2023). Learning to Shape Rewards using a Game of Two Partners. Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI 2023).

Shuang Wu, Jian Yao, Haobo Fu, Ye Tian, Chao Qian, Yaodong Yang, QIANG FU, Yang Wei (2023). Quality-Similar Diversity via Population Based Reinforcement Learning. The Eleventh International Conference on Learning Representations (ICLR 2023).

Xiaotie Deng, Ningyuan Li, David Mguni, Jun Wang, Yaodong Yang (2023). On the complexity of computing Markov perfect equilibrium in general-sum stochastic games. National Science Review (NSR).

Ying Wen, Hui Chen, Yaodong Yang, Minne Li, Zheng Tian, Xu Chen, Jun Wang (2022). A game-theoretic approach to multi-agent trust region optimization. International Conference on Distributed Artificial Intelligence (DAI 2022).

Qinghao Wang, Yijie Peng, Yaodong Yang (2022). Solving Inventory Management Problems through Deep Reinforcement Learning. Journal of Systems Science and Systems Engineering.

Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang (2022). ACE: Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency. Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI 2023).

Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung, Haifeng Zhang, Jun Wang, Yali Du, Yaodong Yang (2022). Contextual Transformer for Offline Meta Reinforcement Learning. NeurIPS 2022 Foundation Models for Decision Making Workshop.

Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang (2022). TorchOpt: An Efficient Library for Differentiable Optimization. OPT2022: 14th Annual Workshop on Optimization for Machine Learning.

Yali Du, Chengdong Ma, Yuchen Liu, Runji Lin, Hao Dong, Jun Wang, Yaodong Yang (2022). Scalable Model-based Policy Optimization for Decentralized Networked Systems. The 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2022).

Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Yijie Chen, Liang Shi, Yaodong Yang, Peter Pietzuch, Lei Chen (2022). MSRL: Distributed Reinforcement Learning with Dataflow Fragments. USENIX Annual Technical Conference (ATC).

Puhao Li, Tengyu Liu, Yuyang Li, Yiran Geng, Yixin Zhu, Yaodong Yang, Siyuan Huang (2022). GenDexGrasp: Generalizable Dexterous Grasping. 2023 IEEE International Conference on Robotics and Automation (ICRA 2023).

Le Cong Dinh, Yaodong Yang, Stephen McAleer, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Haitham Bou Ammar, Jun Wang (2022). Online Double Oracle. Transactions on Machine Learning Research (TMLR).

Yuanpei Chen, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuang Jiang, Stephen Marcus McAleer, Hao Dong, Zongqing Lu, Song-Chun Zhu, Yaodong Yang (2022). Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022) Track on Datasets and Benchmarks.

Runze Liu, Fengshuo Bai, Yali Du, Yaodong Yang (2022). Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

Xuehai Pan, Mickel Liu, Fangwei Zhong, Yaodong Yang, Song-Chun Zhu, Yizhou Wang (2022). MATE: Benchmarking Multi-Agent Reinforcement Learning in Distributed Target Coverage Control. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022) Track on Datasets and Benchmarks.

Long Yang, Jiaming Ji, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei Li, Yaodong Yang, Gang Pan (2022). Constrained Update Projection Approach to Safe Policy Optimization. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

Zongkai Liu, Chao Yu, Yaodong Yang, Peng Sun, Zifan Wu, Yuan Li (2022). A Unified Diversity Measure for Multiagent Reinforcement Learning. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

Bo Liu, Xidong Feng, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, Yaodong Yang (2022). A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

Yiran Geng, Boshi An, Haoran Geng, Yuanpei Chen, Yaodong Yang, Hao Dong (2022). End-to-End Affordance Learning for Robotic Manipulation. 2023 IEEE International Conference on Robotics and Automation (ICRA 2023).

Zhitao Zhu, Shijing Si, Jianzong Wang, Yaodong Yang, Jing Xiao (2022). Debias the Black-Box: A Fair Ranking Framework via Knowledge Distillation. Web Information Systems Engineering–WISE 2022: 23rd International Conference.

Linghui Meng, Muning Wen, Chenyang Le, Xiyun Li, Dengpeng Xing, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Yaodong Yang, Bo Xu (2022). Offline Pre-trained Multi-agent Decision Transformer. Machine Intelligence Research.

Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, Yaodong Yang (2022). Multi-Agent Reinforcement Learning is a Sequence Modeling Problem. The 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

Yurong Chen, Xiaotie Deng, Chenchen Li, David Mguni, Jun Wang, Xiang Yan, Yaodong Yang (2022). On the Convergence of Fictitious Play: A Decomposition Approach. The 31st International Joint Conference on Artificial Intelligence (IJCAI 2022).

Ricky Sanjaya, Jun Wang, Yaodong Yang (2022). Measuring the Non-Transitivity in Chess. Algorithms 2022.

Xidong Feng, Oliver Slumbers, Ziyu Wan, Bo Liu, Stephen McAleer, Ying Wen, Jun Wang, Yaodong Yang (2021). Neural Auto-Curricula in Two-Player Zero-Sum Games. The 35th Conference on Neural Information Processing Systems (NeurIPS 2021).

David Henry Mguni, Taher Jafferjee, Jianhong Wang, Oliver Slumbers, Nicolas Perez Nieves, Feifei Tong, Li Yang, Jiangcheng Zhu, Yaodong Yang, Jun Wang (2021). LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning. Tenth International Conference on Learning Representations (ICLR 2022).

Le Cong Dinh, David Henry Mguni, Long Tran-Thanh, Jun Wang, Yaodong Yang (2021). Online Markov Decision Processes with Non-oblivious Strategic Adversary. Autonomous Agents and Multi-Agent Systems (2023).

Jakub Grudzien Kuba, Ruiqing Chen, Muning Wen, Ying Wen, Fanglei Sun, Jun Wang, Yaodong Yang (2021). Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning. Tenth International Conference on Learning Representations (ICLR 2022).

Jakub Grudzien Kuba, Muning Wen, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang, Yaodong Yang (2021). Settling the Variance of Multi-Agent Policy Gradients. The 35th Conference on Neural Information Processing Systems (NeurIPS 2021).

Xiangyu Liu, Hangtian Jia, Ying Wen, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu, Yaodong Yang (2021). Towards Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games. The 35th Conference on Neural Information Processing Systems (NeurIPS 2021).