Publications - Hejie Cui

T²PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Haixin Wang, Hejie Cui^#, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun (^# corresponding author)

The International Conference on Machine Learning (ICML) 2026 Spotlight

Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse.

[Paper] [Code]

T²PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Haixin Wang, Hejie Cui^#, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun (^# corresponding author)

The International Conference on Machine Learning (ICML) 2026 Spotlight

Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse.

[Paper] [Code]

HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning

Weiqi Wang, Xin Liu, Binxuan Huang, Hejie Cui, Rongzhi Zhang, Changlong Yu, Shuowei Jin, Jingfeng Yang, Qingyu Yin, Zhengyang Wang, Zheng Li, Yifan Gao, Priyanka Nigam, Bing Yin, Lihong Li, Yangqiu Song

The Conference on Language Modeling (COLM) 2026

RLVR is now a standard way to train LLMs on reasoning tasks with verifiable outcomes, but when rollout generation dominates the cost, efficiency depends heavily on which prompts you sample and when. We introduce HeaPA, a query-side RLVR framework that combines difficulty-aware heap-based frontier sampling with on-policy query augmentation to improve math reasoning efficiency and accuracy.

2026

T²PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

T²PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning

HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning

CoMem: Context Management with A Decoupled Long-Context Model

CoMem: Context Management with A Decoupled Long-Context Model

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

2025

TIMER: Temporal Instruction Modeling and Evaluation for Longitudinal Clinical Records

TIMER: Temporal Instruction Modeling and Evaluation for Longitudinal Clinical Records

CuraBench: A Benchmark Dataset Generation System for Healthcare AI Evaluation

CuraBench: A Benchmark Dataset Generation System for Healthcare AI Evaluation

A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises

A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises

CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models

CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models

Multimodal Fusion of EHR in Structures and Semantics: Integrating Clinical Records and Notes with Hypergraph and LLM

Multimodal Fusion of EHR in Structures and Semantics: Integrating Clinical Records and Notes with Hypergraph and LLM

2024

Biomedical Visual Instruction Tuning with Clinician Preference Alignment

Biomedical Visual Instruction Tuning with Clinician Preference Alignment

Microstructures and Accuracy of Graph Recall by Large Language Models

Microstructures and Accuracy of Graph Recall by Large Language Models

LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction

LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction

TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR Data

TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR Data

Brain Network Analysis with Graph Neural Network

Brain Network Analysis with Graph Neural Network

2023

Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models

Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

R-Mixup: Riemannian Mixup for Biological Networks

R-Mixup: Riemannian Mixup for Biological Networks

PV2TEA: Patching Visual Modality to Textual-Established Information Extraction

PV2TEA: Patching Visual Modality to Textual-Established Information Extraction

PTGB: Pre-Train Graph Neural Networks for Brain Network Analysis

PTGB: Pre-Train Graph Neural Networks for Brain Network Analysis

Brain Network Analysis with Graph Neural Network

Brain Network Analysis with Graph Neural Network

Neighborhood-regularized Self-Training for Learning with Few Labels

Neighborhood-regularized Self-Training for Learning with Few Labels

2022

BrainGB: A Benchmark for Brain Network Analysis with Graph Neural Networks

BrainGB: A Benchmark for Brain Network Analysis with Graph Neural Networks

Brain Network Transformer

Brain Network Transformer

On Positional and Structural Node Features for Graph Neural Networks on Non-attributed Graphs

On Positional and Structural Node Features for Graph Neural Networks on Non-attributed Graphs

Interpretable GNNs for Connectome-Based Brain Disorder Analysis

Interpretable GNNs for Connectome-Based Brain Disorder Analysis

FBNetGen: Task-aware GNN-based fMRI Analysis via Functional Brain Network Generation

FBNetGen: Task-aware GNN-based fMRI Analysis via Functional Brain Network Generation

How Can Graph Neural Networks Help Document Retrieval: A Case Study on CORD19 with Concept Map Generation

How Can Graph Neural Networks Help Document Retrieval: A Case Study on CORD19 with Concept Map Generation

2021

Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration

Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration

2019

Pulmonary Vessel Segmentation based on Orthogonal Fused U-Net++ of Chest CT Images

Pulmonary Vessel Segmentation based on Orthogonal Fused U-Net++ of Chest CT Images