arxiv.org · May 4, 2026 04:00 AM UTC

[2605.00155] Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback

Summary

Abstract page for arXiv paper 2605.00155: Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback

Original reporting