arxiv.org · May 4, 2026 04:00 AM UTC

[2605.00365] Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

Summary

Abstract page for arXiv paper 2605.00365: Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

Original reporting