arxiv.org · Jun 3, 2026 04:00 UTC

[2606.03131] HARVE: Hacking-Aware Reward-Head Vector Editing for Robust Reward Models

Read full story on arxiv.org

Summary

Abstract page for arXiv paper 2606.03131: HARVE: Hacking-Aware Reward-Head Vector Editing for Robust Reward Models

Original reporting