arxiv.org · Jun 3, 2026 04:00 UTC

[2606.03102] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Summary

Abstract page for arXiv paper 2606.03102: Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Original reporting