自适应锐化相关论文
| 标题 | 动机 | 做法 |
|---|---|---|
| Assessing Diversity Collapse in Reasoning | finetune 让pass1增加pass减少 | 把当前和历史checkpoint混起来 |
| TURNING UP THE HEAT: MIN-p SAMPLING FOR CREATIVE AND COHERENT LLM OUTPUTS | 用来不确定时保留的多些 | 最大p下一定比例保留 |
| Maximizing Confidence Alone Improves Reasoning | 锐化 | 奖励信号是熵 |
| Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning | 确定的保留,不确定的多学 | 只RL不确定的 |
有一个自我提升workshop
自适应锐化相关论文
https://childofcuriosity.github.io/2025/07/11/自适应锐化相关论文/