无论是是训练还是benchmark推理Reward都是0。无法达到训练的效果,如下图所示:

我尝试debug查看了在format_reward中,completion_contents的结果始终无法按照system_prompt的要求输出think和answer的格式,而是非常自由的输出结果。导致在format_reward始终为 none,无法解析出answer的结果。
正常情况下LLM只要有system_prompt它就会按照格式要求输出,X-R1中我也看到输入是有system_prompt格式要求,但是模型输出就是不按照格式要求输出,不知道什么原因。