训练过程中Qwen-7B模型输出无法获得有效结果，使得Reward始终为0.

无论是是训练还是benchmark推理Reward都是0。无法达到训练的效果，如下图所示：
![Image](https://github.com/user-attachments/assets/0b3abf3a-c8e3-41bf-a61a-812f579c2c44)

我尝试debug查看了在format_reward中，completion_contents的结果始终无法按照system_prompt的要求输出think和answer的格式，而是非常自由的输出结果。导致在format_reward始终为 none，无法解析出answer的结果。

正常情况下LLM只要有system_prompt它就会按照格式要求输出，X-R1中我也看到输入是有system_prompt格式要求，但是模型输出就是不按照格式要求输出，不知道什么原因。