Skip to content

训练过程中Qwen-7B模型输出无法获得有效结果,使得Reward始终为0. #59

@taobiaoli1314

Description

@taobiaoli1314

无论是是训练还是benchmark推理Reward都是0。无法达到训练的效果,如下图所示:
Image

我尝试debug查看了在format_reward中,completion_contents的结果始终无法按照system_prompt的要求输出think和answer的格式,而是非常自由的输出结果。导致在format_reward始终为 none,无法解析出answer的结果。

正常情况下LLM只要有system_prompt它就会按照格式要求输出,X-R1中我也看到输入是有system_prompt格式要求,但是模型输出就是不按照格式要求输出,不知道什么原因。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions