9 ヶ月前 · 3e78f0431f
--- a/src/train_model_grpo.py
+++ b/src/train_model_grpo.py
@@ -229,7 +229,7 @@ if __name__ == "__main__":
 
															     # 配置参数
														
 
															     model_name = os.path.join('..', 'models', 'pretrained', 'DeepSeek-R1-Distill-Qwen-1.5B')
														
 
															     # model_name: 预训练模型的路径
														
 
															-    max_seq_length = 2048  # 单次会话（single session） 的最大 token 长度，一个token大约3-4 字节（Byte）
														
 
															+    max_seq_length = 6144  # 单次会话（single session） 的最大 token 长度，一个token大约3-4 字节（Byte）
														
 
															     dtype = torch.float16  # 数据类型
														
 
															     load_in_4bit = True  # 是否以4位精度加载模型
														
 
															     lora_rank=16