@@ -229,7 +229,7 @@ if __name__ == "__main__":
# 配置参数
model_name = os.path.join('..', 'models', 'pretrained', 'DeepSeek-R1-Distill-Qwen-1.5B')
# model_name: 预训练模型的路径
- max_seq_length = 2048 # 单次会话(single session) 的最大 token 长度,一个token大约3-4 字节(Byte)
+ max_seq_length = 6144 # 单次会话(single session) 的最大 token 长度,一个token大约3-4 字节(Byte)
dtype = torch.float16 # 数据类型
load_in_4bit = True # 是否以4位精度加载模型
lora_rank=16