Pārlūkot izejas kodu

修改train_model_grpo.py文件-开启vLLM 观察能否解决损失率值0并且无变化问题

zhouyang.xie 3 mēneši atpakaļ
vecāks
revīzija
40a04f3723
1 mainītis faili ar 1 papildinājumiem un 1 dzēšanām
  1. 1 1
      src/train_model_grpo.py

+ 1 - 1
src/train_model_grpo.py

@@ -122,7 +122,7 @@ class ModelTrainer:
             dtype=self.dtype,
             fast_inference = True, # Enable vLLM fast inference
             max_lora_rank = lora_rank,
-            gpu_memory_utilization=0.2, # 0.6 # Reduce if out of memory
+            gpu_memory_utilization=0.1, # 0.6 # Reduce if out of memory
         )
 
         # 将模型移动到设备上