Replace deprecated list with tuple indexing in PPOTrainer (#4356)

albertvillanova · web-flow · commit 97830a3cc2be · 2025-10-29T11:13:54.000+01:00
diff --git a/trl/trainer/ppo_trainer.py b/trl/trainer/ppo_trainer.py
@@ -563,7 +563,7 @@ def repeat_generator():
                 rewards = non_score_reward.clone()
                 actual_start = torch.arange(rewards.size(0), device=rewards.device)
                 actual_end = torch.where(sequence_lengths_p1 < rewards.size(1), sequence_lengths_p1, sequence_lengths)
-                rewards[[actual_start, actual_end]] += scores
+                rewards[actual_start, actual_end] += scores
 
                 # 5. whiten rewards
                 if args.whiten_rewards: