Addressed (most of) gemini's recommendations

gursimar · gursimar · commit fab0f8fe1791 · 2025-12-05T11:13:38.000-08:00
diff --git a/areal/engine/vllm_remote.py b/areal/engine/vllm_remote.py
@@ -107,49 +107,44 @@ def build_distributed_weight_update_requests(
     ) -> WeightUpdateRequests:
         """Build vLLM distributed weight update requests."""
         # vLLM uses two-step process: set metadata, then update
+        # vLLM uses two-step process: set metadata, then update
+        base_payload = {
+            "names": [pspec.name for pspec in param_specs],
+            "dtypes": [pspec.dtype for pspec in param_specs],
+            "shapes": [pspec.shape for pspec in param_specs],
+            "group_name": meta.nccl_group_name,
+        }
+
         if meta.use_lora:
-            return WeightUpdateRequests(
-                requests=[
-                    HttpRequest(
-                        endpoint="/areal_set_update_weight_meta_lora",
-                        payload={
-                            "names": [pspec.name for pspec in param_specs],
-                            "dtypes": [pspec.dtype for pspec in param_specs],
-                            "shapes": [pspec.shape for pspec in param_specs],
-                            "lora_name": meta.lora_name,
-                            "lora_int_id": meta.lora_int_id,
-                            "lora_target_modules": meta.peft_config["target_modules"],
-                            "lora_rank": meta.peft_config["r"],
-                            "lora_alpha": meta.peft_config["lora_alpha"],
-                            "lora_bias": meta.peft_config["bias"],
-                            "base_model_name": meta.base_model_name,
-                            "group_name": meta.nccl_group_name,
-                        },
-                    ),
-                    HttpRequest(
-                        endpoint="/areal_update_weights_lora_xccl",
-                        payload={},
-                    ),
-                ]
-            )
+            lora_payload = {
+                "lora_name": meta.lora_name,
+                "lora_int_id": meta.lora_int_id,
+                "lora_target_modules": meta.peft_config["target_modules"],
+                "lora_rank": meta.peft_config["r"],
+                "lora_alpha": meta.peft_config["lora_alpha"],
+                "lora_bias": meta.peft_config["bias"],
+                "base_model_name": meta.base_model_name,
+            }
+            payload = {**base_payload, **lora_payload}
+            meta_endpoint = "/areal_set_update_weight_meta_lora"
+            update_endpoint = "/areal_update_weights_lora_xccl"
         else:
-            return WeightUpdateRequests(
-                requests=[
-                    HttpRequest(
-                        endpoint="/areal_set_update_weight_meta",
-                        payload={
-                            "names": [pspec.name for pspec in param_specs],
-                            "dtypes": [pspec.dtype for pspec in param_specs],
-                            "shapes": [pspec.shape for pspec in param_specs],
-                            "group_name": meta.nccl_group_name,
-                        },
-                    ),
-                    HttpRequest(
-                        endpoint="/areal_update_weights_xccl",
-                        payload={},
-                    ),
-                ]
-            )
+            payload = base_payload
+            meta_endpoint = "/areal_set_update_weight_meta"
+            update_endpoint = "/areal_update_weights_xccl"
+
+        return WeightUpdateRequests(
+            requests=[
+                HttpRequest(
+                    endpoint=meta_endpoint,
+                    payload=payload,
+                ),
+                HttpRequest(
+                    endpoint=update_endpoint,
+                    payload={},
+                ),
+            ]
+        )
 
     def build_init_weights_group_request(
         self, addr: str, server_idx: int, meta: WeightUpdateMeta
diff --git a/areal/thirdparty/vllm/vllm_worker_extension.py b/areal/thirdparty/vllm/vllm_worker_extension.py
@@ -1,3 +1,5 @@
+import traceback
+
 import torch
 from vllm.logger import init_logger
 from vllm.lora.models import LoRAModel
@@ -134,6 +136,9 @@ def update_weight_xccl(self):
             return False, error_msg
 
     def update_weight_lora_xccl(self):
+        # NOTE: This code relies on vLLM private APIs: _adapter_manager, _registered_adapters,
+        # and _add_adapter/activate_adapter, which may change/ breakdown due to newer vllm versions.
+
         logger.info(
             f"start update lora weights by xccl, lora_name={self.areal_lora_name}, lora_int_id={self.areal_lora_int_id}",
             flush=True,
@@ -228,8 +233,6 @@ def update_weight_lora_xccl(self):
             return True, "Success"
 
         except Exception as e:
-            import traceback
-
             error_msg = f"Failed to update LoRA parameter via XCCL!   {e}\n{traceback.format_exc()}"
             logger.error(error_msg)
             return False, error_msg
diff --git a/examples/lora/gsm8k_grpo_lora_vllm.py b/examples/lora/gsm8k_grpo_lora_vllm.py
@@ -82,23 +82,24 @@ def main(args):
     eval_rollout.initialize()
 
     if config.actor.weight_update_mode == "xccl":
-        weight_update_meta = WeightUpdateMeta.from_disk(
-            config.saver.experiment_name,
-            config.saver.trial_name,
-            config.saver.fileroot,
+        weight_update_meta = WeightUpdateMeta.from_fsdp_xccl(
+            allocation_mode,
             use_lora=config.actor.use_lora,
             lora_name=config.gconfig.lora_name,
             lora_int_id=1,  # hard coded for the single lora example
             base_model_name=config.actor.path,
         )
     elif config.actor.weight_update_mode == "disk":
-        weight_update_meta = WeightUpdateMeta.from_fsdp_xccl(
-            allocation_mode,
+        weight_update_meta = WeightUpdateMeta.from_disk(
+            config.saver.experiment_name,
+            config.saver.trial_name,
+            config.saver.fileroot,
             use_lora=config.actor.use_lora,
             lora_name=config.gconfig.lora_name,
             lora_int_id=1,  # hard coded for the single lora example
             base_model_name=config.actor.path,
         )
+
     else:
         raise ValueError(
             f"Invalid weight_update_mode: {config.actor.weight_update_mode}. Expected 'xccl' or 'disk'."