teilomillet
diff --git a/‎campaigns/energy-rl-turn64-max4096-g2.toml‎
Lines changed: 54 additions & 0 deletions b/‎campaigns/energy-rl-turn64-max4096-g2.toml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎retrain/backend_definitions.py‎
Lines changed: 2 additions & 0 deletions b/‎retrain/backend_definitions.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎retrain/config.py‎
Lines changed: 32 additions & 0 deletions b/‎retrain/config.py‎
Lines changed: 32 additions & 0 deletions
@@ -0,0 +1,54 @@
+# Energy RL meeting run:
+# - reduced 64-turn horizon
+# - rollout fan-out 2
+# - 4096-token safety budget for rarer OOD/verbose completions
+# Isolated log dir so this run cannot disturb canonical experiments.
+
+[backend]
+backend = "tinker"
+
+[model]
+model = "Qwen/Qwen3.5-4B"
+lora_rank = 128
+
+[algorithm]
+advantage_mode = "reinforce_pp"
+transform_mode = "none"
+
+[training]
+seed = 42
+max_steps = 200
+sft_warmup_steps = 0
+batch_size = 4
+group_size = 2
+max_tokens = 4096
+temperature = 0.7
+lr = 1e-5
+save_every = 20
+batch_advantage_norm = true
+adv_clip_max = 5.0
+
+[environment]
+provider = "verifiers"
+id = "soma_energy"
+max_turns = 64
+
+[environment.args]
+num_examples = 64
+dataset_seed = 7
+max_turns = 64
+http_url = "http://127.0.0.1:13737"
+
+[environment.args.default_config]
+grid_max_import_kw = 10.0
+utility_grid_export_limit_kw = 3.0
+forecast_demand_base_mape = 0.02
+forecast_demand_mape_per_step = 0.01
+forecast_solar_base_mape = 0.05
+forecast_solar_mape_per_step = 0.025
+
+[environment.args.evaluator]
+horizon_ticks = 96
+
+[logging]
+log_dir = "logs/energy-rl-turn64-max4096-g2"
@@ -7,6 +7,7 @@
 import json
 from collections.abc import Callable, Mapping
 from dataclasses import dataclass, field
+from pathlib import Path
 from typing import TYPE_CHECKING, TypedDict, cast
 
 if TYPE_CHECKING:
@@ -108,6 +109,7 @@ def _create_tinker(config: "TrainConfig") -> "TrainHelper":
         clip_eps_high=config.clip_eps_high,
         grad_clip_norm=config.grad_clip_norm,
         clip_ratio_c=config.clip_ratio_c,
+        sample_log_dir=str(Path(config.log_dir).resolve()),
     )
     helper.sft_loss_fn = config.sft_loss_fn
     return helper
 
@@ -8,6 +8,7 @@
 
 import difflib
 import json
+import os
 import re
 import sys
 import tomllib
@@ -32,6 +33,14 @@
 _DEFAULT_ADAPTER_PATH = "/tmp/retrain_adapter"
 
 
+def _first_non_empty_env(*names: str) -> str:
+    for name in names:
+        value = os.getenv(name, "").strip()
+        if value:
+            return value
+    return ""
+
+
 @dataclass
 class SqueezeConfig:
     """Configuration for LoRA-Squeeze rank analysis and compression."""
@@ -225,6 +234,29 @@ class TrainConfig:
     plugins_strict: bool = True
 
     def __post_init__(self) -> None:
+        if not self.wandb_project:
+            self.wandb_project = _first_non_empty_env(
+                "SOMA_WANDB_PROJECT",
+                "RETRAIN_WANDB_PROJECT",
+                "WANDB_PROJECT",
+            )
+        if not self.wandb_entity:
+            self.wandb_entity = _first_non_empty_env(
+                "SOMA_WANDB_ENTITY",
+                "RETRAIN_WANDB_ENTITY",
+                "WANDB_ENTITY",
+            )
+        if not self.wandb_group:
+            self.wandb_group = _first_non_empty_env(
+                "SOMA_WANDB_GROUP",
+                "RETRAIN_WANDB_GROUP",
+            )
+        if not self.wandb_tags:
+            self.wandb_tags = _first_non_empty_env(
+                "SOMA_WANDB_TAGS",
+                "RETRAIN_WANDB_TAGS",
+            )
+
         # --- Hard errors (batched) ---
         errors: list[str] = []