flagos-ai
diff --git a/‎examples/qwen3/conf/train/engram.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/qwen3/conf/train/engram.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/qwen3/conf/train_engram.yaml‎
Lines changed: 4 additions & 4 deletions b/‎examples/qwen3/conf/train_engram.yaml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎flagscale/models/deepseek/engram.py‎ ‎…agscale/models/megatron/engram/engram.py‎flagscale/models/deepseek/engram.py renamed to flagscale/models/megatron/engram/engram.py b/‎flagscale/models/deepseek/engram.py‎ ‎…agscale/models/megatron/engram/engram.py‎flagscale/models/deepseek/engram.py renamed to flagscale/models/megatron/engram/engram.py
diff --git a/‎…gscale/models/deepseek/engram_builder.py‎ ‎…models/megatron/engram/engram_builder.py‎flagscale/models/deepseek/engram_builder.py renamed to flagscale/models/megatron/engram/engram_builder.py b/‎…gscale/models/deepseek/engram_builder.py‎ ‎…models/megatron/engram/engram_builder.py‎flagscale/models/deepseek/engram_builder.py renamed to flagscale/models/megatron/engram/engram_builder.py
diff --git a/‎…agscale/models/deepseek/engram_config.py‎ ‎…/models/megatron/engram/engram_config.py‎flagscale/models/deepseek/engram_config.py renamed to flagscale/models/megatron/engram/engram_config.py b/‎…agscale/models/deepseek/engram_config.py‎ ‎…/models/megatron/engram/engram_config.py‎flagscale/models/deepseek/engram_config.py renamed to flagscale/models/megatron/engram/engram_config.py
diff --git a/‎flagscale/models/deepseek/engram_model.py‎ ‎…e/models/megatron/engram/engram_model.py‎flagscale/models/deepseek/engram_model.py renamed to flagscale/models/megatron/engram/engram_model.py b/‎flagscale/models/deepseek/engram_model.py‎ ‎…e/models/megatron/engram/engram_model.py‎flagscale/models/deepseek/engram_model.py renamed to flagscale/models/megatron/engram/engram_model.py
diff --git a/‎…els/deepseek/engram_transformer_layer.py‎ ‎…atron/engram/engram_transformer_layer.py‎flagscale/models/deepseek/engram_transformer_layer.py renamed to flagscale/models/megatron/engram/engram_transformer_layer.py b/‎…els/deepseek/engram_transformer_layer.py‎ ‎…atron/engram/engram_transformer_layer.py‎flagscale/models/deepseek/engram_transformer_layer.py renamed to flagscale/models/megatron/engram/engram_transformer_layer.py
diff --git a/‎…/models/deepseek/multi_head_embedding.py‎ ‎…/megatron/engram/multi_head_embedding.py‎flagscale/models/deepseek/multi_head_embedding.py renamed to flagscale/models/megatron/engram/multi_head_embedding.py b/‎…/models/deepseek/multi_head_embedding.py‎ ‎…/megatron/engram/multi_head_embedding.py‎flagscale/models/deepseek/multi_head_embedding.py renamed to flagscale/models/megatron/engram/multi_head_embedding.py
diff --git a/‎flagscale/models/deepseek/ngram_hash.py‎ ‎…ale/models/megatron/engram/ngram_hash.py‎flagscale/models/deepseek/ngram_hash.py renamed to flagscale/models/megatron/engram/ngram_hash.py b/‎flagscale/models/deepseek/ngram_hash.py‎ ‎…ale/models/megatron/engram/ngram_hash.py‎flagscale/models/deepseek/ngram_hash.py renamed to flagscale/models/megatron/engram/ngram_hash.py
diff --git a/‎flagscale/models/deepseek/short_conv.py‎ ‎…ale/models/megatron/engram/short_conv.py‎flagscale/models/deepseek/short_conv.py renamed to flagscale/models/megatron/engram/short_conv.py b/‎flagscale/models/deepseek/short_conv.py‎ ‎…ale/models/megatron/engram/short_conv.py‎flagscale/models/deepseek/short_conv.py renamed to flagscale/models/megatron/engram/short_conv.py
@@ -59,7 +59,7 @@ model:
 
   # engram args =================
   use_engram: true
-  engram_tokenizer_name_or_path: tokenizers/Qwen/Qwen2.5-7B-Instruct
+  engram_tokenizer_name_or_path: xxx
   engram_vocab_size: [759680, 759680]
   max_ngram_size: 3
   n_embed_per_ngram: 512
@@ -101,12 +101,12 @@ model:
 data:
   reset_position_ids: True
   reset_attention_mask: True
-  data_path: /share/project/lizhiyu/hetero_data/HQ_wo_fim/Nemotron-CC-high-actual-actual-high_text_document
+  data_path: xxx
   split: 1
   no_mmap_bin_files: true
   tokenizer:
     legacy_tokenizer: true
     tokenizer_type: Qwen2TokenizerFS
-    tokenizer_path: tokenizers/Qwen/Qwen2.5-7B-Instruct
+    tokenizer_path: xxx
     vocab_size: 151936
     make_vocab_size_divisible_by: 64
@@ -7,7 +7,7 @@ experiment:
   seed: 42
   save_steps: 50
   load: None
-  exp_dir: /share/project/lixianduo/scale_gems_cx/${experiment.exp_name}
+  exp_dir: xxx
   ckpt_format: torch
   task:
     type: train
@@ -17,10 +17,10 @@ experiment:
     per_node_task: false
     no_shared_fs: false
     rdzv_backend: static
-    hostfile: /share/project/lixianduo/scale_gems_cx/host_single
-    ssh_port: 7878
+    hostfile: xxx
+    ssh_port: xxx
   cmds:
-    before_start: ulimit -n 1048576 && source /root/miniconda3/bin/activate /share/project/lixianduo/envs/flagscale-train-copy
+    before_start: ulimit -n 1048576 && source /root/miniconda3/bin/activate flagscale-train
   envs:
     LOGLEVEL: "INFO"
     CUDA_VISIBLE_DEVICES: "0,1,2,3,4,5,6,7"