MagpieTTS decoder model on top of NeMo main branch by paarthneekhara · Pull Request #15277 · NVIDIA-NeMo/NeMo

paarthneekhara · 2026-01-08T21:56:34Z

No description provided.

nemo/collections/tts/modules/nemotron_h_decoder.py

tests/collections/tts/test_nemotron_h_decoder.py

+from nemo.collections.tts.modules.nemotron_h_decoder import (
+    HybridMambaAttentionDynamicCache,
+    NemotronHConfig,
+    NemotronHForCausalLM,
+    NemotronHMLP,
+    NemotronHModel,
+    NemotronHMOE,
+    NemotronHTopkRouter,
+)


nemo/collections/tts/modules/magpietts_inference/evaluate_generated_audio.py

blisc · 2026-02-03T17:57:30Z

examples/tts/conf/magpietts/easy_magpietts.yaml

@@ -0,0 +1,173 @@
+name: Magpie-TTS-DecoderOnly-EN


Have we tested the non-Lhotse path?

nemo/collections/tts/modules/nemotron_h_decoder.py

blisc

Some more comments from WIP review

examples/tts/magpietts_inference.py

blisc · 2026-02-10T17:34:06Z

examples/tts/magpietts_streaming_inference.py

+"""
+MagpieTTS Streaming Inference Test Script.
+
+This script tests the streaming TTS inference functionality, supporting both
+single sample (batch_size=1) and batched inference (batch_size>1).
+
+For batched inference, each item in the batch can have different context lengths
+and be in different processing phases (context, prompt, phoneme-only, audio).


Can you add to this as to how this differs from magpietts_inference.py?

blisc · 2026-02-10T17:35:55Z

nemo/collections/common/tokenizers/text_to_speech/tts_tokenizers.py

        return [self._token2id[p] for p in ps]


+class IPABPETokenizer:


Should we subclass Tokenizer instead of instantiation within the class?

Subclassing Tokenizer may not be the best idea because we will have to reassign some internal methods/params to self for it to work correctly. If we call from_file() from the init function, we'll have to reassign normalizer, pre_tokenizer, post_processor and decoder of the loaded model to self. I am moving the imports to the top. It would look something like this if we were to subclass Tokenizer.

class IPABPETokenizer(Tokenizer): """Simple IPA BPE tokenizer subclassing HuggingFace tokenizers.Tokenizer. Args: tokenizer_path: Path to the tokenizer.json file (or directory containing it). """ def __init__(self, tokenizer_path: str): if os.path.isdir(tokenizer_path): tokenizer_file = os.path.join(tokenizer_path, "tokenizer.json") else: tokenizer_file = tokenizer_path if not os.path.exists(tokenizer_file): raise ValueError(f"Tokenizer file not found: {tokenizer_file}") loaded = Tokenizer.from_file(tokenizer_file) super().__init__(loaded.model) self.normalizer = loaded.normalizer self.pre_tokenizer = loaded.pre_tokenizer self.post_processor = loaded.post_processor self.decoder = loaded.decoder self.tokens = self.get_vocab() self.pad = self.tokens.get("<pad>", None) def encode(self, text: str) -> List[int]: """Encode IPA text to token IDs.""" return super().encode(text).ids def decode(self, tokens: List[int]) -> str: """Decode token IDs back to IPA text.""" return super().decode(tokens)

nemo/collections/common/tokenizers/text_to_speech/tts_tokenizers.py

blisc · 2026-02-10T17:36:51Z

nemo/collections/common/tokenizers/text_to_speech/tts_tokenizers.py

            elif isinstance(tokenizer, PreTrainedTokenizerBase):
                _tokens = list(tokenizer.get_vocab().keys())
                tokens.extend(_tokens)
                num_tokens = len(_tokens)
-                tokenizer_pad_ids[tokenizer_name] = tokenizer.pad_token_id + tokenizer_offset
+                pad_token_id = tokenizer.pad_token_id if tokenizer.pad_token_id is not None else tokenizer.unk_token_id
+                if pad_token_id is None:
+                    raise ValueError(
+                        f"Tokenizer '{tokenizer_name}' has no pad_token_id or unk_token_id. "
+                        "Please set one before using with AggregatedTTSTokenizer."
+                    )
+                tokenizer_pad_ids[tokenizer_name] = pad_token_id + tokenizer_offset


Does this affect existing MagpieTTS checkpoints?

@shehzeen Can you check this.

MagpieTTS should work the same way. Nemotron tokenizer has pad_token_id as None, so we are using the unk_token_id as the pad_token_id in EasyMagpie. In Magpie tokenizers, tokenizer.pad_token_id is not None (if it's ever None, the tokenizer setup would error out in the old code). So the code functionality should stay the same for MagpieTTS since the tokenizers have the pad_token_id.

scripts/tts_dataset_files/bpe_ipa_tokenizer_2048_en_de_es_fr_hi_it_vi_zh.json

tests/collections/tts/test_infer_vs_process_batch.py

+    batch_size = batch['text'].size(0)
+    phoneme_stacking_factor = model.phoneme_stacking_factor
+    phoneme_vocab_size = model.phoneme_vocab_size
+


blisc · 2026-02-20T17:07:14Z

nemo/collections/tts/parts/utils/helpers.py

+def process_text_for_cer(input_text):
+    """
+    Normalizes text for CER/WER calculation.
+    """


FYI: @rlangman @rfejgin since we were talking about this. Let's lift this from the decoder PR and move it to main early

nemo/collections/tts/modules/__init__.py

nemo/collections/tts/modules/magpietts_inference/inference.py

nemo/collections/tts/data/text_to_speech_dataset_lhotse.py

blisc · 2026-02-20T17:12:56Z

nemo/collections/tts/data/text_to_speech_dataset_lhotse.py

+def instantiate_phoneme_tokenizer(phoneme_tokenizer_config):
+    phoneme_tokenizer = instantiate(phoneme_tokenizer_config)
+    phoneme_vocab_size = len(phoneme_tokenizer.tokens)
+    phoneme_tokenizer.bos_token_id = phoneme_vocab_size
+    phoneme_tokenizer.eos_token_id = phoneme_vocab_size + 1
+    phoneme_tokenizer.unk_token_id = phoneme_vocab_size + 2
+    phoneme_tokenizer.vocab_size = phoneme_vocab_size + 3
+    return phoneme_tokenizer


I'm not sure when you call this function, but this should be part of the tokenizer class not a util function in the dataset.

However, this only exists in the Lhotse file but not the non-Lhotse file?

nemo/collections/tts/models/easy_magpietts.py

blisc · 2026-02-20T17:22:04Z

nemo/collections/tts/models/easy_magpietts.py

+        dataset.phoneme_tokenizer = instantiate_phoneme_tokenizer(dataset.phoneme_tokenizer_config)
+
+
+class EasyMagpieTTSModel(ModelPT):


This is a really large file. Can we split it up? Some suggestions

Anything that's common with Encoder-Decoder Magpie, let's move to a separate base class:

The code manipulaiton functions

The local transformer functions

etc

Let's move the dataclasses to another file, although we can debate this

Let's move worker_init_fn too since it should be common to both models

Could consider splitting training and inference into two classes as well