ASR inference: expose RNN-T decoding params for context biasing by artbataev · Pull Request #15091 · NVIDIA-NeMo/NeMo

artbataev · 2025-11-19T18:58:17Z

Important

The Update branch button must only be pressed in very rare occassions.
An outdated branch is never blocking the merge of a PR.
Please reach out to the automation team before pressing that button.

What does this PR do ?

Expose transducer decoding parameters (asr.decoding in transducer-related configs) to allow using context biasing in inference (boosting_tree and/or ngram_lm_model).

Collection: [ASR]

Changelog

Add specific line by line info of high level changes in this PR.

Usage

python examples/asr/asr_streaming_inference/asr_streaming_infer.py \
  --config-path=../conf/asr_streaming_inference/ \
  --config-name=buffered_rnnt.yaml \
  asr.decoding.greedy.boosting_tree.key_phrases_file=${KEY_WORDS_LIST} \
  asr.decoding.greedy.boosting_tree_alpha=1.0 \
  audio_file=${DATASET} \
  streaming.batch_size=${BATCH_SIZE} \
  output_filename="${RESULTS_FILE}"

GitHub Actions CI

The Jenkins CI system has been replaced by GitHub Actions self-hosted runners.

The GitHub Actions CI will run automatically when the "Run CICD" label is added to the PR.
To re-run CI remove and add the label again.
To run CI on an untrusted fork, a NeMo user with write access must first click "Approve and run".

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you add or update any necessary documentation?
Does the PR affect components that are optional to install? (Ex: Numba, Pynini, Apex etc)
- Reviewer: Does the PR have correct import guards for all optional libraries?

PR Type:

New Feature
Bugfix
Documentation

If you haven't finished some of the above items you can still open "Draft" PR.

Who can review?

Anyone in the community is free to review the PR once the checks have passed.
Contributor guidelines contains specific people who can review PRs to various areas.

Additional Information

Related to # (issue)

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Copilot

Pull Request Overview

This PR exposes RNN-T transducer decoding parameters in streaming inference configs to enable context biasing features (boosting tree and n-gram language models) for ASR inference.

Refactored RNNT decoding config initialization to merge user-provided configs with defaults
Updated both buffered_pipeline_builder.py and cache_aware_pipeline_builder.py to accept and merge custom decoding parameters
Added comprehensive decoding configuration sections to YAML config files exposing context biasing parameters

Reviewed Changes

Copilot reviewed 4 out of 4 changed files in this pull request and generated 2 comments.

File	Description
nemo/collections/asr/inference/factory/cache_aware_pipeline_builder.py	Refactored `get_rnnt_decoding_cfg` to accept config parameter and merge user settings with structured defaults
nemo/collections/asr/inference/factory/buffered_pipeline_builder.py	Refactored `get_rnnt_decoding_cfg` to accept config parameter and merge user settings with structured defaults
examples/asr/conf/asr_streaming_inference/cache_aware_rnnt.yaml	Added comprehensive `decoding` section with greedy strategy parameters, n-gram LM, and boosting tree configuration
examples/asr/conf/asr_streaming_inference/buffered_rnnt.yaml	Added comprehensive `decoding` section with greedy strategy parameters, n-gram LM, and boosting tree configuration, replacing previous top-level n-gram parameters

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

examples/asr/conf/asr_streaming_inference/cache_aware_rnnt.yaml

examples/asr/conf/asr_streaming_inference/buffered_rnnt.yaml

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com> Signed-off-by: Vladimir Bataev <artbataev@gmail.com> Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

naymaraq

Everything looks great.

github-actions · 2025-11-19T21:22:23Z

[🤖]: Hi @artbataev 👋,

We wanted to let you know that a CICD pipeline for this PR just finished successfully.

So it might be time to merge this PR or get some approvals.

//cc @chtruong814 @ko3n1g @pablo-garay @thomasdhc

…IA-NeMo#15091) * ASR Inference: load decoding params from config for RNN-T Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Signed-off-by: genquan9 <genquan@google.com>

@XuesongYang

* Fixing lines for multispeaker pipeline (#15030) * Fixing lines for multispeaker pipeline Signed-off-by: taejinp <tango4j@gmail.com> * Removing unused imports Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: tango4j <tango4j@users.noreply.github.com> * Making changes for HF Space deployment Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> * Updated multispk trans utils. Signed-off-by: taejinp <tango4j@gmail.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Support gemma3vl tuning with verified performances Signed-off-by: genquan9 <genquan@google.com> * minor update gemma3vl parameters for easier usages Signed-off-by: genquan9 <genquan@google.com> * Apply isort and black reformatting Signed-off-by: genquan9 <genquan9@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Inference optimization for cache-aware pipelines (#15035) * optimize context manager and cache feature bufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> * speedUp cache_feature_bufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> * improved docstring in BatchedCacheFeatureBufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> --------- Signed-off-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * fix loading of hyb ctc rnnt bpe models when using from pretrained (#15042) * fix loading of hyb ctc rnnt bpe models when using from pretrained Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * Apply isort and black reformatting Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> --------- Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> Co-authored-by: nithinraok <nithinraok@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * revert ckpt scripts removal from #14617 (#15048) Signed-off-by: genquan9 <genquan@google.com> * chore: remove ExportDeploy (#15033) * add EP in PTQ (#15015) Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove exportDeploy tests Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove references Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * Fixing lines for multispeaker pipeline (#15030) * Fixing lines for multispeaker pipeline Signed-off-by: taejinp <tango4j@gmail.com> * Removing unused imports Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: tango4j <tango4j@users.noreply.github.com> * Making changes for HF Space deployment Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> * Updated multispk trans utils. Signed-off-by: taejinp <tango4j@gmail.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy & references Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * get load_ckpt back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * Apply isort and black reformatting Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> * back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * revert back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * revert back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy Signed-off-by: Pablo Garay <pagaray@nvidia.com> --------- Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> Co-authored-by: Jenny Chen <jennifchen@nvidia.com> Co-authored-by: Taejin Park <tango4j@gmail.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: pablo-garay <pablo-garay@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * fix after ED remove (#15051) Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Update changelog for `v2.5.3` (#15055) * beep boop: Update changelog Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> * Update changelog for 2.5.3 Signed-off-by: Charlie Truong <chtruong@nvidia.com> --------- Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Signed-off-by: Charlie Truong <chtruong@nvidia.com> Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Co-authored-by: Charlie Truong <chtruong@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * [voice agent] Fix RTVI missing bot message (#15068) * fix RTVI missing bot message, fix diar not passing VAD frames Signed-off-by: stevehuang52 <heh@nvidia.com> * revert change to diar Signed-off-by: stevehuang52 <heh@nvidia.com> --------- Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * [voice agent] make parakeet-eou model default stt (#15069) * make eou model default stt Signed-off-by: stevehuang52 <heh@nvidia.com> * fix typo Signed-off-by: stevehuang52 <heh@nvidia.com> * clean up doc Signed-off-by: stevehuang52 <heh@nvidia.com> --------- Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * minor fixes to remove unused headers/lines and add exception Signed-off-by: genquan9 <genquan@google.com> * resolve merge conflicts from github Signed-off-by: genquan9 <genquan@google.com> * removed old buffered CTC script (#15061) * removed old buffered CTC script Signed-off-by: naymaraq <dkaramyan@nvidia.com> * remove references to speech_to_text_buffered_infer_ctc.py Signed-off-by: naymaraq <dkaramyan@nvidia.com> --------- Signed-off-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * remove unused imports Signed-off-by: genquan9 <genquan@google.com> * remove nlp related notebooks (#15070) Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: genquan9 <genquan@google.com> * chore: Remove Automodel module (#15044) * Delete Automodel module Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove additional code using or importing automodel pathway Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove unused import Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Further remove hf automodel testing and hf automodel in vlm Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove unused vars Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove automodel instance in model opt Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove hf_auto_model_for_causal_ln Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Delete HFAutomodel from speech Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Add noqa Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Apply isort and black reformatting Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> * Remove automodel related tests Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Update init file to use import Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Apply isort and black reformatting Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> --------- Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> Co-authored-by: thomasdhc <thomasdhc@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * add support for parallel ckpt removal (#15073) * add support for parallel ckpt removal Signed-off-by: dimapihtar <dpihtar@gmail.com> * Apply isort and black reformatting Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> --------- Signed-off-by: dimapihtar <dpihtar@gmail.com> Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> Co-authored-by: dimapihtar <dimapihtar@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Fix vlm engine changes in mcore (#15076) Signed-off-by: genquan9 <genquan@google.com> * Add docstring for encode_vqa_sample_multi_turns, and fix long comments Signed-off-by: genquan9 <genquan@google.com> * Update MagpieTTS model with latest changes (#15031) * Update MagpieTTS Signed-off-by: Jason <jasoli@nvidia.com> * allow None in dataset path Signed-off-by: Jason <jasoli@nvidia.com> * try to fix test by removing lhotse; fix yamls in fast dev run tests Signed-off-by: Jason <jasoli@nvidia.com> * increase zeroshot cer value; attempt to fix PO test; add back lhotse in parakeet inference to test segmentation fault Signed-off-by: Jason <jasoli@nvidia.com> * remove branch from test Signed-off-by: Jason <jasoli@nvidia.com> * use batch_size 1 Signed-off-by: Jason <jasoli@nvidia.com> * update GRPO test script Signed-off-by: Jason <jasoli@nvidia.com> * add use_lhotse as a param to transcribe; attempt to fix PO test again; attempt to catch error Signed-off-by: Jason <jasoli@nvidia.com> * fix tests Signed-off-by: Jason <jasoli@nvidia.com> * update rnnt transcribe; fix po test again Signed-off-by: Jason <jasoli@nvidia.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Move FCD copyright text from TorchEval to top of file Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove duplicate copyright text It is now at the top of the file. Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Fix OnlinePO test: escape a special character in command line Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Easier-to-read way to quote a special character in OnlinePO test Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Work around ASR Lhotse issue ... and remove some debug code. Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove FCD metric for now Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove unused import Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Update examples/tts/conf/magpietts/magpietts_lhotse.yaml Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> --------- Signed-off-by: Jason <jasoli@nvidia.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> Co-authored-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Co-authored-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Revert "Fix vlm engine changes in mcore (#15076)" (#15090) This reverts commit b557cfd. Signed-off-by: genquan9 <genquan@google.com> * ASR inference: expose RNN-T decoding params for context biasing (#15091) * ASR Inference: load decoding params from config for RNN-T Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Fix vlm engine changes in mcore (#15076) Signed-off-by: genquan9 <genquan@google.com> * Revert "Fix vlm engine changes in mcore (#15076)" (#15090) This reverts commit b557cfd. Signed-off-by: genquan9 <genquan@google.com> * update notebook (#15093) Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: genquan9 <genquan@google.com> * fix lines with malformed anchor tags (#15095) Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * add copyright header for missing files Signed-off-by: genquan9 <genquan@google.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> Signed-off-by: genquan9 <genquan9@users.noreply.github.com> Signed-off-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Signed-off-by: Charlie Truong <chtruong@nvidia.com> Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> Signed-off-by: dimapihtar <dpihtar@gmail.com> Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> Signed-off-by: Jason <jasoli@nvidia.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Co-authored-by: Taejin Park <tango4j@gmail.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: genquan9 <genquan9@users.noreply.github.com> Co-authored-by: Dav Karamyan <47416614+naymaraq@users.noreply.github.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: Nithin Rao <nithinrao.koluguri@gmail.com> Co-authored-by: nithinraok <nithinraok@users.noreply.github.com> Co-authored-by: Dmytro Pykhtar <37850217+dimapihtar@users.noreply.github.com> Co-authored-by: Pablo Garay <palenq@gmail.com> Co-authored-by: Jenny Chen <jennifchen@nvidia.com> Co-authored-by: pablo-garay <pablo-garay@users.noreply.github.com> Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Co-authored-by: Charlie Truong <chtruong@nvidia.com> Co-authored-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Co-authored-by: Dong Hyuk Chang <thomaschang26@tutanota.com> Co-authored-by: thomasdhc <thomasdhc@users.noreply.github.com> Co-authored-by: dimapihtar <dimapihtar@users.noreply.github.com> Co-authored-by: meatybobby <bobchen@nvidia.com> Co-authored-by: Jason <jasoli@nvidia.com> Co-authored-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Co-authored-by: Fejgin, Roy <rfejgin@nvidia.com> Co-authored-by: Vladimir Bataev <vbataev@nvidia.com>

…IA-NeMo#15091) * ASR Inference: load decoding params from config for RNN-T Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Signed-off-by: quanpham <youngkwan199@gmail.com>

@XuesongYang

* Fixing lines for multispeaker pipeline (NVIDIA-NeMo#15030) * Fixing lines for multispeaker pipeline Signed-off-by: taejinp <tango4j@gmail.com> * Removing unused imports Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: tango4j <tango4j@users.noreply.github.com> * Making changes for HF Space deployment Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> * Updated multispk trans utils. Signed-off-by: taejinp <tango4j@gmail.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Support gemma3vl tuning with verified performances Signed-off-by: genquan9 <genquan@google.com> * minor update gemma3vl parameters for easier usages Signed-off-by: genquan9 <genquan@google.com> * Apply isort and black reformatting Signed-off-by: genquan9 <genquan9@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Inference optimization for cache-aware pipelines (NVIDIA-NeMo#15035) * optimize context manager and cache feature bufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> * speedUp cache_feature_bufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> * improved docstring in BatchedCacheFeatureBufferer Signed-off-by: naymaraq <dkaramyan@nvidia.com> --------- Signed-off-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * fix loading of hyb ctc rnnt bpe models when using from pretrained (NVIDIA-NeMo#15042) * fix loading of hyb ctc rnnt bpe models when using from pretrained Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * Apply isort and black reformatting Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> --------- Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> Co-authored-by: nithinraok <nithinraok@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * revert ckpt scripts removal from NVIDIA-NeMo#14617 (NVIDIA-NeMo#15048) Signed-off-by: genquan9 <genquan@google.com> * chore: remove ExportDeploy (NVIDIA-NeMo#15033) * add EP in PTQ (NVIDIA-NeMo#15015) Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove exportDeploy tests Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove references Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * Fixing lines for multispeaker pipeline (NVIDIA-NeMo#15030) * Fixing lines for multispeaker pipeline Signed-off-by: taejinp <tango4j@gmail.com> * Removing unused imports Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: tango4j <tango4j@users.noreply.github.com> * Making changes for HF Space deployment Signed-off-by: taejinp <tango4j@gmail.com> * Apply isort and black reformatting Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> * Updated multispk trans utils. Signed-off-by: taejinp <tango4j@gmail.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy & references Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * get load_ckpt back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * lintfix Signed-off-by: Pablo Garay <pagaray@nvidia.com> * Apply isort and black reformatting Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> * back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * revert back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * revert back Signed-off-by: Pablo Garay <pagaray@nvidia.com> * remove ExportDeploy Signed-off-by: Pablo Garay <pagaray@nvidia.com> --------- Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> Co-authored-by: Jenny Chen <jennifchen@nvidia.com> Co-authored-by: Taejin Park <tango4j@gmail.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: pablo-garay <pablo-garay@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * fix after ED remove (NVIDIA-NeMo#15051) Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Update changelog for `v2.5.3` (NVIDIA-NeMo#15055) * beep boop: Update changelog Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> * Update changelog for 2.5.3 Signed-off-by: Charlie Truong <chtruong@nvidia.com> --------- Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Signed-off-by: Charlie Truong <chtruong@nvidia.com> Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Co-authored-by: Charlie Truong <chtruong@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * [voice agent] Fix RTVI missing bot message (NVIDIA-NeMo#15068) * fix RTVI missing bot message, fix diar not passing VAD frames Signed-off-by: stevehuang52 <heh@nvidia.com> * revert change to diar Signed-off-by: stevehuang52 <heh@nvidia.com> --------- Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * [voice agent] make parakeet-eou model default stt (NVIDIA-NeMo#15069) * make eou model default stt Signed-off-by: stevehuang52 <heh@nvidia.com> * fix typo Signed-off-by: stevehuang52 <heh@nvidia.com> * clean up doc Signed-off-by: stevehuang52 <heh@nvidia.com> --------- Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * minor fixes to remove unused headers/lines and add exception Signed-off-by: genquan9 <genquan@google.com> * resolve merge conflicts from github Signed-off-by: genquan9 <genquan@google.com> * removed old buffered CTC script (NVIDIA-NeMo#15061) * removed old buffered CTC script Signed-off-by: naymaraq <dkaramyan@nvidia.com> * remove references to speech_to_text_buffered_infer_ctc.py Signed-off-by: naymaraq <dkaramyan@nvidia.com> --------- Signed-off-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * remove unused imports Signed-off-by: genquan9 <genquan@google.com> * remove nlp related notebooks (NVIDIA-NeMo#15070) Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: genquan9 <genquan@google.com> * chore: Remove Automodel module (NVIDIA-NeMo#15044) * Delete Automodel module Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove additional code using or importing automodel pathway Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove unused import Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Further remove hf automodel testing and hf automodel in vlm Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove unused vars Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove automodel instance in model opt Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Remove hf_auto_model_for_causal_ln Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Delete HFAutomodel from speech Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Add noqa Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Apply isort and black reformatting Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> * Remove automodel related tests Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Update init file to use import Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> * Apply isort and black reformatting Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> --------- Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> Co-authored-by: thomasdhc <thomasdhc@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * add support for parallel ckpt removal (NVIDIA-NeMo#15073) * add support for parallel ckpt removal Signed-off-by: dimapihtar <dpihtar@gmail.com> * Apply isort and black reformatting Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> --------- Signed-off-by: dimapihtar <dpihtar@gmail.com> Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> Co-authored-by: dimapihtar <dimapihtar@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> * Fix vlm engine changes in mcore (NVIDIA-NeMo#15076) Signed-off-by: genquan9 <genquan@google.com> * Add docstring for encode_vqa_sample_multi_turns, and fix long comments Signed-off-by: genquan9 <genquan@google.com> * Update MagpieTTS model with latest changes (NVIDIA-NeMo#15031) * Update MagpieTTS Signed-off-by: Jason <jasoli@nvidia.com> * allow None in dataset path Signed-off-by: Jason <jasoli@nvidia.com> * try to fix test by removing lhotse; fix yamls in fast dev run tests Signed-off-by: Jason <jasoli@nvidia.com> * increase zeroshot cer value; attempt to fix PO test; add back lhotse in parakeet inference to test segmentation fault Signed-off-by: Jason <jasoli@nvidia.com> * remove branch from test Signed-off-by: Jason <jasoli@nvidia.com> * use batch_size 1 Signed-off-by: Jason <jasoli@nvidia.com> * update GRPO test script Signed-off-by: Jason <jasoli@nvidia.com> * add use_lhotse as a param to transcribe; attempt to fix PO test again; attempt to catch error Signed-off-by: Jason <jasoli@nvidia.com> * fix tests Signed-off-by: Jason <jasoli@nvidia.com> * update rnnt transcribe; fix po test again Signed-off-by: Jason <jasoli@nvidia.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Move FCD copyright text from TorchEval to top of file Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove duplicate copyright text It is now at the top of the file. Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Apply suggestion from @XuesongYang Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> * Fix OnlinePO test: escape a special character in command line Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Easier-to-read way to quote a special character in OnlinePO test Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Work around ASR Lhotse issue ... and remove some debug code. Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove FCD metric for now Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Remove unused import Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> * Update examples/tts/conf/magpietts/magpietts_lhotse.yaml Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> --------- Signed-off-by: Jason <jasoli@nvidia.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> Co-authored-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Co-authored-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Revert "Fix vlm engine changes in mcore (NVIDIA-NeMo#15076)" (NVIDIA-NeMo#15090) This reverts commit b557cfd. Signed-off-by: genquan9 <genquan@google.com> * ASR inference: expose RNN-T decoding params for context biasing (NVIDIA-NeMo#15091) * ASR Inference: load decoding params from config for RNN-T Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * Fix vlm engine changes in mcore (NVIDIA-NeMo#15076) Signed-off-by: genquan9 <genquan@google.com> * Revert "Fix vlm engine changes in mcore (NVIDIA-NeMo#15076)" (NVIDIA-NeMo#15090) This reverts commit b557cfd. Signed-off-by: genquan9 <genquan@google.com> * update notebook (NVIDIA-NeMo#15093) Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: genquan9 <genquan@google.com> * fix lines with malformed anchor tags (NVIDIA-NeMo#15095) Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: genquan9 <genquan@google.com> * add copyright header for missing files Signed-off-by: genquan9 <genquan@google.com> --------- Signed-off-by: taejinp <tango4j@gmail.com> Signed-off-by: tango4j <tango4j@users.noreply.github.com> Signed-off-by: chtruong814 <chtruong814@users.noreply.github.com> Signed-off-by: genquan9 <genquan@google.com> Signed-off-by: genquan9 <genquan9@users.noreply.github.com> Signed-off-by: naymaraq <dkaramyan@nvidia.com> Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinraok@users.noreply.github.com> Signed-off-by: jenchen13 <jennifchen@nvidia.com> Signed-off-by: Pablo Garay <pagaray@nvidia.com> Signed-off-by: pablo-garay <pablo-garay@users.noreply.github.com> Signed-off-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Signed-off-by: Charlie Truong <chtruong@nvidia.com> Signed-off-by: stevehuang52 <heh@nvidia.com> Signed-off-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Signed-off-by: Dong Hyuk Chang <donghyukc@nvidia.com> Signed-off-by: thomasdhc <thomasdhc@users.noreply.github.com> Signed-off-by: dimapihtar <dpihtar@gmail.com> Signed-off-by: dimapihtar <dimapihtar@users.noreply.github.com> Signed-off-by: Jason <jasoli@nvidia.com> Signed-off-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Signed-off-by: Fejgin, Roy <rfejgin@nvidia.com> Signed-off-by: Roy Fejgin <rfejgin@nvidia.com> Signed-off-by: Vladimir Bataev <vbataev@nvidia.com> Co-authored-by: Taejin Park <tango4j@gmail.com> Co-authored-by: tango4j <tango4j@users.noreply.github.com> Co-authored-by: chtruong814 <chtruong814@users.noreply.github.com> Co-authored-by: genquan9 <genquan9@users.noreply.github.com> Co-authored-by: Dav Karamyan <47416614+naymaraq@users.noreply.github.com> Co-authored-by: naymaraq <dkaramyan@nvidia.com> Co-authored-by: Nithin Rao <nithinrao.koluguri@gmail.com> Co-authored-by: nithinraok <nithinraok@users.noreply.github.com> Co-authored-by: Dmytro Pykhtar <37850217+dimapihtar@users.noreply.github.com> Co-authored-by: Pablo Garay <palenq@gmail.com> Co-authored-by: Jenny Chen <jennifchen@nvidia.com> Co-authored-by: pablo-garay <pablo-garay@users.noreply.github.com> Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Co-authored-by: Charlie Truong <chtruong@nvidia.com> Co-authored-by: He Huang (Steve) <105218074+stevehuang52@users.noreply.github.com> Co-authored-by: Dong Hyuk Chang <thomaschang26@tutanota.com> Co-authored-by: thomasdhc <thomasdhc@users.noreply.github.com> Co-authored-by: dimapihtar <dimapihtar@users.noreply.github.com> Co-authored-by: meatybobby <bobchen@nvidia.com> Co-authored-by: Jason <jasoli@nvidia.com> Co-authored-by: Xuesong Yang <1646669+XuesongYang@users.noreply.github.com> Co-authored-by: Fejgin, Roy <rfejgin@nvidia.com> Co-authored-by: Vladimir Bataev <vbataev@nvidia.com> Signed-off-by: quanpham <youngkwan199@gmail.com>

artbataev added 3 commits November 19, 2025 20:45

ASR Inference: load decoding params from config for RNN-T

59f3424

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Fix configs

64d09ca

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Fix config usage

ee0f80a

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

github-actions bot added the ASR label Nov 19, 2025

artbataev changed the title ~~ASR inference: expose RNN-T decoding params to allow context biasing~~ ASR inference: expose RNN-T decoding params for context biasing Nov 19, 2025

artbataev requested review from Copilot and naymaraq November 19, 2025 18:59

Copilot started reviewing on behalf of artbataev November 19, 2025 18:59 View session

artbataev added the Run CICD label Nov 19, 2025

Merge branch 'main' into vbataev/asr_inference_decoding_params

f386711

chtruong814 added Run CICD and removed Run CICD labels Nov 19, 2025

Copilot finished reviewing on behalf of artbataev November 19, 2025 19:01

chtruong814 temporarily deployed to test November 19, 2025 19:02 — with GitHub Actions Inactive

Copilot AI reviewed Nov 19, 2025

View reviewed changes

examples/asr/conf/asr_streaming_inference/cache_aware_rnnt.yaml Outdated Show resolved Hide resolved

examples/asr/conf/asr_streaming_inference/buffered_rnnt.yaml Outdated Show resolved Hide resolved

chtruong814 added Run CICD and removed Run CICD labels Nov 19, 2025

artbataev and others added 3 commits November 19, 2025 23:40

Fix typo

d02abbc

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com> Signed-off-by: Vladimir Bataev <artbataev@gmail.com> Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Fix typo

55d2150

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com> Signed-off-by: Vladimir Bataev <artbataev@gmail.com> Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

Unify config comments

4f3638d

Signed-off-by: Vladimir Bataev <vbataev@nvidia.com>

chtruong814 had a problem deploying to test November 19, 2025 19:40 — with GitHub Actions Error

artbataev force-pushed the vbataev/asr_inference_decoding_params branch from a41ec12 to 4f3638d Compare November 19, 2025 19:40

chtruong814 added Run CICD and removed Run CICD labels Nov 19, 2025

chtruong814 temporarily deployed to test November 19, 2025 19:42 — with GitHub Actions Inactive

naymaraq approved these changes Nov 19, 2025

View reviewed changes

artbataev enabled auto-merge (squash) November 19, 2025 20:12

github-actions bot removed the Run CICD label Nov 19, 2025

artbataev merged commit cb1efd0 into main Nov 19, 2025
141 checks passed

artbataev deleted the vbataev/asr_inference_decoding_params branch November 19, 2025 21:22

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ASR inference: expose RNN-T decoding params for context biasing#15091

ASR inference: expose RNN-T decoding params for context biasing#15091
artbataev merged 7 commits intomainfrom
vbataev/asr_inference_decoding_params

artbataev commented Nov 19, 2025

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

naymaraq left a comment

Uh oh!

github-actions bot commented Nov 19, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

Conversation

artbataev commented Nov 19, 2025

What does this PR do ?

Changelog

Usage

GitHub Actions CI

Before your PR is "Ready for review"

Who can review?

Additional Information

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull Request Overview

Reviewed Changes

Uh oh!

Uh oh!

Uh oh!

naymaraq left a comment

Choose a reason for hiding this comment

Uh oh!

github-actions bot commented Nov 19, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants