@@ -247,7 +247,7 @@ permalink: /voice
247247
248248[ 百应Voicebot:开放的全双工智能语音对话机器人] ( https://it.gmw.cn/2018-11/29/content_32070680.htm )
249249
250- ## 二、语音识别的基本原理
250+ ## 二、语音识别基本原理
251251
252252### 1、本质
253253
@@ -382,7 +382,7 @@ permalink: /voice
382382- 语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。
383383- 语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。
384384
385- ## 四、语音识别的工作流程
385+ ## 四、语音识别工作流程
386386
387387![ ] ( https://pic3.zhimg.com/80/v2-6016afa63963c5eb5dc2702aec1ed68b_720w.jpg )
388388
@@ -419,7 +419,7 @@ permalink: /voice
419419
420420### 2、特征提取
421421
422- 主要算法有 ` 线性预测倒谱系数 ` (LPCC)和 ` Mel倒谱系数 ` (MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量 。
422+ 语音降噪(Speech Denoising)时,选择合适的特征至关重要。不同特征在去除噪声、保持语音质量和提高模型性能方面各有优势 。
423423
424424#### 1)原理
425425
@@ -445,6 +445,114 @@ permalink: /voice
445445
446446简单的说,经过梅尔倒谱分析,得到的参数更符合人耳的听觉特性。
447447
448+
449+ ### 特征汇总
450+
451+ 【2025-3-30】[ 语音降噪经典特征] ( https://mp.weixin.qq.com/s/DfFQp2TeLHM0WLo2afqqQQ )
452+
453+ 常用语音特征及其适用场景:
454+ 1 . 传统** 频域** 特征:` 梅尔频谱 ` (Mel Spectrogram)、` 梅尔频率倒谱系数 ` (MFCC)、` 语谱图 ` (Spectrogram)
455+ 2 . ** 时域** 特征:` 语音波形 ` (Raw Waveform)
456+ 3 . 其他增强特征:` 伽马通滤波能量 ` (GFCC)、` 预测语音掩蔽 ` (IRM)
457+
458+ 推荐:
459+ - 深度学习降噪:梅尔频谱 / STFT / IRM
460+ - 传统方法(如 Wiener 过滤):MFCC / GFCC
461+ - 端到端网络(如 Wavenet):原始波形
462+
463+ 选择特征时,应结合数据、计算资源和目标应用 来优化效果
464+
465+ | 特征 | 适用于传统方法 | 适用于深度学习 | 鲁棒性(对噪声抗性) | 适用场景 |
466+ | --------------------| ----------------------| ------------------------------| ----------------------| ------------------------|
467+ | 梅尔频谱 | × | ✔️(CNN, LSTM)| ★★★ | 语音增强、DNN 降噪 |
468+ | MFCC | ✔️(HMM, GMM)| ×(DNN 降噪较弱)| ★ | 语音识别,低噪音环境 |
469+ | 语谱图(STFT)| ✔️ | ✔️(U-Net, SEGAN)| ★★★ | 端到端语音增强 |
470+ | 原始波形(Raw Waveform) | × | ✔️(WaveNet, DiffWave)| ★★★★ | 端到端神经网络降噪 |
471+ | GFCC(伽马通特征) | ✔️ | ✔️(DNN)| ★★★★ | 噪声强的语音降噪 |
472+ | IRM(掩蔽学习)| × | ✔️(DeepMMSE)| ★★★★ | 语音增强、掩蔽预测 |
473+
474+ #### 传统频域特征
475+
476+ (1) 梅尔频谱(Mel Spectrogram)
477+
478+ 特点:
479+ - 采用 梅尔尺度 进行频谱变换,模拟人耳听觉感知。
480+ - 比 STFT(短时傅里叶变换) 更能保留语音的关键信息。
481+
482+ 适用于深度学习模型(CNN、Transformer)进行降噪。
483+
484+ 适用场景:
485+ - ✅ 语音增强(Speech Enhancement)
486+ - ✅ 深度学习降噪(DNN、CNN、LSTM)
487+
488+ (2) 梅尔频率倒谱系数(MFCC)
489+
490+ 特点:
491+ - 从梅尔频谱中提取 cepstral(倒谱)特征,用于语音分析。
492+ - 对背景噪声敏感,但可以结合 Delta MFCC 进行增强。
493+
494+ 适用于传统信号处理方法,如 统计建模(HMM、GMM)。
495+
496+ 适用场景:
497+ - ✅ 传统方法(HMM-GMM)
498+ - ✅ 噪声较低的环境
499+ - ❌ 对强噪声敏感,不适用于深度学习降噪。
500+
501+ (3) 语谱图(Spectrogram / Log Power Spectrum)
502+
503+ 特点:
504+ - 直接使用 短时傅里叶变换(STFT) 计算语音频谱。
505+ - 可用于深度学习降噪(如 U-Net)。
506+
507+ 通过 对数功率谱(Log Power Spectrum, LPS) 增强对比度,提高模型鲁棒性。
508+
509+ 适用场景:
510+ - ✅ 端到端语音增强(Wave-U-Net, SEGAN)
511+ - ✅ 适用于时频域网络(TCN, CRN)
512+
513+ #### 时域特征
514+
515+ (4) 语音波形(Raw Waveform)
516+
517+ 特点:
518+ - 直接使用原始语音波形进行降噪,不依赖 STFT。
519+ - 适用于 WaveNet、Wave-U-Net、DiffWave 等模型。
520+
521+ 训练要求高,需要大规模数据支持。
522+
523+ 适用场景:
524+ - ✅ 端到端语音增强(无需 STFT)
525+ - ✅ 深度神经网络(TCN, Wavenet, DiffWave)
526+ - ❌ 计算复杂度高,难以解释特征。
527+
528+ #### 其他增强特征
529+
530+ (5) 伽马通滤波能量(GFCC, Gammatone Frequency Cepstral Coefficients)
531+
532+ 特点:
533+ - 采用 伽马通滤波器组(Gammatone Filterbank),更符合人耳听觉系统。
534+ - 对噪声鲁棒性更强,比 MFCC 更适用于语音增强。
535+
536+ 适用场景:
537+ - ✅ 噪声环境较复杂的语音降噪(如风噪、混响)
538+ - ✅ 结合深度学习(DNN, LSTM)
539+
540+ (6) 预测语音掩蔽(IRM, Ideal Ratio Mask)
541+
542+ 特点:
543+ - 直接预测时频掩蔽(Mask),用于增强语音信号。
544+ - 常用于语音增强和降噪任务(如 DeepMMSE)。
545+
546+ 可结合时间频率掩码(TF-mask) 提高语音质量。
547+
548+ 适用场景:
549+ - ✅ 端到端语音降噪
550+ - ✅ 适用于 SEGAN、DeepMMSE
551+
552+ 主要算法有` 线性预测倒谱系数 ` (LPCC)和 ` Mel倒谱系数 ` (MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量。
553+
554+
555+
448556### 声学模型(AM)
449557
450558` 声学模型 ` 是识别系统的底层模型,目的是提供一种计算语音的** 特征矢量序列** 和每个** 发音模板** 之间的距离的方法。通过对语音数据进行训练获得,输入是** 特征向量** ,输出为** 音素信息** ;
@@ -2036,4 +2144,4 @@ predict = model.predict(text,k=1) # 选择概率最大的一个语种
20362144详见站内专题: [ 语音识别工具] ( voice_tool )
20372145
20382146
2039- # 结束
2147+ # 结束
0 commit comments