Skip to content

Commit 82e8be3

Browse files
authored
语音降噪经典特征
1 parent 06a55be commit 82e8be3

File tree

1 file changed

+112
-4
lines changed

1 file changed

+112
-4
lines changed

_posts/2020-09-17-voice-detection.md

Lines changed: 112 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -247,7 +247,7 @@ permalink: /voice
247247

248248
[百应Voicebot:开放的全双工智能语音对话机器人](https://it.gmw.cn/2018-11/29/content_32070680.htm)
249249

250-
## 二、语音识别的基本原理
250+
## 二、语音识别基本原理
251251

252252
### 1、本质
253253

@@ -382,7 +382,7 @@ permalink: /voice
382382
- 语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。
383383
- 语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。
384384

385-
## 四、语音识别的工作流程
385+
## 四、语音识别工作流程
386386

387387
![](https://pic3.zhimg.com/80/v2-6016afa63963c5eb5dc2702aec1ed68b_720w.jpg)
388388

@@ -419,7 +419,7 @@ permalink: /voice
419419

420420
### 2、特征提取
421421

422-
主要算法有`线性预测倒谱系数`(LPCC)和 `Mel倒谱系数`(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量
422+
语音降噪(Speech Denoising)时,选择合适的特征至关重要。不同特征在去除噪声、保持语音质量和提高模型性能方面各有优势
423423

424424
#### 1)原理
425425

@@ -445,6 +445,114 @@ permalink: /voice
445445

446446
简单的说,经过梅尔倒谱分析,得到的参数更符合人耳的听觉特性。
447447

448+
449+
### 特征汇总
450+
451+
【2025-3-30】[语音降噪经典特征](https://mp.weixin.qq.com/s/DfFQp2TeLHM0WLo2afqqQQ)
452+
453+
常用语音特征及其适用场景:
454+
1. 传统**频域**特征:`梅尔频谱`(Mel Spectrogram)、`梅尔频率倒谱系数`(MFCC)、`语谱图`(Spectrogram)
455+
2. **时域**特征:`语音波形`(Raw Waveform)
456+
3. 其他增强特征:`伽马通滤波能量`(GFCC)、`预测语音掩蔽`(IRM)
457+
458+
推荐:
459+
- 深度学习降噪:梅尔频谱 / STFT / IRM
460+
- 传统方法(如 Wiener 过滤):MFCC / GFCC
461+
- 端到端网络(如 Wavenet):原始波形
462+
463+
选择特征时,应结合数据、计算资源和目标应用 来优化效果
464+
465+
| 特征 | 适用于传统方法 | 适用于深度学习 | 鲁棒性(对噪声抗性) | 适用场景 |
466+
|--------------------|----------------------|------------------------------|----------------------|------------------------|
467+
| 梅尔频谱 | × | ✔️(CNN, LSTM)| ★★★ | 语音增强、DNN 降噪 |
468+
| MFCC | ✔️(HMM, GMM)| ×(DNN 降噪较弱)|| 语音识别,低噪音环境 |
469+
| 语谱图(STFT)| ✔️ | ✔️(U-Net, SEGAN)| ★★★ | 端到端语音增强 |
470+
| 原始波形(Raw Waveform) | × | ✔️(WaveNet, DiffWave)| ★★★★ | 端到端神经网络降噪 |
471+
| GFCC(伽马通特征) | ✔️ | ✔️(DNN)| ★★★★ | 噪声强的语音降噪 |
472+
| IRM(掩蔽学习)| × | ✔️(DeepMMSE)| ★★★★ | 语音增强、掩蔽预测 |
473+
474+
#### 传统频域特征
475+
476+
(1) 梅尔频谱(Mel Spectrogram)
477+
478+
特点:
479+
- 采用 梅尔尺度 进行频谱变换,模拟人耳听觉感知。
480+
- 比 STFT(短时傅里叶变换) 更能保留语音的关键信息。
481+
482+
适用于深度学习模型(CNN、Transformer)进行降噪。
483+
484+
适用场景:
485+
- ✅ 语音增强(Speech Enhancement)
486+
- ✅ 深度学习降噪(DNN、CNN、LSTM)
487+
488+
(2) 梅尔频率倒谱系数(MFCC)
489+
490+
特点:
491+
- 从梅尔频谱中提取 cepstral(倒谱)特征,用于语音分析。
492+
- 对背景噪声敏感,但可以结合 Delta MFCC 进行增强。
493+
494+
适用于传统信号处理方法,如 统计建模(HMM、GMM)。
495+
496+
适用场景:
497+
- ✅ 传统方法(HMM-GMM)
498+
- ✅ 噪声较低的环境
499+
- ❌ 对强噪声敏感,不适用于深度学习降噪。
500+
501+
(3) 语谱图(Spectrogram / Log Power Spectrum)
502+
503+
特点:
504+
- 直接使用 短时傅里叶变换(STFT) 计算语音频谱。
505+
- 可用于深度学习降噪(如 U-Net)。
506+
507+
通过 对数功率谱(Log Power Spectrum, LPS) 增强对比度,提高模型鲁棒性。
508+
509+
适用场景:
510+
- ✅ 端到端语音增强(Wave-U-Net, SEGAN)
511+
- ✅ 适用于时频域网络(TCN, CRN)
512+
513+
#### 时域特征
514+
515+
(4) 语音波形(Raw Waveform)
516+
517+
特点:
518+
- 直接使用原始语音波形进行降噪,不依赖 STFT。
519+
- 适用于 WaveNet、Wave-U-Net、DiffWave 等模型。
520+
521+
训练要求高,需要大规模数据支持。
522+
523+
适用场景:
524+
- ✅ 端到端语音增强(无需 STFT)
525+
- ✅ 深度神经网络(TCN, Wavenet, DiffWave)
526+
- ❌ 计算复杂度高,难以解释特征。
527+
528+
#### 其他增强特征
529+
530+
(5) 伽马通滤波能量(GFCC, Gammatone Frequency Cepstral Coefficients)
531+
532+
特点:
533+
- 采用 伽马通滤波器组(Gammatone Filterbank),更符合人耳听觉系统。
534+
- 对噪声鲁棒性更强,比 MFCC 更适用于语音增强。
535+
536+
适用场景:
537+
- ✅ 噪声环境较复杂的语音降噪(如风噪、混响)
538+
- ✅ 结合深度学习(DNN, LSTM)
539+
540+
(6) 预测语音掩蔽(IRM, Ideal Ratio Mask)
541+
542+
特点:
543+
- 直接预测时频掩蔽(Mask),用于增强语音信号。
544+
- 常用于语音增强和降噪任务(如 DeepMMSE)。
545+
546+
可结合时间频率掩码(TF-mask) 提高语音质量。
547+
548+
适用场景:
549+
- ✅ 端到端语音降噪
550+
- ✅ 适用于 SEGAN、DeepMMSE
551+
552+
主要算法有`线性预测倒谱系数`(LPCC)和 `Mel倒谱系数`(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量。
553+
554+
555+
448556
### 声学模型(AM)
449557

450558
`声学模型`是识别系统的底层模型,目的是提供一种计算语音的**特征矢量序列**和每个**发音模板**之间的距离的方法。通过对语音数据进行训练获得,输入是**特征向量**,输出为**音素信息**
@@ -2036,4 +2144,4 @@ predict = model.predict(text,k=1) # 选择概率最大的一个语种
20362144
详见站内专题: [语音识别工具](voice_tool)
20372145

20382146

2039-
# 结束
2147+
# 结束

0 commit comments

Comments
 (0)