自营现货 语音识别 原理与应用 第3版 语音识别入门实践 语音识别技术书 人工智能机器学习深度学习计算机网络编程书籍

  • 书籍语言:简体中文
  • 下载次数:2827
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2025-04-22 10:10:03
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:洪青阳
  • ISBN:9787121499326
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

本书系统地介绍了语音识别在大模型时代的新技术与新应用。全书共16章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST)、语音大模型,重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工业应用实践介绍,内容主要来自工程经验,极具实用性。

作者简介

洪青阳,厦门大学信息学院教授,主要研究方向为语音识别、声纹识别。先后主持国家自然科学基金三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领XMUSPEECH团队获得东方语种识别(OLR)、基于多模态信息的语音处理(MISP)等竞赛佳绩,成功研发闽南语识别与合成系统。承担大量的智能语音项目,具有丰富的工业研发经验,与华为、海思、海信、鼎桥、声云等知名企业合作,将核心技术应用于华为智能手机,说咱闽南话App,声云语音转写和全国十几个省市的司法、社保、证券、电力系统。发布声纹识别开源工具ASV-Subtools,助力学术研究和产业落地。担任2020—2021年全国声纹识别研究与应用学术研讨会主席、中文信息学会语音信息专委会副主任等职。获电子工业出版社“优秀作者奖”和华为“优秀技术合作成果奖”。从事本科生、研究生的语音识别教学工作近二十年,教学内容与时俱进,从动态时间规整(DTW)、隐马尔可夫模型(HMM)到端到端(E2E)语音识别、大模型框架,具有丰富的教学经验。

李琳,厦门大学教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金两项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖特等奖和二等奖、厦门市科技进步奖一等奖。参与指导XMUSPEECH团队获东方语种识别、基于多模态信息的语音处理等竞赛佳绩。国际IEEE学会会员,CCF高级会员,NCMMSC常设机构委员会委员,CCF语音对话与听觉专业组委员会委员。


编辑推荐

适读人群 :本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生的教材,也适合作为从事智能语音系统的科研人员和工程技术人员的参考书

√华语原创重磅升级版

√从语音原理到语音大模型,与时俱进的工业实践案头手册

√配合大量彩色插图,兼顾基础理论、关键技术与技术前沿

√更易懂的表达,作者具有丰富高校教学经验,深知学习痛点

√更完善的工程项目,如Kaldi、ESPnet和FunASR、sherpa-onnx等开源工具

√增加Whisper等大模型内容

√配套PPT、部分视频,以及课后作业答案


下载地址

序言

内容架构

第一部分 基础知识

语音识别概论

语音信号基础

语音特征提取

第二部分 模型基础

HMM

GMM-HMM

基于HMM的语音识别

DNN-HMM

语言模型

WFST解码器

Kaldi训练实例

端到端语音识别

Transformer结构

Conformer流识别

第三部分 工程实践

语音大模型

WeNet实践

工业应用实践


目录

第1章 语音识别概论 1

1.1 语音的产生和感知 1

1.2 语音识别过程 3

1.3 语音识别发展历史 6

1.4 国内语音识别现状 12

1.5 语音识别建模方法 15

1.5.1 DTW 15

1.5.2 GMM-HMM 16

1.5.3 DNN-HMM 17

1.5.4 E2E 模型 18

1.6 语音识别开源工具 18

1.7 常用语音识别数据库 19

1.8 语音识别评价指标 20

参考文献 20

第2章 语音信号基础 24

2.1 声波的特性 24

2.2 声音的接收装置 25

2.2.1 麦克风的性能指标 25

2.2.2 麦克风阵列 26

2.3 声音的采样 27

2.4 声音的量化 28

2.5 语音的编码 30

2.6 WAV 文件格式 33

2.7 WAV 文件分析 34

2.8 本章小结 36

思考练习题 36

第3章 语音特征提取 37

3.1 预处理 37

3.2 短时傅里叶变换 40

3.3 听觉特性 43

3.4 线性预测 45

3.5 倒谱分析 46

3.6 常用的声学特征 47

3.6.1 语谱图 47

3.6.2 FBank 49

3.6.3 MFCC 49

3.6.4 PLP 50

3.7 本章小结 51

思考练习题 52

第4章 HMM 53

4.1 HMM 的基本概念 54

4.1.1 马尔可夫链 55

4.1.2 双重随机过程 56

4.1.3 HMM 的定义 57

4.2 HMM 的三个基本问题 58

4.2.1 模型评估问题 58

4.2.2 最佳路径问题 61

4.2.3 模型训练问题 62

4.3 本章小结 64

参考文献 64

思考练习题 65

第5章 GMM-HMM 66

5.1 概率统计 66

5.2 高斯分布 67

5.3 GMM 70

5.3.1 初始化 70

5.3.2 重估计 71

5.4 GMM 与HMM 的结合 73

5.5 GMM-HMM 的训练 77

5.6 模型自适应 79

5.6.1 MAP 79

5.6.2 MLLR 79

5.6.3 fMLLR 80

5.6.4 SAT 80

5.7 本章小结 80

参考文献 80

思考练习题 81

第6章 基于HMM 的语音识别 82

6.1 建模单元 82

6.2 发音过程与HMM 状态 84

6.3 串接HMM 85

6.4 固定语法的识别 89

6.5 随机语法的识别 93

6.6 音素的上下文建模 99

6.6.1 协同发音 99

6.6.2 上下文建模 100

6.6.3 决策树 101

6.6.4 问题集 102

6.6.5 三音子模型的训练 106

6.7 本章小结 106

思考练习题 107

第7章 DNN-HMM 108

7.1 深度学习 108

7.2 DNN 108

7.2.1 激活函数 109

7.2.2 损失函数 111

7.2.3 梯度下降算法 111

7.3 DNN 与HMM 的结合 113

7.4 不同的DNN 结构 117

7.4.1 CNN 117

7.4.2 LSTM 120

7.4.3 GRU 121

7.4.4 TDNN 122

7.4.5 TDNN-F 124

7.5 本章小结 126

参考文献 127

思考练习题 127

第8章 语言模型 128

8.1 n-gram 模型 129

8.2 评价指标——困惑度 133

8.3 平滑技术 133

8.3.1 Good-Turing折扣法 133

8.3.2 Witten-Bell折扣法 135

8.3.3 Katz 回退法 135

8.3.4 Jelinek-Mercer插值法 138

8.3.5 Kneser-Ney插值法 138

8.4 语言模型的训练 140

8.5 神经网络语言模型 143

8.6 本章小结 145

参考文献 145

思考练习题 146

第9章 WFST 解码器 147

9.1 基于动态网络的Viterbi解码 147

9.2 WFST 理论 151

9.3 HCLG 构建 155

9.3.1 H 的构建 156

9.3.2 C 的构建 157

9.3.3 L 的构建 158

9.3.4 G 的构建 159

9.3.5 HCLG 合并 161

9.4 WFST 的Viterbi 解码 163

9.4.1 Token 的定义 163

9.4.2 Viterbi 算法 163

9.5 Lattice 解码 170

9.5.1 主要数据结构 171

9.5.2 令牌传播过程 171

9.5.3 剪枝策略 174

9.5.4 Lattice 176

9.6 本章小结 177

参考文献 177

思考练习题 177

第10章 Kaldi 训练实例 178

10.1 下载与安装Kaldi 179

10.1.1 获取源代码 179

10.1.2 编译 179

10.2 创建和配置基本的工程目录 180

10.3 aishell 语音识别工程 181

10.3.1 数据集映射目录准备 182

10.3.2 词典准备和lang目录生成 183

10.3.3 语言模型训练 185

10.3.4 声学特征提取与倒谱均值归一化 186

10.3.5 声学模型训练与强制对齐 188

10.3.6 解码测试与指标计算 190

10.4 本章小结 191

第11章 端到端语音识别 192

11.1 CTC 193

11.1.1 损失函数 193

11.1.2 前向算法 196

11.1.3 后向算法 198

11.1.4 求导过程 199

11.1.5 CTC 解码 200

11.2 RNN-T 203

11.3 基于Attention 的Encoder-Decoder 模型 207

11.4 Hybrid CTC/Attention 209

11.5 本章小结 210

参考文献 210

思考练习题 211

第12章 Transformer 结构 212

12.1 模型结构 212

12.2 卷积下采样 213

12.3 位置编码 214

12.4 自注意力机制 215

12.4.1 自注意力 215

12.4.2 多头注意力机制 218

12.5 编码器结构 218

12.5.1 残差连接 219

12.5.2 层归一化 219

12.5.3 前馈层 219

12.6 解码器结构 219

12.6.1 交叉注意力 220

12.6.2 掩蔽注意力 221

12.7 训练和推理 222

12.8 Whisper 实例 223

12.9 本章小结 224

参考文献 224

思考练习题 224

第13章 Conformer 流识别 225

13.1 Conformer 结构 225

13.2 卷积下采样 226

13.3 编码器结构 227

13.3.1 前馈模块 228

13.3.2 多头自注意力模块 228

13.3.3 卷积模块 228

13.4 相对位置编码 231

13.5 流识别机制 233

13.6 本章小结 234

参考文献 234

思考练习题 235

第14章 语音大模型 236

14.1 LLM 236

14.2 音频离散化 238

14.3 语音文本对齐 240

14.4 流式打断 241

14.5 对话大模型 242

14.6 本章小结 244

参考文献 244

第15章 WeNet 实践 246

15.1 数据准备 246

15.1.1 映射文件准备 246

15.1.2 CMVN 计算 246

15.1.3 词典生成 247

15.1.4 数据打包 247

15.2 WeNet 配置文件 247

15.3 声学模型训练 248

15.3.1 声学模型训练脚本 248

15.3.2 Transformer 模型训练 249

15.3.3 Conformer 模型训练 252

15.3.4 Unified Conformer模型训练 252

15.3.5 U2++ Conformer模型训练 253

15.4 Python 环境解码 254

15.5 WeNet 模型部署 255

15.5.1 模型导出 255

15.5.2 语言模型训练 255

15.5.3 结合语言模型的解码 256

15.6 WeNet 解码结果可视化 256

15.7 本章小结 257

参考文献 257

第16 章 工业应用实践 258

16.1 应用场景 259

16.2 引擎优化 260

16.2.1 Kaldi 方案 260

16.2.2 WeNet 方案 263

16.2.3 Whisper 微调 264

16.3 工程部署 265

16.3.1 SDK 封装 265

16.3.2 语音云平台 269

16.3.3 Kaldi 嵌入式移植 273

16.3.4 WeNet 端侧部署 275

16.3.5 Paraformer与FunASR部署 276

16.3.6 sherpa-onnx部署 278

16.4 Zipformer 实践 279

16.4.1 Zipformer 279

16.4.2 Transducer流识别 280

16.4.3 icefall训练 283

16.5 本章小结 284


短评

    产品特色