本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书最后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。本书包含以下章节:
第1章 语音识别概论,介绍人类语音的产生和感知过程,语音识别的关键技术、发展历史等。
第2章 语音信号基础,介绍声音的采集和量化过程,以及编码和存储格式。
第3章 语音特征提取,介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。
第4章 HMM,介绍双重随机过程,以及HMM的三大问题。
第5章 GMM-HMM,介绍高斯混合模型的定义和重估计公式,并结合例子讲解GMM如何与HMM结合,以及对应的具体参数形式。
第6章 基于HMM的语音识别,介绍单音子声学模型和Viterbi解码过程,以及音素的上下文建模,包括双音子和三音子模型。
第7章 DNN-HMM,介绍深度学习在语音识别中的应用,包括CNN、LSTM、TDNN等网络。
第8章 语言模型,介绍语言模型的训练过程及其在语音识别中的作用。
第9章 WFST 解码器,介绍动态和静态的解码网络,以及WFST、HCLG等关键技术。
第10章 序列区分性训练,介绍 MMI/BMMI、MPE/sMBR等准则,以及Lattice-free MMI训练方法。
第11章 端到端语音识别,介绍CTC、RNN-T、Attention和Transformer等端到端语音识别系统。
第12章 Kaldi实践,首先介绍Kaldi的下载与安装步骤,然后以aishell-1中文数据库为例,介绍如何训练和测试模型。
第13章 ESPnet实践,介绍使用ESPnet进行目前主流的端到端语音识别模型的训练和解码过程。
第14章 WeNet实践,介绍使用WeNet进行CTC/Attention模型的训练和解码过程。
第15章 工业应用实践,介绍如何封装语音识别动态库,如何调用和调优,以及嵌入式移植和端侧部署过程。
本书由洪青阳完成主要章节的编写,李琳负责第3章的编写,洪青阳和李琳对全书进行了审校。特别感谢赵淼、李松、张宁、夏仕鹏、刘凯、胡文轩、李涛、余洪涌对本书的贡献,赵淼、李松、胡文轩和李涛分别对Kaldi、ESPnet和WeNet的实践过程等内容做了深入细致的整理,他们的协助使得本书顺利完成。
感谢厦门大学智能语音实验室的童峰老师、许彬彬老师和同学们,为本书的创作提供了良好的学术氛围和精益求精的驱动力。
感谢语音学术和产业界的赵庆卫、王东、余洪涌、李明、张超、谢磊、张卫强、张鹏远等专家和学者,他们的指导和启发令本书增色不少。
感谢电子工业出版社的郑柳洁等老师的大力支持,她们认真细致的工作保证了本书的质量。