解析深度学习:语音识别实践

  • 书籍语言:简体中文
  • 下载次数:9085
  • 书籍类型:Epub+Txt+pdf+mobi
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:俞栋
  • ISBN:9787121287961
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

《解析深度学习:语音识别实践》内容提要
《解析深度学习:语音识别实践》是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。
《解析深度学习:语音识别实践》适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

海报:

作者简介

语音识别在最近几年里取得了长足的进展,这些进展主要源于在语音识别中引入了深度学习技术。本书作者俞栋博士和邓力博士长期致力于语音识别技术的研究,有丰富的理论和实践经验。他们将深度学习技术与传统语音识别技术相结合,成功地大幅降低了大词汇量语音识别系统的错误率。本书译者俞凯博士和钱彦旻博士也是语音识别领域的专家,还是这一进展的积极推动者。他们合作的这本中文译本是第壹部系统性地介绍基于深度学习的语音识别技术的专著。在本书中,俞栋博士和邓力博士以第壹手资料详细介绍了这一技术发生的背景、发展过程、理论根据、关键技术细节,以及思维方式。本书对所有从事语音识别研究或想了解语音识别技术最新进展和发展方向的读者都是很好的参考书。对想将深度学习技术应用到诸如视觉和文本处理等其他领域的读者,本书也有很强的借鉴意义。
——微软公司杰出工程师兼首席语音科学家黄学东博士

编辑推荐

《解析深度学习:语音识别实践》编辑推荐
AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。
本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。
本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域最新的研究进展;译者俞凯、钱彦旻也是本领域的资深专家,并有众多实践成果。对于从事此领域研究的读者来说,本书无疑有重要的参考价值。

下载地址

目录

作者及译者简介
译者序

前言
术语缩写
符号
1简介
1.1自动语音识别:更好的沟通之桥
1.1.1人类之间的交流
1.1.2人机交流
1.2语音识别系统的基本结构
1.3全书结构
1.3.1第一部分:传统声学模型
1.3.2第二部分:深度神经网络
1.3.3第三部分:语音识别中的DNN—HMM混合系统
1.3.4第四部分:深度神经网络中的特征表示学习
1.3.5第五部分:高级的深度模型
第一部分传统声学模型
2混合高斯模型
2.1随机变量
2.2高斯分布和混合高斯随机变量
2.3参数估计
2.4采用混合高斯分布对语音特征建模
3隐马尔可夫模型及其变体
3.1介绍
3.2马尔可夫链
3.3序列与模型
3.3.1隐马尔可夫模型的性质
3.3.2隐马尔可夫模型的仿真
3.3.3隐马尔可夫模型似然度的计算
3.3.4计算似然度的高效算法
3.3.5前向与后向递归式的证明
3.4期望最大化算法及其在学习HMM参数中的应用
3.4.1期望最大化算法介绍
3.4.2使用EM算法来学习HMM参数—Baum—Welch算法
3.5用于解码HMM状态序列的维特比算法
3.5.1动态规划和维特比算法
3.5.2用于解码HMM状态的动态规划算法
3.6隐马尔可夫模型和生成语音识别模型的变体
3.6.1用于语音识别的GMM—HMM模型
3.6.2基于轨迹和隐藏动态模型的语音建模和识别
3.6.3使用生成模型HMM及其变体解决语音识别问题
第二部分深度神经网络
4深度神经网络
4.1深度神经网络框架
4.2使用误差反向传播来进行参数训练
4.2.1训练准则
4.2.2训练算法
4.3实际应用
4.3.1数据预处理
4.3.2模型初始化
4.3.3权重衰减
4.3.4丢弃法
4.3.5批量块大小的选择
4.3.6取样随机化
4.3.7惯性系数
4.3.8学习率和停止准则
4.3.9网络结构
4.3.10可复现性与可重启性
5高级模型初始化技术
5.1受限玻尔兹曼机
5.1.1受限玻尔兹曼机的属性
5.1.2受限玻尔兹曼机参数学习
5.2深度置信网络预训练
5.3降噪自动编码器预训练
5.4鉴别性预训练
5.5混合预训练
5.6采用丢弃手法的预训练
第三部分语音识别中的深度神经网络一隐马尔可夫混合模型
6深度神经网络—隐马尔可夫模型混合系统
6.1DNN—HMM混合系统
6.1.1结构
6.1.2用CD—DNN—HMM解码
6.1.3CD—DNN—HMM训练过程
6.1.4上下文窗口的影响
6.2CD—DNN—HMM的关键模块及分析
6.2.1进行比较和分析的数据集和实验
6.2.2对单音素或者三音素的状态进行建模
6.2.3越深越好
6.2.4利用相邻的语音帧
6.2.5预训练
6.2.6训练数据的标注质量的影响
6.2.7调整转移概率
6.3基于KL距离的隐马尔可夫模型
7训练和解码的加速
7.1训练加速
7.1.1使用多GPU流水线反向传播
7.1.2异步随机梯度下降
7.1.3增广拉格朗日算法及乘子方向交替算法
7.1.4减小模型规模
7.1.5其他方法
7.2加速解码
7.2.1并行计算
7.2.2稀疏网络
7.2.3低秩近似
7.2.4用大尺寸DNN训练小尺寸DNN
7.2.5多帧DNN
8深度神经网络序列鉴别性训练
8.1序列鉴别性训练准则
8.1.1最大相互信息
8.1.2增强型MMI
8.1.3最小音素错误/状态级最小贝叶斯风险
8.1.4统一的公式
8.2具体实现中的考量
8.2.1词图产生
8.2.2词图补偿
8.2.3帧平滑
8.2.4学习率调整
8.2.5训练准则选择
8.2.6其他考量
8.3噪声对比估计
8.3.1将概率密度估计问题转换为二分类设计问题
8.3.2拓展到未归一化的模型
8.3.3在深度学习网络训练中应用噪声对比估计算法
第四部分深度神经网络中的特征表示学习
9深度神经网络中的特征表示学习
9.1特征和分类器的联合学习
9.2特征层级
9.3使用随意输入特征的灵活性
9.4特征的鲁棒性
9.4.1对说话人变化的鲁棒性
9.4.2对环境变化的鲁棒性
9.5对环境的鲁棒性
9.5.1对噪声的鲁棒性
9.5.2对语速变化的鲁棒性
9.6缺乏严重信号失真情况下的推广能力
10深度神经网络和混合高斯模型的融合
10.1在GMM—HMM系统中使用由DNN衍生的特征
10.1.1使用Tandem和瓶颈特征的GMM—HMM模型
10.1.2DNN—HMM混合系统与采用深度特征的GMM—HMM系统的比较
10.2识别结果融合技术
10.2.1识别错误票选降低技术(ROVER)
10.2.2分段条件随机场(SCARF)
10.2.3最小贝叶斯风险词图融合
10.3帧级别的声学分数融合
10.4多流语音识别
11深度神经网络的自适应技术
11.1深度神经网络中的自适应问题
11.2线性变换
11.2.1线性输入网络
11.2.2线性输出网络
11.3线性隐层网络
11.4保守训练
11.4.1L2正则项
11.4.2KL距离正则项
11.4.3减少每个说话人的模型开销
11.5子空间方法
11.5.1通过主成分分析构建子空间
11.5.2噪声感知、说话人感知及设备感知训练
11.5.3张量
11.6DNN说话人自适应的效果
11.6.1基于KL距离的正则化方法
11.6.2说话人感知训练
……
第五部分先进的深度学习模型
参考文献