前言
本书缘起
回忆起我在亚马逊工作的那段时光,虽然充实,但也有着很大的压力。我在亚马逊所在的组,是一个倾向于科研而非产品的组,因此相比于大多数亚马逊员工,来自工作环境本身的压力并不是很大。我所感受到的压力,更多是自身知识水平的严重不足导致的危机感。每次与组里的其他成员开会讨论,或者评审他们的代码、文档,都会遇到大量的概念与方法,是我当时难以理解的。而这些概念与方法,很多都是语音识别领域的基础知识。为此,每天下班后,我都会花大量的时间,查阅语音识别方面的教程、文献和网上的文章。然而,由于这些内容大多数都是英文的,对于当时刚刚接触语音识别领域的我来说,阅读起来效率很低。当时的我就十分感慨:如果有一本中文的教程,从基础概念开始,详细地介绍我所需要的领域专业知识,那该有多好。我也试着寻找过中文教程,只不过当时我能够找到的教程,其内容早已严重过时。
后来,我在谷歌成为团队主管,每次招聘新的团队成员,如果该成员没有语音领域相关的背景,那么也会面临着和我曾经入职亚马逊时相同的困境。每次我都会花大量的时间,向新的团队成员介绍音频信号处理和声纹识别相关的背景技术,以及声纹领域的研究前沿成果。
以上这些经历,便是我编写本书的原始动机。对于所有以中文为母语的朋友,我希望本书能够快速地帮助你掌握声纹技术所需要的基础知识,并熟悉最前沿的方法。我希望读者在读完本书之后,再去阅读其他与声纹相关的文章,或者使用与声纹相关的工具时,能够快速理解其核心内容,并通过与本书介绍的概念、方法进行联系和比较,大幅提升自己学习、工作的效率。
序
语音及声纹技术是实现人工智能美好愿景中一个必备的关键组件。如今,王泉愿意把自己在语音领域,特别是声纹技术方面多年的研究及工程经验积累写成专业书籍惠及广大读者,是这个领域一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步快速普及和发展起到积极的推动作用,吸引更多的人才从事语音及声纹技术的研究和开发。作为业界首著,作者花费了大量精力来保证深度和广度的平衡,使得处在不同阶段的声纹技术工程和研究人员都能从中获益。总结起来,本书有如下特色:
?? 门槛方面,本书从最基础的人耳听觉感知和音频信号处理等技术讲起,即使没有任何音频基础的读者也能无障碍上手。
?? 内容方面,本书不仅介绍了声纹识别,还介绍了声纹分割聚类,包含了本序开始提到的基于监督学习的声纹分割聚类和后续的发展。据我所知,无论是中文还是英文书籍,都从来没有系统介绍过这方面的内容。此外,本书还介绍了声纹技术在语音识别、语音合成、人声分离方面的应用,也是业内仅有的一本系统介绍这些内容的专著。
?? 本书内容不仅涵盖了20世纪60年代的最早期声纹识别方法,还介绍了大量2019年和 2020年发表的论文,紧随业界最新发展。
?? 本书除了介绍学术内容,还有专门的章节(第4章)介绍工程部署,覆盖了声纹技术部署的诸多实际课题(如版本控制、分布式计算等)。这也是业内独一无二的。
?? 本书配备了很多动手实践,教读者使用常用的Python工具包构建实例,进行实验,避免纸上谈兵。
?? 本书为每一章配备了思考和练习题,因此本书也十分适合作为大学教材。
技术书籍的写作过程通常是比较枯燥的,在保证其科学严谨性的同时也要保证其可读性,才能发挥专业书籍的最大影响力。这需要科研的奉献精神、很强的执行力及大量的精力投入。从我和王泉合作的过程中,我发现王泉在这些方面的特质非常突出。
相信读者在研读本书时也能很快体会到这些点。同时,我们也期待未来会有更多活跃在声纹和语音领域一线的专家,将其专业知识以中文的形式出版成书,造福更多的华人学者。
字节跳动应用机器学习研究组负责人
王崇
鸣鸣嫣嫣 2020-09-20 17:19:42
这个月又在买了很多书,有从推荐看到的,这是从博文视点~~看到的,关于人工智能、语音AI、知识图谱等方向介绍了一系列的书,又搞了促销优惠,就下了不少单,差不多两千了。买下了也不后悔要退,马上拆了保护膜,书真的很好,拆开就散发持久的书香,令我着迷