◆推荐序 ◆
文字识别(OCR)是视觉感知中一个重要的技术,目的是从照片中提取文字信息。这项技术有着广泛的应用前景。比如,自动驾驶汽车路标识别,或把扫描文档转化成结构化的文字信息以方便检索。近几年来,随着深度学习等技术的发展,文字识别相关技术取得了突破性进展,特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。阿里巴巴、腾讯、百度、谷歌、微软等互联网公司都有大规模的文字识别应用,提供了各式各样的文字识别相关的服务。
本书系统地介绍了文字识别的各类方法,内容翔实,包括图像预处理、数据生成与增强、文字检测、文字识别以及后处理和结构化等,这些方法是文字识别的基础。同时,本书还介绍了学习这些方法所必需的一些基础,比如,残差神经网络以及通用目标检测技术。另外,本书详细地介绍了这些方法具体的代码实现,供读者学习和使用。目前,关于文字识别的专业书籍还比较缺乏,本书将给广大文字识别研究人员和应用人员带来便利。
本书的作者在文字识别学术研究和产业应用方面有丰富的经验,书中很好地融合了学术理论和产业化实践。相信本书的出版对于文字识别技术的普及和发展会产生积极的作用。
——FCOS,CTPN模型作者,田值
前言
文字作为人类传播文明、传递信息、记录思想的重要载体,在我们的生活中占据着举足轻重的地位,所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛,相较于图像,文字作为抽象的符号,承载着大量的信息,所以识别文字有非常大的价值。从历史角度看,文字识别是一门古老的技术,但是从实验室走出来,走进人们的生活,也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后,文字识别精度逼近人工水平,发展出非常多的应用。
笔者作为机器视觉方面的从业者,在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难,常常苦恼于市面上鲜有全面介绍文字识别实现原理和方法的资料,特别是中文书籍,即使有,所介绍的技术也非常落后,远远脱离产业以及学术前沿。随着自己不断地学习和尝试,在反复试错以及与同行交流后,慢慢掌握了其中的方法。为了帮助更多与我有相似经历的人,我们几位同事把基于深度学习的OCR方法整理出来,希望能帮助更多相关从业人员。
本书从OCR的出现讲到中间经历的传统技术,再到最新的基于深度学习的技术,同时根据OCR常用技术流程——从数据、模型对文字的定位、识别到后处理等,对OCR技术做了一个深度梳理,带领读者进入一个引人入胜的文字识别智能世界,领略各种神经网络的魅力及挑战。
全书总共有10章,逻辑上分为四个部分。
第一部分(第1~3章),主要介绍传统OCR技术。
第二部分(第4~6章),主要介绍OCR中一些基础的组件和方法。
第三部分(第7~8章),主要跟踪前沿的文字检测和文字识别技术。
第四部分(第9~10章),主要介绍一些常用的后处理方法和版面分析方法。
本书在内容上尽可能涵盖了OCR领域的基础知识,在合著伙伴的组成上,有学术界第一梯队的青年学者,同时也有产业界一线从业者,希望尽可能实现理论与实践并重。
写作分工
刘树春编写第1章、第5章、第6章、第10章。
贺盼编写第7章。
马建奇编写第8章。
王佳军编写第9章。
谢雨飞编写第3章。
陈明曦编写第2章、第4章。
本书特点
本书具有如下特点:
1.作者有学术界的OCR研究者,也有工作在一线的OCR从业者,试图做到理论与实践结合。
2.涵盖的知识面比较全,包括传统的OCR方法以及最新的基于深度学习的OCR方法。
3.强化了对代码的梳理,方便读者实战运行。
本书读者
本书可作为OCR从业人士或者研究生的参考资料或者入门教程,用来了解OCR相关前沿技术。
感谢
本书在后期修订中得到了邵蔚元、张飞云、刘树芳、龙力等同仁的帮助。他们抽出宝贵的时间帮忙审阅,并提出了中肯的意见和建议。
感谢阿里巴巴本地生活研究院提供的支持与帮助,特别是李佩博士与何田院士对我们工作的鼎力支持。
感谢机械工业出版社的编辑杨福川、张锡鹏和董惠芝,没有他们的努力就没有本书的顺利出版。
最后,感谢各位读者朋友。
读者服务
由于OCR领域的发展日新月异,本书无法做到在所有细分领域面面俱到。而且笔者笔力有限,书中会有很多不足的地方,还望读者能够帮忙指正,不胜感激,日后定将勤加修订升级。
本书通过GitHub(https://github.com/ocrbook/ocrinaction)进行各种资源的交互,以及信息的反馈。
谢谢大家!
刘树春
湾仔芳华 2020-06-05 12:51:06
很喜欢,是我想要的,代码是python写的,希望再出好书。