欢迎来到Elasticsearch的世界并阅读本书第2版。通过阅读本书,我们将带领你接触与Elasticsearch紧密相关的各种话题。请注意,本书不是为初学者写的。笔者将本书作为《ElasticsearchServer,SecondEdition》的续作和姊妹篇。相对于《ElasticsearchServer》,本书涵盖了很多新知识,不过你偶尔也可以在本书中发现一些引自《ElasticsearchServer》的内容。
本书将探讨与Elasticsearch和Lucene相关的多个不同主题。首先,我们以介绍Lucene和Elasticsearch的基本概念作为开始,带领读者认识Elasticsearch提供的众多查询方式。在这里,将涉及和查询相关的不同主题,比如结果过滤以及如何为特定场景选择合适的查询方式。显然,Elasticsearch不仅仅只有查询功能。因此,本书还将介绍Elasticsearch新加入的聚集功能,以及众多能够赋予被索引数据意义的特性,并设法提供更佳的用户查询体验。
对大多数用户来说,查询和数据分析是Elasticsearch最吸引人的部分,不过这些还不是我们想要探索的全部内容。因此,本书在涉及索引架构时还会试图跟读者探讨一些额外话题,比如如何选择合适的分片数和副本数,如何调整分片分配行为等。当谈论Elasticsearch和Lucene之间的关系时,我们还将介绍不同的打分算法、算法之间的差异、如何选择合适的存储机制,以及为什么需要做此选择。
最后,我们还将触及Elasticsearch的管理功能,将探讨发现和恢复模块,以及对人类友好的CatAPI。CatAPI可以帮助我们快速获取相关的运维信息,它的返回数据组织成一种大多数人都易于阅读的格式,无需进行JSON解析。我们还将认识和使用部落节点,它能够为我们提供在多个节点间联合查询的能力。
因为本书的书名,我们无法忽略与性能相关的话题,所以我们决定用整整一章来探讨性能。我们谈论了文档取值及其相关改进,还介绍了垃圾回收器的工作方式,以及在垃圾回收器未能如我们期望般工作时可以做些什么。最后,探讨了如何扩展Elasticsearch以应对高索引量和查询量的场景。
和本书第1版一样,我们决定以开发Elasticsearch插件的话题作为本书结尾。我们将展示如何构建ApacheMaven项目,并开发两个不同类型的插件—自定义REST操作插件和自定义分析插件。
假如你在读完某些主题后对其产生浓厚的兴趣,那么这本书就是适合你的。希望你在读完后能够喜欢这本书。
本书主要内容第1章先介绍ApacheLucene的工作方式,再介绍Elasticsearch的基本概念,并演示Elasticsearch内部是如何工作的。
第2章描述Lucene评分过程,为什么要进行查询改写,什么是查询模板以及如何使用查询模板。除此之外,还介绍了过滤器的使用,以及如何为特定场景选择合适的查询方式。
第3章描述了查询二次评分、多匹配控制,并介绍了用于做查询分析的各种聚合类型。关键词项聚合和最优词项聚合可以根据所含内容片段对文档进行归类。除此之外,还介绍了Elasticsearch的parent-child文档关系处理,并提供了在Elasticsearch中使用脚本的相关知识。
第4章覆盖了有关用户体验提升的相关话题。本章介绍了查询建议(suggester),它能帮助修正查询中的拼写错误并构建高效的自动完成(autocomplete)机制。除此之外,通过实际的案例展示如何通过使用不同查询类型和Elasticsearch的其他功能来提高查询相关性。
第5章介绍了以下技术:如何选择合适的分片及副本数,路由是如何工作的,索引分片机制是如何工作的以及如何影响分片行为。同时介绍了什么是查询执行偏好,以及它是如何影响查询执行的。
第6章描述如何修改Lucene评分以及如何选择备用的评分算法。本章也介绍了Elasticsearch的准实时搜索和索引,事务日志的使用,理解索引的段合并,以及如何调整段合并来适应应用场景。在本章最后,还将介绍Elasticsearch的缓存机制和请求打断器,以避免出现内存用尽的故障。
第7章介绍了什么是发现、网关、恢复模块,如何配置这些模块,以及有哪些令人心烦的疑难点。还介绍了什么是CatAPI,如何把数据备份到各种云服务上(比如亚马逊的AWS和微软的Azure),以及如何从云服务上恢复数据。最后还介绍了如何使用部落节点进行联盟搜索。
第8章覆盖了与Elasticsearch性能相关的各种主题,从使用文档取值来优化字段数据缓存的内存使用,到JVM垃圾回收器的工作原理,再到查询基准测试,最后到如何扩展Elasticsearch以适应更高的索引量和查询量场景。
第9章通过演示如何开发你自己的REST操作插件和查询语言分析插件来介绍Elasticsearch的插件开发。
阅读本书的必备资源本书写作时采用了Elasticsearch的1.4.x版本,所有的范例代码应该能在该版本下正常运行。除此之外,读者需要一个能发送HTTP请求的命令行工具,例如curl,该工具在绝大多数操作系统上是可用的。请记住,本书的所有范例都使用了curl。如果读者想使用其他工具,请注意检查请求的格式,以保证你所选择的工具能正确解析它。
除此之外,为了运行第9章的范例,需要读者的机器上已安装了JDK,并且需要一个编辑器来开发相关代码(或者类似