“麒麟出没,必有祥瑞。”
—中国古谚语
“与Apache Kylin团队一起合作使Kylin孵化成为顶级项目对我而言非常激动人心,Kylin在技术方面当然是振奋人心的,但同样令人兴奋的是Kylin 代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度。”
—Ted Dunning Apache 孵化项目副总裁,MapR 首席应用架构师
今天,随着移动互联网、物联网、AI等各种技术的快速兴起,数据成了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息呢?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,我们关注的问题已经变成如何从海量的超大规模数据中快速获取有价值的信息。在新的时代,面对新的挑战,新的技术必然会应运而生。
在数据分析领域,大部分的技术都诞生在国外,特别是美国,从最初的数据库,到Hadoop为首的大数据技术,再到今天各种深度学习、AI等。但我国却又拥有世界上独一无二的“大”数据—最多的人口、最多的移动设备、最活跃的应用市场、最复杂的网络环境……面对这些挑战,我们需要有自己的核心技术,特别是在基础领域的突破和研发。今天,以Apache Kylin为首的各种来自中国的先进技术不断涌现,甚至在很多方面都大大超越了来自国外的其他技术,彰显了中国的技术实力。
自Hadoop选取大象图标伊始,上百个项目,以动物居之者为多。而其中唯有Apache Kylin(麒麟)来自中国,在众多项目中分外突出。在全球最大的开源基金会—Apache 软件基金会(Apache Software Foundation,ASF)的160多个顶级项目中,Apache Kylin是唯一一个来自中国的Apache顶级开源项目,与Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、Apache Struts、Apache Maven等顶级项目一起以“The Apache Way”构建开源大数据领域的国际社区,发展新技术并拓展生态系统。
大数据与传统技术的最大区别就在于数据的体量给查询带来的巨大挑战。从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。Apache Kylin最初诞生于eBay中国研发中心,该中心坐落于上海浦东新区。2013年9月底该研发中心开始进行POC测试并组建团队,经过一年的艰苦开发和测试,Apache Kylin于2014年9月30日正式上线,并在第二天,2014年10月1日,正式开源。
在这个过程中,面对使用何种技术、如何设计架构、如何突破那些看似无法完成的挑战等一系列技术难关,整个开发团队和用户一起经历了一个艰难的过程。今天呈现的Apache Kylin已经经历了上千亿甚至上万亿规模数据量的分析请求及上百家公司在实际生产环境中的检验,成为各个公司大数据分析平台不可替代的重要组成部分。本书将从Apache Kylin的架构和设计、各个模块的使用、与第三方的整合、二次开发以及开源实践等多个方面进行讲解,为读者呈现Apache Kylin最核心的设计理念和哲学、算法和技术等。
Apache Kylin社区的发展来之不易,自2014年10月开源至今已经有近五年的时间,从最初的几个研发人员发展到今天几十个贡献者、国内外上百家公司正式使用、连续两年获得InfoWorld Bossie Awards最佳开源大数据工具奖。来自Apache Kylin核心团队、贡献者、用户、导师、基金会等的帮助和无私奉献铸就了今天Apache Kylin活跃的社区,也使得此项技术得以在越来越多的场景下发挥作用。现在,由Apache Kylin核心团队撰写的本书即将出版,相信能更好地将相关的理论、设计、技术、架构等展现给各位朋友,希望能够让更多的朋友更加充分地理解Kylin的优势和适用的场景,更多地挖掘出Kylin的潜力。同时希望本书能够鼓励并吸引更多的人参与到Kylin项目和开源项目中,能够影响更多的人贡献更多的项目和技术到开源世界中。
此次《Apache Kylin 权威指南》的再版工作,得到了Kyligence研发团队的大力支持,他们纷纷自愿参与,本书大部分内容的写作是利用节假日和休息时间完成的,每位参与者都将自己在工作中获得的最佳实践经验总结到了这本书中,他们分别是:史少锋、陈志雄、冯礼、翟娜、汤雪、赵勇杰、周浥尘、龙超、宗正、孙宇婕、周丁倩、李森辉等。在此对他们表示诚挚的感谢!
韩卿
Apache Kylin联合创建者及项目委员会主席
2019年5月
推荐序
大概三年前,我在探索融合大数据平台演进路线的时候,接触到Apache Kylin这个开源大数据分析产品,并认识了几位Kylin核心团队的工程师。作为在企业级数据领域工作了10多年的“老兵”,在完成POC测试并拜读了《Apache Kylin权威指南》(第1版)之后,我特别感动于这本书所映射出来的精神。在互联网金融极速燃烧的年代,居然有这么一群人坚守企业级数据分析阵地,致力于拯救陷入数据泥潭的劳苦大众。这种精神一定来源于Kylin的初衷—Unleash Big Data Productivity,我个人非常认同,并愿意共同传播Kylin的这种精神。
2018年9月12日,我和Apache Kylin社区管理委员会(PMC)主席韩卿(Luke Han)相约,在纽约Strata AI大会上分享了对智能数据仓库未来的畅想。这次和国外数据界的交流碰撞,让我意识到,我们不但要设想未来在哪里,更要帮助期望数据分析生态落地的企业找到一条能够从数据仓库升级到数据湖再进化到智能数据平台的路。当然,我们也知道,要让路好走,铺路的人要付出更多的艰辛努力。
在这之后,Luke时常与我讨论,如何应对企业级数据市场的各种艰辛。后来有一天,Luke邀请我为《Apache Kylin权威指南》(第2版)写推荐序,我便毫不犹豫地答应了。因为我知道这本书的升级,不只是技术的升级,更是技术背后的理念愿景和能力的升级。关于此书,我想告诉大家的是,读完第1章,我们将了解设计数据仓库解决方案的初衷,从而有意愿从Kylin开始新的探索;读完第2~13章,通过应用第一原理,我们将有机会改变一个企业级数据分析生态;读完第14章和第15章,如果还有机会在企业内部进行实践的话,我们将有可能改变一个企业乃至一个行业。当然,对于本书,我们也不必循规蹈矩地按顺序读下来,可以按照自己的需要选择内容阅读。
面对未来竞争的每一个企业,表面上拼的是业务场景下对科技的理解和综合应用。实际上,最终比拼的还是人对业务场景和科技综合应用的驾驭能力。最后,我衷心希望,读者通过阅读本书能够获得驾驭企业级大数据的能力,成为企业所需要的技术人才,而本书的作者也会因为读者的成功而获得更大的成功。
朱志
建信金融科技 架构技术总监