推荐序
随着移动互联网的不断发展和5G的普及,信息的视频化呈现出了前所未有的发展速度,不仅是抖音、快手、小红书等,就连很多工具类App都把视频作为一种基础的信息交换格式。而推荐系统作为信息过滤的重要产品和技术手段,近十年来发展迅速,特别是深度学习与推荐系统的结合,不论是工业界还是学术界都涌现出非常多的新算法和实践。初学者接触推荐系统很容易被复杂的算法带偏,甚至以为其系统中最重要的就是模型表达能力的强弱(特征容量),而在实际的工业级推荐系统中涉及大量的在/离线系统架构、数据信号与机器学习系统的反馈链路,以及与人的经验知识的结合方式。
真实的线上推荐系统不仅涉及召回、粗排、精排、重排(在本书中,“重排”等同于“重排序”)这些阶段,而且涉及内容理解、用户画像、AB实验平台、Session上下文管理、创作者生态扶持、流量运营操作平台等,这些子系统在同类书中是比较少涉及的,而模型技术的演进通常是笔墨最重的部分。以内容理解为例,给每一个内容打上标签,或者通过无监督学习的方式得到一个向量表达,这两种不同的形态实际上都有用处,标签在用户冷启动方面是能够发挥比较大的作用的,而向量化也可以作用于用户和内容的冷启动方面。
AB实验平台对于推荐算法工程师做策略迭代至关重要,如何设计一个好的实验及解读实验结果是否有显著性,这对推荐算法工程师而言是一件比较困难的事情,实验分析背后是需要统计学理论基础的,如何看置信度、P-Value等都是需要掌握的。
本书以一个多年在工业界从事推荐系统研发工作的算法工程师的视角详细介绍了推荐体系中的各个重要组成部分,在标签体系、用户画像、多模态内容理解的特点、优化效果的实践技巧等方面,以及其他介绍推荐系统的图书中容易略过的地方,都做了很细致的阐述,并结合具体的实战场景做了清晰的讲解。该如何评估推荐系统的好坏是一个具有挑战性的难题,分为很多流派,无论是只看在线消费指标,还是构建一个复杂的多层次指标矩阵,其取舍都是很困难的,这就需要与你所做的业务场景结合起来,跟产品或运营团队紧密配合。
标签抽取曾经在推荐算法的迭代历史上发挥过重要的作用,以其白盒化、容易控制、与运营领域知识好结合等特点被广泛采用。而随着深度学习技术的应用,单从指标优化上来看,标签似乎是一个过时的技术,但推荐冷启动仍然是每个工业级推荐系统都跨不过去的难点。基于用户标签的冷启动算法与E&E(探索与利用)策略或者与强化学习结合起来,可以在冷启动这个经典难题上取得非常不错的效果。
本书风格比较务实,非常适合希望学习推荐系统的工程师群体入门学习,也比较适合从事推荐系统研究工作的学者及学生了解工业级推荐系统的全貌,期待有更多优秀的技术人员能够推开智能化推荐系统的大门。
风笛,小红书技术VP
这就是推荐系统
核心技术原理与企业应用
前言
互联网及移动互联网的迅速发展颠覆了整个世界,层出不穷的互联网服务改变了人们获取信息的途径。为了提高信息的匹配效率,推荐系统应运而生,现在已经是互联网应用的标配。在移动互联网和互联网信息平台日益繁荣的今天,推荐系统发挥着无可替代的重要作用。就让我们顺应智能推荐的大趋势,去探索推荐技术的发展和变革吧!
本书的特色
推荐系统是一个以应用为主的领域,本书的初衷是让更多的人清晰、完整地了解推荐系统,以及各项推荐技术出现和演化的因与果。本书以从业者的视角,从推荐系统的整体框架技术出发,逐步深入各个核心技术模块和关键问题分支,介绍工业级推荐系统涉及的方方面面。
本书结合工业级推荐系统对功能模块及人员的组织分工,将推荐系统分为内容理解、用户画像、召回、粗排、精排和重排等核心模块。对于每个核心模块,阐述其在推荐系统中的作用和主流技术选型路线,详细介绍模块中的核心算法和策略,深入讨论各项技术被提出的原因和对应解决的问题。此外,本书还结合实际产品中的业务问题,给出了一些通用的优化策略和技巧。
本书的读者对象
本书的读者对象分为以下两类。
一类是互联网行业相关的从业人员,特别是推荐系统、计算广告、搜索领域的技术、产品或者运营人员等。对多数互联网公司来说,推荐系统是产品信息触达用户的主要途径之一。希望通过本书可以帮助读者熟悉推荐系统的全貌,厘清每个关键模块和核心技术,构建推荐业务的思维框架和知识体系,进而将这些内容融会贯通在实际的生产过程中。
另一类是包括高等院校人工智能、计算机技术、软件工程等专业的本科生、研究生及博士生,以及对个性化推荐、大数据应用感兴趣,希望进入推荐系统领域的爱好者等。本书尽量深入浅出,从整体出发再深入细节,介绍推荐系统技术的相关原理和应用方法,使读者可以从零开始构建实用的推荐系统知识体系。
本书的内容结构
本书的内容大体可以分为如下四个部分。
?? 第1部分(第1章):鸟瞰推荐系统全貌,阐述推荐系统的定义、价值及时代的红利,概览工业级推荐系统的整体结构和核心功能模块。
?? 第2部分(第2章至第6章):剖析推荐系统的核心模块。深入推荐系统中的内容理解、用户画像、召回、排序及重排模块内部,介绍每个核心模块的作用及关键技术应用。
?? 第3部分(第7章至第9章):讲解推荐系统中的其他关键技术和问题。介绍支撑推荐系统的特征工程、样本挖掘、推荐系统实效性、AB实验平台等技术;探讨推荐系统都会面临的冷启动问题和推荐偏差问题,并结合业务应用给出一些通用的解决方案。
?? 第4部分(第10章):追踪推荐系统中的前沿技术。探讨目前的一些热门前沿技术在推荐系统中的应用,包括强化学习、因果推断、端上智能、动态算力分配,以及ChatGPT时代推荐系统的未来等。
如何使用本书
本书并不要求读者必须具备深度学习或者机器学习的背景知识。对于没有相关知识背景的读者,可以通过阅读本书来了解推荐系统的全息全貌;对于有相关知识背景的读者,也可以针对学习和工作中的实际问题翻阅相应的章节,深入每个模块的技术细节。
对于推荐系统的初学者,建议从第1章开始按顺序阅读本书。对于有一定推荐领域经验的读者,可以直接翻阅感兴趣的章节进行阅读。由于篇幅限制,有些内容的背景知识或细节无法全面展开,感兴趣的读者可以查阅相应的参考文献。
tpg0 2023-06-01 10:10:19
g