计算机与互联网

自然语言处理：基于大语言模型的方法

书籍语言：简体中文
下载次数：1932
书籍类型：Epub+Txt+pdf+mobi
创建日期：2025-05-05 09:11:04
发布日期：2025-09-06
连载状态：全集
书籍作者：车万翔
ISBN：9787121495984
运行环境：pc/安卓/iPhone/iPad/Kindle/平板
下载地址

内容简介

自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命，尤其是近年来出现的基于大语言模型的方法，已成为研究自然语言处理的新范式。《自然语言处理：基于大语言模型的方法》在介绍自然语言处理、深度学习等基本概念的基础上，重点介绍新的基于预训练语言模型和大语言模型的自然语言处理技术。本书包括基础知识、预训练语言模型和大语言模型三部分：基础知识部分主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集；预训练语言模型部分主要介绍语言模型、预训练词向量、预训练语言模型的实现方法和应用；大语言模型部分首先介绍大语言模型的预训练方法，其次介绍大语言模型的适配、应用和评估方法，接着介绍基于预训练语言模型思想的各种延伸技术，最后以DeepSeek 系列模型为例，介绍大语言模型的最新技术进展。除了理论知识，本书还有针对性地结合具体案例提供相应的PyTorch 代码实现，让读者不仅能对理论有更深刻的理解，还能快速地实现自然语言处理模型，达到理论和实践的统一。

《自然语言处理：基于大语言模型的方法》既适合具有一定机器学习基础的高等院校学生、研究机构的研究者，以及希望深入研究自然语言处理算法的计算机工程师阅读，也适合对人工智能、深度学习、大语言模型和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

作者简介

车万翔

哈尔滨工业大学计算学部长聘教授/博士生导师，人工智能研究院副院长，国家级青年人才，龙江学者“青年学者”，斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长；国际顶级会议ACL 2025程序委员会共同主席。承担国家自然科学基金重点项目和专项项目、2030“新一代人工智能”重大项目课题等多项科研项目。曾获AAAI 2013最佳论文提名奖、黑龙江省科技进步一等奖、黑龙江省青年科技奖等奖励。

郭江

博士，现从事大模型、检索增强生成技术及企业数据智能等领域的研究，专注于相关技术在云服务中的应用与开发。曾任麻省理工学院计算机科学与人工智能实验室（CSAIL）博士后研究员，博士毕业于哈尔滨工业大学，并于约翰斯·霍普金斯大学联合培养。在人工智能与自然语言处理领域发表学术论文30余篇，累计被引用2400余次（据Google Scholar统计），并出版学术专著与译著各一部。曾获百度奖学金（全球每年仅授予10人）及中文信息学会“优秀博士学位论文”提名奖（2018年）。多次受邀担任国际顶级学术会议高级程序委员会委员和领域主席。

崔一鸣

博士，高级工程师，现任科大讯飞研究院资深科学家、科大讯飞北京研究院副院长，IEEE高级会员、CCF高级会员。博士毕业于哈尔滨工业大学。主要从事大模型、预训练模型、机器阅读理解等相关领域的研究工作，曾获得相关领域国际评测20余项冠军。所牵头研制的中文预训练模型、大模型开源项目（如Chinese-BERT-wwm、Chinese-LLaMA-Alapca系列），在开源平台累计获得4万次以上star，多次登顶GitHub Trending全球项目及开发者排行榜。在ACL、EMNLP、AAAI、IEEE/ACM TASLP等会议或期刊发表学术论文40余篇，其中ESI高被引论文1篇。曾获国际语义评测SemEval-2022最佳论文提名奖，2篇论文入选Paper Digest评选的最具影响力论文，多次入选“全球前2%顶尖科学家”。申请发明专利40余项、获授权专利16项。担任ACL 2025高级领域主席，EMNLP 2021、AACL 2022领域主席，ARR行动编辑，TACL常任审稿人等学术职务。

编辑推荐

适读人群：本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者，以及希望深入研究自然语言处理算法的计算机工程师阅读，也适合对人工智能、深度学习、大语言模型和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

汇聚大模型最新研究成果，开启自然语言处理新范式。哈尔滨工业大学车万翔教授领衔撰写！清华大学人工智能研究院常务副院长孙茂松倾情作序，中国工程院院士廖湘科、中国工程院院士尼玛扎西、中国科学院院士李惠力荐！

涵盖DeepSeek等大语言模型的核心原理、实现方式、应用场景及延伸技术，提供详细示例代码和实践指导。

针对自然语言处理领域，尤其是大语言模型方面技术与应用的最新进展，进行了全面的修订和补充。对于大语言模型部分，首先介绍大语言模型的预训练方法，其次介绍大语言模型的适配、应用及评估方法，最后介绍基于预训练语言模型思想的各种延伸技术，包括多语言的预训练模型及其在跨语言任务上的应用、代码预训练模型、多模态预训练模型，以及基于大语言模型实现的具身预训练模型。

下载地址

Txt格式下载
兼容性最好的txt格式，支持所有设备
Epub格式下载
iPhone/iPad/安卓/Kindle/平板首选epub格式,支持分章书签笔记
pdf格式下载
高清pdf扫描版，适合pc阅读
mobi格式下载
mobi格式下载
百度云网盘下载
百度云网盘下载
新浪微盘下载
新浪微盘下载
推送到Kindle上
推送到Kindle上
在线阅读
在线阅读

序言

前言

自然语言是人类思维的载体和交流的基本工具，也是人类区别于动物的根本标志，更是人类智能发展的重要外在体现形式。自然语言处理（Natural Language Processing，NLP）主要研究用计算机理解和生成自然语言的各种理论与方法，属于人工智能领域的一个重要的甚至核心的分支。随着互联网的快速发展，网络文本规模呈爆炸性增长，对自然语言处理提出了巨大的应用需求。同时，自然语言处理研究也为人们更深刻地理解语言的机理和社会的机制提供了一条重要的途径，因此具有重要的科学意义。

自然语言处理技术经历了从早期的理性主义到后来的经验主义的转变。近十年来，深度学习技术快速发展，引发了自然语言处理领域的一系列变革。但是基于深度学习的算法有一个严重的缺点，就是过度依赖大规模的有标注数据。2018 年以来，以BERT、GPT 为代表的预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点，帮助自然语言处理取得了一系列的突破，包括阅读理解在内的众多自然语言处理任务的性能都得到了大幅提高，在有些数据集上甚至达到或超过了人类水平。2022 年底，OpenAI 推出的大语言模型ChatGPT，以其强大的语言理解、生成及知识推理能力，彻底颠覆了自然语言处理领域的格局，成为自然语言处理乃至整个人工智能领域的统一范式。那么，预训练语言模型以及后来的大语言模型是如何获得如此强大的威力甚至“魔力”的呢？希望本书能够为各位读者揭开大语言模型的神秘面纱。

本书主要内容

本书在《自然语言处理：基于预训练模型的方法》（电子工业出版社，2021）一书的基础上，针对近期自然语言处理领域，尤其是大语言模型方面技术与应用的最新进展，进行了全面的修订和补充。本书主要内容包括三部分：基础知识、预训练语言模型和大语言模型。各部分内容安排如下。

第1 部分：基础知识，包括第1～4 章，主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。

第2 章首先介绍文本的向量表示方法，重点介绍词嵌入表示。其次介绍自然语言处理的三大任务，包括语言模型、基础任务和应用任务。虽然这些任务看似纷繁复杂，但是基本可以归纳为三类问题，即文本分类问题、结构预测问题和序列到序列问题。最后介绍自然语言处理任务的评价方法。

第3 章首先介绍三种常用的自然语言处理基础工具集——tiktoken、NLTK 和LTP。其次介绍本书使用的深度学习框架PyTorch。最后介绍自然语言处理中常用的大规模预训练数据。

第4 章首先介绍自然语言处理中常用的四种神经网络模型：多层感知器模型、卷积神经网络、循环神经网络和以Transformer 为代表的自注意力模型。其次介绍模型的参数优化方法。最后通过两个综合性的实战项目，介绍如何使用深度学习模型解决一个实际的自然语言处理问题。

第2 部分：预训练语言模型，包括第5～7 章，主要介绍语言模型、预训练词向量以及预训练语言模型的实现方法及应用。

第5 章首先介绍语言模型的基本概念，其次介绍经典的N 元语言模型及现代的神经网络语言模型的概念和实现方法，最后介绍语言模型的评价方法。

第6 章介绍词向量的基本概念，以及静态词向量和动态词向量两类预训练词向量的方法及其在自然语言处理任务中的应用。

第7 章首先介绍基于大规模文本预训练的语言模型，其次重点介绍预训练语言模型的三种基本结构及代表性的预训练语言模型，最后介绍预训练语言模型的应用场景和方法。

第3 部分：大语言模型，包括第8～13 章，首先介绍大语言模型的预训练方法，其次介绍大语言模型的适配、应用及评估方法，最后介绍基于预训练语言模型思想的各种延伸技术。

第8 章首先以几种经典的开源大语言模型为例，介绍大语言模型的两种基本结构，其次介绍大语言模型预训练过程中的若干关键技术，最后介绍大语言模型的并行训练策略。

第9 章介绍在将大语言模型应用于具体的现实任务或领域时所需的适配技术，包括基于提示的推断、多任务指令微调、基于人类反馈的强化学习、典型的参数高效精调方法、模型压缩方法，以及大语言模型的中文适配方法等。

第10 章介绍如何将大语言模型有效应用于各种应用场景，包括在常见任务中的应用方法、利用大语言模型生成指令数据以用于大语言模型的精调、大语言模型的量化与部署、本地化开发与应用、利用大语言模型进行工具调用及实现自动化等方法。

第11 章介绍大语言模型的能力评估方法，包括通用领域及任务评估、特定领域及任务评估、模型对齐能力评估、大语言模型的评价方法等。

第12 章介绍预训练语言模型的延伸技术，包括多语言的预训练模型及其在跨语言任务上的应用、代码预训练模型、多模态预训练模型，以及基于大语言模型实现的具身预训练模型。

第13 章以DeepSeek 系列模型为例，介绍大语言模型的最新技术进展，包括DeepSeek 系列模型的技术原理、模型架构优化和基于强化学习获得的推理能力学习等。

致谢

本书第1～5 章及第12 章由哈尔滨工业大学车万翔教授编写；第6、11 章由美国麻省理工学院（MIT）郭江博士后编写；第7、8 、10 章由科大讯飞北京研究院副院长崔一鸣编写；第9 章及第13 章由三位作者联合编写。全书由哈尔滨工业大学刘挺教授主审。本书的编写参阅了大量的著作和相关文献，在此一并表示衷心的感谢！

感谢宋亚东先生和电子工业出版社博文视点对本书的重视，以及为本书出版所做的一切。

由于作者水平有限，书中不足及错误之处在所难免，敬请专家和读者给予批评指正。

查看全部↓

猜你喜欢

下载排行