爬虫程序是DT(Data Technology,数据技术)收集信息的基础,程序员爬取目标网站的资料后,就可以分析和建立应用了。我们关心的是科技如何给人家';#:
来实效,进而实现目标和理想,不能应用的技术称为魔术,JI能用J:表演。我们十分关注读者能否把握爬虫概念,所以相关的技术结合不同的实例讲解,希望能指导读者完成整个数据采集的流程。
Python是一个简单、有效的语言,爬虫所需的获取、存储、整理等流程都可以使用Python系统地实现。此外,绝大部分计算机也町以直接使用Python语言或简单地安装Python系统,相信读者一定能轻松地把Python作为爬虫的主要技术。
动心者,当具有大本大源DT的核心是从信息的源头去理解和分析,以做出能打动对方的行动决策力+案。由谷歌搜索到现在的大数据时代,爬虫技术的莺要性和广泛性‘直很突出。
程序员理解了信息的获取、存储和整理各方面的基本关系,才有可能系统地收集和应用不同源头和千变万化的网站信息。
剡居共享程序员要建立共利的互联网环境,不能把爬虫作为窃取数据的J_|.具,爬虫必须在合情、合法、合理的情况下获取和应用。尊重数据供应者的知识产:权利正常运作才能产生长久共利的环境。保障对方平台的正常运作是每个程序员都应当做到的,因此我们把爬虫的制约放在本书的第1章讨论。
自强不息
互联网科技不断更新和进步,网站信息也随之不断改变。爬虫的乐趣在于如何一直高效率、持续不断地从日新月异的网站中获取信息。另外,程序员要不断学习新技术,自我提高,这样在爬虫的过程中才能够理解互联网的运作和结构。最后,感谢好友唐松给予我一起创作这本书的机会,让我可以分享爬虫技术和当中的乐趣。 陈智铨 思路富邦智能应用有限公司行政总裁!
近年来,大数据成为业界与学术界最火热的话题之一,数据已经成为每个公司极为重要的资产。互联网大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量。而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。
执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术能力。因此,本书除了面向技术人员外,还面向不懂编程的小白。本书尽量做到浅显易懂,希望能够将网络爬虫学习的门槛降低,让大家都能享受到使用网络爬虫编程的乐趣。
我是从商科自学转到数据科学的,因此编程和数据挖掘能力都是上网自学的。在这个过程中,我深刻地体会到,与不知所云的教学相比,深入浅出的教学对学习效率有很大提升。因此,学习知识最重要的两点是,通过富有逻辑的框架解构学习和通过实战解决实际问题,从而增强学习效果。本书的内容侧重于将网络爬虫技术进行框架性的解构,并使用代码将爬虫技术应用于抓取真实的网站。
本书所有代码均在Python 3.6中测试通过,可以从Github下载这些代码,地址为https://github.com/Santostang/PythonScraping;也可以从百度网盘下载,地址为http://pan.baidu.com/s/lc2w9rck(注意区分数字和字母大小写)。为了方便大家练习Python网络爬虫,我专门搭建了一个博客网站用于Python网络爬虫的教学,本书教学部分的爬虫全部基于爬取我的个人博客网站( www.santostang.com)。一方面,由于这个网站不会更改设计和框架,因此本书的网络爬虫代码可以一直使用;另一方面,由于这是我自己的博客网站,因此可以避免一些法律上的风险。
本书主要分为三部分:基础部分(第1~6章)、进阶部分(第7~12章)和项目实践部分(第13~16章),以此来针对不同类型的读者。如果你是Python爬虫的初学者,那么可以先学习基础部分,这部分每一章的最后都有自我实践题,读者可以通过实践题熟悉编写Python爬虫代码。如果你已经对Python爬虫有所了解,但是在实践中遇到了各种问题,那么可以直接学习进阶部分,这部分为你在爬虫实践中遇到的问题提供了解决方案。本书最后的项目实践部分是让你在学习Python爬虫后,可以通过在真实网站中练习来消化和吸收Python爬虫的知识。
最后,感谢卞诚君老师在我写书过程中给予的指导!感谢我的父母在撰写此书的过程中给予的支持和鼓励!还要感谢李宜威、周启航、吴嘉杰等各位朋友以及刘建南教授等各位前辈在我的数据科学之路上一直给予的支持和无私帮助!
唐松2017年6月
来实效,进而实现目标和理想,不能应用的技术称为魔术,JI能用J:表演。我们十分关注读者能否把握爬虫概念,所以相关的技术结合不同的实例讲解,希望能指导读者完成整个数据采集的流程。
Python是一个简单、有效的语言,爬虫所需的获取、存储、整理等流程都可以使用Python系统地实现。此外,绝大部分计算机也町以直接使用Python语言或简单地安装Python系统,相信读者一定能轻松地把Python作为爬虫的主要技术。
动心者,当具有大本大源DT的核心是从信息的源头去理解和分析,以做出能打动对方的行动决策力+案。由谷歌搜索到现在的大数据时代,爬虫技术的莺要性和广泛性‘直很突出。
程序员理解了信息的获取、存储和整理各方面的基本关系,才有可能系统地收集和应用不同源头和千变万化的网站信息。
剡居共享程序员要建立共利的互联网环境,不能把爬虫作为窃取数据的J_|.具,爬虫必须在合情、合法、合理的情况下获取和应用。尊重数据供应者的知识产:权利正常运作才能产生长久共利的环境。保障对方平台的正常运作是每个程序员都应当做到的,因此我们把爬虫的制约放在本书的第1章讨论。
自强不息
互联网科技不断更新和进步,网站信息也随之不断改变。爬虫的乐趣在于如何一直高效率、持续不断地从日新月异的网站中获取信息。另外,程序员要不断学习新技术,自我提高,这样在爬虫的过程中才能够理解互联网的运作和结构。最后,感谢好友唐松给予我一起创作这本书的机会,让我可以分享爬虫技术和当中的乐趣。 陈智铨 思路富邦智能应用有限公司行政总裁!
近年来,大数据成为业界与学术界最火热的话题之一,数据已经成为每个公司极为重要的资产。互联网大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量。而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。
执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术能力。因此,本书除了面向技术人员外,还面向不懂编程的小白。本书尽量做到浅显易懂,希望能够将网络爬虫学习的门槛降低,让大家都能享受到使用网络爬虫编程的乐趣。
我是从商科自学转到数据科学的,因此编程和数据挖掘能力都是上网自学的。在这个过程中,我深刻地体会到,与不知所云的教学相比,深入浅出的教学对学习效率有很大提升。因此,学习知识最重要的两点是,通过富有逻辑的框架解构学习和通过实战解决实际问题,从而增强学习效果。本书的内容侧重于将网络爬虫技术进行框架性的解构,并使用代码将爬虫技术应用于抓取真实的网站。
本书所有代码均在Python 3.6中测试通过,可以从Github下载这些代码,地址为https://github.com/Santostang/PythonScraping;也可以从百度网盘下载,地址为http://pan.baidu.com/s/lc2w9rck(注意区分数字和字母大小写)。为了方便大家练习Python网络爬虫,我专门搭建了一个博客网站用于Python网络爬虫的教学,本书教学部分的爬虫全部基于爬取我的个人博客网站( www.santostang.com)。一方面,由于这个网站不会更改设计和框架,因此本书的网络爬虫代码可以一直使用;另一方面,由于这是我自己的博客网站,因此可以避免一些法律上的风险。
本书主要分为三部分:基础部分(第1~6章)、进阶部分(第7~12章)和项目实践部分(第13~16章),以此来针对不同类型的读者。如果你是Python爬虫的初学者,那么可以先学习基础部分,这部分每一章的最后都有自我实践题,读者可以通过实践题熟悉编写Python爬虫代码。如果你已经对Python爬虫有所了解,但是在实践中遇到了各种问题,那么可以直接学习进阶部分,这部分为你在爬虫实践中遇到的问题提供了解决方案。本书最后的项目实践部分是让你在学习Python爬虫后,可以通过在真实网站中练习来消化和吸收Python爬虫的知识。
最后,感谢卞诚君老师在我写书过程中给予的指导!感谢我的父母在撰写此书的过程中给予的支持和鼓励!还要感谢李宜威、周启航、吴嘉杰等各位朋友以及刘建南教授等各位前辈在我的数据科学之路上一直给予的支持和无私帮助!
唐松2017年6月
Tosan 2017-09-23
这本书很容易懂,不错,很喜欢作者每章最后的实战练习,既帮我复习了爬虫的知识,又在实践中进行了巩固提高。爬虫的书越来越多,但是找到一本像这样能讲明白的书,确实不容易。其他的知识太零碎了。