用 Python 写网络爬虫(第2版)

  • 书籍语言:简体中文
  • 下载次数:7335
  • 书籍类型:Epub+Txt+pdf+mobi
  • 发布日期:2025-09-06
  • 连载状态:全集
  • 书籍作者:凯瑟琳 雅姆尔(Katharine Jarmul) 理查德 劳森(Richard Lawson)
  • ISBN:9787115479679
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

《用Python写网络爬虫(第 2版》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的3种方法,提取缓存中的数据,使用多个线程和进程进行并发抓取,抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia进行数据抓取,并在最后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例,旨在帮助读者活学活用书中介绍的技术。
《用Python写网络爬虫(第 2版》适合有一定Python编程经验而且对爬虫技术感兴趣的读者阅读。

作者简介

Katharine Jarmul 是德国柏林的一位数据科学家和 Python 支持者。她经营了一家数据科学咨询公司——Kjamistan,为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从 2008 年开始使用 Python 进行编程,从 2010 年开始使用 Python 抓取网站,并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过 Twitter(@kjam)关注她的想法以及动态。

Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过 50 个国家的业务提供远程工作。他精通世界语,可以使用汉语和韩语对话,并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

译者介绍

李斌,毕业于北京科技大学计算机...

(展开全部)

下载地址

目录

前言
资源与支持
第1章 网络爬虫简介
第2章 数据抓取
第3章 下载缓存
第4章 并发下载
· · · · · · (更多)

短评