用Python写网络爬虫(第2版)

ebook Chinese Edition

By Posts & Telecom Press

cover image of 用Python写网络爬虫(第2版)

Sign up to save your library

With an OverDrive account, you can save your favorite libraries for at-a-glance information about availability. Find out more about OverDrive accounts.

   Not today

Find this title in Libby, the library reading app by OverDrive.

Download Libby on the App Store Download Libby on Google Play

Search for a digital library with this title

Title found at these libraries:

Loading...
史上首本Python网络爬虫图书全新升级版 上一版年度销量近40000册 针对Python 3.x编写 提供示例完整源码和实例网站搭建源码

Key Features
  • 本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。
  • 提供示例完整源码和实例网站搭建源码
  • Book Description史上首本Python网络爬虫图书全新升级版,上一版年度销量近40000册。 针对Python 3.x版本编写。 提供示例完整源码和实例网站搭建源码,确保用户能在本地成功复现爬取网站环境,并保障网站的稳定性与可靠性以及代码运行结果的可再现性。 Internet上包含了许多有用的数据,其中大部分是可以免费公开访问的。但是,这些数据不容易使用,它们内嵌在网站的架构和样式中,在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式,正变得越来越有用。 本书是使用Python 3.x的最新特性来爬取网络数据的权威指南。本书讲解了从静态网站提取数据的方法,以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载,然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。 借助于PyQt和Selenium,你可以决定何时以及如何从依赖JavaScript的网站上爬取数据,以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包(比如mechanize)进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法,以及如何在真实的网站上实施所学的爬虫技巧。 本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。 本书主要内容如下: 使用简单的Python程序从页面中提取数据; 构建并发爬虫,对页面进行并行处理; 通过跟踪链接来爬取一个网站; 从HTML中提取特性; 缓存下载的HTML,以供复用; 比较并发模型,确定最快的爬虫; 解析依赖于JavaScript的网站; 与表单和会话进行交互。What you will learn
  • 使用简单的Python程序从页面中提取数据;
  • 构建并发爬虫,对页面进行并行处理;
  • 通过跟踪链接来爬取一个网站;
  • 从HTML中提取特性;
  • 缓存下载的HTML,以供复用;
  • 比较并发模型,确定最快的爬虫;
  • 解析依赖于JavaScript的网站;
  • 与表单和会话进行交互。
  • Who this book is for

    Python开发人员、搜索引擎开发人员

    ]]>
    用Python写网络爬虫(第2版)