加入VIP
Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版

Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版

编辑点评:

Python网络数据采集不仅介绍了网络数据采集,也为采集新式网络中的各种数据类型提供了全面的指导。虽然本书用的是Python编程语言,里面涉及Python的许多基础知识,但这并不是一本Python入门图书。

20201118093313.png

前言

对那些没有学过编程的人来说,计算机编程看着就像变魔术。如果编程是魔术(magic),那么网络数据采集(Web scraping)就是巫术

(wizardry):也就是运用“魔术”来实现精彩实用却又不费吹灰之力的“壮举"

说句实话,在我的软件工程师职业生涯中,我几乎没有发现像网络数据采集这样的编程实践,可以同时吸引程序员和门外汉的注意。虽然写一个简单的网络爬虫并不难,就是先收集数据,再显示到命令行或者存储到数据库里,但是无论你之前已经做过多少次了,这件事永远会让你感到兴奋,同时又有新的可能。

不过遗憾的是,当和别的程序员提起网络数据采集时,我听到了很多关于这件事的误解与困惑。有些人不确定它是不是合法的(其实合法)

有人不明白怎么处理那些到处都是JavaScript、多媒体和cookie的新式网站,还有人对API和网络爬虫的区别感到困惑。

这本书的初衷是要解决人们对网络数据采集的诸多问题与误解,并对常见的网络数据采集任务提供全面的指导。

什么是网络数据采集

在互联网上进行自动数据采集这件事和互联网存在的时间差不多一样长。虽然网络数据采集并不是新术语,但是多年以来,这件事更常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting)或其他类似的版本。今天福斯好像更倾向于用"网络数据采集",因此我在本书中使用这个术语,不过有时会把网络数据采集程序称为网络机器人(bots)

理论上,网络数据采集是一种通过多种手段收集网络数据的方式,不光是通过与API交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。

实践中,网络数据采集涉及非常广泛的编程技术和手段,比如数据分析、信息安全等。本书将在第一部分介绍关于网络数据采集和网络爬行(crawling)的基础知识,一些高级主题放在第二部分介绍。

BeautifulSoup简介

“美味的汤,绿色的浓汤,在热气腾腾的盖碗里装!

谁不愿意尝一尝,这样的好汤?晚餐用的汤,美味的汤!"”

BeautifulSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中,这ii h甲f1 的.

"Mock Turtle,它本身是一个双关语,指英国维多利亚时代的流行菜肴素甲鱼汤,其实不是甲鱼而是牛肉,如同中国的豆制品素鸡,名为素鸡,其实与鸡无关.

就像它在仙境中的说法一样,BeautifulSoup尝试化平淡为神奇。它通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现XML结构信息。

复杂HTML解析

当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时,他有一段著名的回答:"很简单,你只要用锤子把石头上不像大卫的地方敲掉就行了。”

虽然网络数据采集和大理石雕刻大相径庭,但是当我们从复杂的网页中寻觅信息时,也必须持有类似的态度。在我们找到目标信息之前,有很多技巧可以帮我们“敲掉”网页上那些不需要的信息。这一章我们将介绍解析复杂的HTML页面的方法,从中抽取出我们需要的信息。

Python网络数据采集PDF电子书下载截图

Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版插图(1)Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版插图(2)Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版插图(3)Python网络数据采集第二版最新版-Python网络数据采集PDF电子书下载完整高清版插图(4)

评分及评论

无用户评分

来评个分数吧

  • 5 分
    0
  • 4 分
    0
  • 3 分
    0
  • 2 分
    0
  • 1 分
    0

评论