Scrapy 入门教程

Scrapy 是用 Python 实现的个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘信息处理或存储历史数据等一系列的程序中。

通常可以很简单的通过 Scrapy 框架实现个爬虫抓取指定网站的内容或图片。

Scrapy架构图(绿线是数据流向)

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求并按照一定的方式进行整理排列入队当引擎需要时交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求并将其获取到的Responses交还给Scrapy Engine(引擎) 由引擎交给Spider来处理
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据获取Item字段需要的数据并将需要跟进的URL提交给引擎再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item 并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是个可以自定扩展和操作引擎和Spider中间通信的功能组件（如进入Spider的Responses;和从Spider出去的Requests）

Scrapy的运作流程

代码写好程序开始运行...

1 引擎：Hi！Spider, 你要处理哪个网站？
2 Spider：老大要我处理xxxx.com。
3 引擎：你把第个需要处理的URL给我吧。
4 Spider：给你第个URL是xxxxxxx.com。
5 引擎：Hi！调度器我这有request请求你帮我排序入队一下。
6 调度器：好的正在处理你等一下。
7 引擎：Hi！调度器把你处理好的request请求给我。
8 调度器：给你这是我处理好的request
9 引擎：Hi！下载器你按照老大的下载中间件的设置帮我下载一下这个request请求
10 下载器：好的！给你这是下载好的东西。（如果失败：sorry 这个request下载失败了。然后引擎告诉调度器这个request下载失败了你记录一下待会儿再下载）
11 引擎：Hi！Spider 这是下载好的东西并且已经按照老大的下载中间件处理过了你自己处理一下（注意！这儿responses默认是交给def parse()这个函数处理的）
12 Spider：（处理完毕数据之后对于需要跟进的URL） Hi！引擎我这里有两个结果这个是我需要跟进的URL 还有这个是我获取到的Item数据。
13 引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。然后从第四步开始循环直到获取完老大需要全部信息。
14 管道调度器：好的现在就做！

注意！只有当调度器中不存在任何request了整个程序才会停止（也就是说对于下载失败的URL Scrapy也会重新下载。）

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

安装

Windows 安装方式

升级 pip 版本：

pip install --upgrade pip

通过 pip 安装 Scrapy 框架:

pip install Scrapy

Ubuntu 安装方式

安装非 Python 的依赖:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

通过 pip 安装 Scrapy 框架：

sudo pip install scrapy

Mac OS 安装方式

对于Mac OS系统来说由于系统本身会引用自带的python2.x的库因此默认安装的包是不能被删除的但是你用python2.x来安装Scrapy会报错用python3.x来安装也是报错我最终没有找到直接安装Scrapy的方法所以我用另一种安装方式来说一下安装步骤解决的方式是就是使用virtualenv来安装。

$ sudo pip install virtualenv$ virtualenv scrapyenv$ cd scrapyenv$ source bin/activate$ pip install Scrapy

安装后只要在命令终端输入 scrapy 提示类似以下结果代表已经安装成功。

入门案例

学习目标

创建个Scrapy项目
定义提取的结构化数据(Item)
编写爬取网站的 Spider 并提取出结构化数据(Item)
编写 Item Pipelines 来存储提取到的Item(即结构化数据)

一. 新建项目(scrapy startproject)

在开始爬取之前必须创建个新的Scrapy项目。进入自定义的项目目录中运行下列命令：

scrapy startproject mySpider

其中 mySpider 为项目名称可以看到将会创建个 mySpider 文件夹目录结构大致如下：

下面来简单介绍一下各个主要文件的作用：

mySpider/  scrapy.cfg  mySpider/    __init__.py    items.py    pipelines.py    settings.py    spiders/      __init__.py      ...

这些文件分别是:

scrapy.cfg: 项目的配置文件。
mySpider/: 项目的Python模块将会从这里引用代码。
mySpider/items.py: 项目的目标文件。
mySpider/pipelines.py: 项目的管道文件。
mySpider/settings.py: 项目的设置文件。
mySpider/spiders/: 存储爬虫代码目录。

二、明确目标(mySpider/items.py)

打算抓取 http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。

打开 mySpider 目录下的 items.py。
Item 定义结构化数据字段用来保存爬取到的数据有点像 Python 中的 dict 但是提供了一些额外的保护减少错误。
可以通过创建个 scrapy.Item 类并且定义类型为 scrapy.Field 的类属性来定义个 Item（可以理解成类似于 ORM 的映射关系）。

接下来创建个 ItcastItem 类和构建 item 模型（model）。

import scrapyclass ItcastItem(scrapy.Item):  name = scrapy.Field()  title = scrapy.Field()  info = scrapy.Field()

三、制作爬虫（spiders/itcastSpider.py）

爬虫功能要分两步：

1. 爬数据

在当前目录下输入命令将在mySpider/spider目录下创建个名为itcast的爬虫并指定爬取域的范围：

scrapy genspider itcast "itcast.cn"

打开 mySpider/spider目录里的 itcast.py 默认增加了下列代码:

import scrapyclass ItcastSpider(scrapy.Spider):  name = "itcast"  allowed_domains = ["itcast.cn"]  start_urls = (    'http://www.itcast.cn/',  )  def parse(self, response):    pass

其实也可以由自行创建itcast.py并编写上面的代码只不过使用命令可以免去编写固定代码的麻烦

要建立个Spider 你必须用scrapy.Spider类创建个子类并确定了三个强制的属性和个方法。

name = "" ：这个爬虫的识别名称必须是唯一的在不同的爬虫必须定义不同的名字。

allow_domains = [] 是搜索的域名范围也就是爬虫的约束区域规定爬虫只爬取这个域名下的网页不存在的URL会被忽略。

start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据所以第一次下载的数据将会从这些urls开始。其子URL将会从这些起始URL中继承性生成。

parse(self, response) ：解析的方法每个初始URL完成下载后将被调用调用的时候传入从每个URL传回的Response对象来作为唯一参数主要作用如下：

负责解析返回的网页数据(response.body) 提取结构化数据(生成item)
生成需要下一页的URL请求。
将start_urls的值修改为需要爬取的第个url

start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)

修改parse()方法

def parse(self, response):  filename = "teacher.html"  open(filename, 'w').write(response.body)

然后运行一下看看在mySpider目录下执行：

scrapy crawl itcast

是的就是 itcast 看上面代码它是 ItcastSpider 类的 name 属性也就是使用 scrapy genspider命令的唯一爬虫名。

运行之后如果打印的日志出现 [scrapy] INFO: Spider closed (finished) 代表执行完成。之后当前文件夹中就出现了个 teacher.html 文件里面就是刚刚要爬取的网页的全部源代码信息。

注意: Python2.x默认编码环境是ASCII 当和取回的数据编码格式不一致时可能会造成乱码；可以指定保存内容的编码格式一般情况下可以在代码最上方添加

import sysreload(sys)sys.setdefaultencoding("utf-8")

这三行代码是 Python2.x 里解决中文编码的万能钥匙经过这么多年的吐槽后 Python3 学乖了默认编码是Unicode了...(祝大家早日拥抱Python3)

2. 取数据

爬取整个网页完毕接下来的就是的取过程了首先观察页面源码：

xxx

xxxxx

xxxxxxxx

是不是一目了然？直接上 XPath 开始提取数据吧。

xpath 方法只需要输入的 xpath 规则就可以定位到相应 html 标签节点详细内容可以查看 xpath 教程。

不会 xpath 语法没关系 Chrome 给提供了一键获取 xpath 地址的方法（右键->检查->copy->copy xpath）,如下图:

这里给出一些 XPath 表达式的例子及对应的含义:

/html/head/title: 选择HTML文档中标签内的元素
/html/head/title/text(): 选择上面提到的元素的文字
//td: 选择所有的 元素
//div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素

举例读取网站 http://www.itcast.cn/ 的网站标题修改 itcast.py 文件代码如下：：

# -*- coding: utf-8 -*-import scrapy# 以下三行是在 Python2.x版本中解决乱码问题 Python3.x 版本的可以去掉import sysreload(sys)sys.setdefaultencoding("utf-8")class Opp2Spider(scrapy.Spider):  name = 'itcast'  allowed_domains = ['itcast.com']  start_urls = ['http://www.itcast.cn/']  def parse(self, response):    # 获取网站标题    context = response.xpath('/html/head/title/text()')          # 提取网站标题    title = context.extract_first()     print(title)     pass

执行以下命令：

$ scrapy crawl itcast......传智播客官网-好口碑IT培训机构,一样的教育,不一样的品质......

之前在 mySpider/items.py 里定义了个 ItcastItem 类。这里引入进来:

from mySpider.items import ItcastItem

然后将得到的数据封装到个 ItcastItem 对象中可以保存每个老师的属性：

from mySpider.items import ItcastItemdef parse(self, response):  #open("teacher.html","wb").write(response.body).close()  # 存放老师信息的集合  items = []  for each in response.xpath("//div[@class='li_txt']"):    # 将 得到的数据封装到个 `ItcastItem` 对象    item = ItcastItem()    #extract()方法返回的都是unicode字符串    name = each.xpath("h3/text()").extract()    title = each.xpath("h4/text()").extract()    info = each.xpath("p/text()").extract()    #xpath返回的是包含个元素的列表    item['name'] = name[0]    item['title'] = title[0]    item['info'] = info[0]    items.append(item)  # 直接返回最后数据  return items

暂时先不处理管道后面会详细介绍。

`保存数据`

scrapy保存信息的最简单的方法主要有四种 -o 输出指定格式的文件命令如下：

scrapy crawl itcast -o teachers.json

json lines格式默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

`思考`

如果将代码改成下面形式结果完全一样。

请思考 yield 在这里的作用(Python yield 使用浅析)：

# -*- coding: utf-8 -*-import scrapyfrom mySpider.items import ItcastItem# 以下三行是在 Python2.x版本中解决乱码问题 Python3.x 版本的可以去掉import sysreload(sys)sys.setdefaultencoding("utf-8")class Opp2Spider(scrapy.Spider):  name = 'itcast'  allowed_domains = ['itcast.com']  start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)  def parse(self, response):    #open("teacher.html","wb").write(response.body).close()    # 存放老师信息的集合    items = []    for each in response.xpath("//div[@class='li_txt']"):      # 将 得到的数据封装到个 `ItcastItem` 对象      item = ItcastItem()      #extract()方法返回的都是unicode字符串      name = each.xpath("h3/text()").extract()      title = each.xpath("h4/text()").extract()      info = each.xpath("p/text()").extract()      #xpath返回的是包含个元素的列表      item['name'] = name[0]      item['title'] = title[0]      item['info'] = info[0]      items.append(item)    # 直接返回最后数据    return items

原文链接：https://segmentfault.com/a/1190000013178839

#233

使用 pip 安装 scrapy 过程中失败解决方法

1、（该环境上面有python）安装scrapy的时候，使用pip install scrapy一般会失败。报超时的错误

所以我们需要换另一种形式来安装，我们先将scrapy安装过程中所用到的依赖的库安装完成之后，在安装scrapy，这样子便可以安装成功了。

需要安装的依赖库有 lxml、 pyOpenSSL 、 Twisted 、pywin32。需要注意的是我们安装的这些库，都是通过wheel来安装的。因此在安装这些库之前，先得安装wheel。打开控制台窗口，输入pip install wheel，先安装wheel库。

安装这些库的时候，得注意下载的.whl文件的版本号，需要和自身的python的版本号对应。例如

小编python的版本3.5 64位，则选择下载的.whl的版本为XXX-cp35-cp35-win-amd64.whl:

安装 lxml，到 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted ，查询lxml对应环境python的.whl文件。本文使用的是lxml-4.1.0-cp35-cp35m-win_amd64.whl，下载完成之后。在文件的目录起一个控制台窗口，如下图，便可以启动一个控制台。输入pip install lxml-4.1.0-cp35-cp35m-win_amd64.whl ，即可安装成功。如果提示版本不对，那么就是python和whl文件的版本不对应。

安装 pyOpenSSL ，直接在控制台输入 pip install pyOpenSSL，然后等待安装完成。

安装Twisted，在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted，网站上面找到适合的安装whl文件，安装的步骤同安装lxml一样。

安装pywin32，在https://sourceforge.net/projects/pywin32/files/pywin32/，找到对应的安装文件，该文件为.exe结尾的文件。直接到下载的保存目录，执行exe文件，然后按照提示安装。

将上述的库安装完成之后，便可以开始安装scrapy。打开控制台，执行pip install scrapy。小编刚开始也是安装scrapy报错，后来将所有的库安装上去之后，边安装成功了。注意过程中可能还会出现超时的问题，遇到这种情况，重试一两次即可。

分类科技

Scrapy架构图(绿线是数据流向)

Scrapy的运作流程

制作 Scrapy 爬虫一共需要4步：

安装

Windows 安装方式

Ubuntu 安装方式

Mac OS 安装方式

入门案例

学习目标

一. 新建项目(scrapy startproject)

二、明确目标(mySpider/items.py)

三、制作爬虫（spiders/itcastSpider.py）

xxx

xxxxx

`保存数据`

`思考`

1篇笔记写笔记

使用 pip 安装 scrapy 过程中失败解决方法

尊贵的董事大人

分类导航

Scrapy 入门教程

分类 科技

Scrapy架构图(绿线是数据流向)

Scrapy的运作流程

制作 Scrapy 爬虫 一共需要4步：

安装

Windows 安装方式

Ubuntu 安装方式

Mac OS 安装方式

入门案例

学习目标

一. 新建项目(scrapy startproject)

二、明确目标(mySpider/items.py)

三、制作爬虫 （spiders/itcastSpider.py）

xxx

xxxxx

保存数据

思考

1篇笔记写笔记

使用 pip 安装 scrapy 过程中失败解决方法

尊贵的董事大人

分类导航

微信关注

分类科技

制作 Scrapy 爬虫一共需要4步：

三、制作爬虫（spiders/itcastSpider.py）

`保存数据`

`思考`