爬虫主流框架分享——Scrapy【第二期】

咱么继续接着上一期的支持讲解Scrapy框架,这一期讲解Scrapy进行多线程抓取

Scrapy框架写爬虫项目(单线程)的一般具体流程

第一步:在指定文件夹下创建爬虫项目文件夹 指令: scrapy startproject 爬虫项目文件名(第一个字母大写)

第二步:进入到爬虫文件夹创建真的爬虫文件 → scrapy genspider 真的爬虫文件名 待爬取网站域名

第三步:进入到 items.py 文件设置保存的数据字段名(字典的key值)

image-20211006151513805

第四步:进入真的爬虫文件实现数据解析提取函数功能以及将处理好的数据传给管道文件及实现网站的继续跟进提取

image-20211006151527904

注意:将地址交给调度器入队列【下载器下载】是 yield scrapy.Request()方法!!!

第五步:配置 pipelins.py(项目管道) 文件(对提取的数据作何处理)

image-20211006151545070

注意:一定要在每个项目管道后面加上 return 这样才能保证每个项目管道都可被执行

第六步:配置 settings.py 文件

image-20211006151601378

第七步:运行写好的爬虫文件

image-20211006151615702

爬虫项目启动引擎从爬虫文件获取第一批 url 地址交给调度器入队列的底层原理(分析源代码)!!

image-20211006151714673

Scrapy框架写爬虫项目(多任务)的常用具体流程(效率高)

注意:和单任务的步骤都一样,除了真的爬虫文件里面的代码不一样!!!

真的爬虫文件代码演示:

image-20211006151812872