主页 > 编程资料 > Python >
发布时间:2018-09-26 作者:apizl 阅读:220次

工欲善其事,必先利其器, 上一篇文章介绍了Scrapy 入门示例,接下来介绍几款工具!

Scrapy 支持使用xpath,css等来解析抓取的页面,如果对xpath不了解也不要紧,

神器一浏览器插件:   Xpath 辅助工具 


Scrapy 实战准备


可以很方便提取想要的内容, 在Scrapy 入门示例中,获取456dev网站上一个栏目标题与链接地址就是用的xpath:


标题:


Scrapy 实战准备


链接:

Scrapy 实战准备


一个节点下使用@href(xpath基础语法)就可以获取链接了, 有了这个神器, 我们只要再稍微了解一点就xpath的基础语法就能完成常规的数据解析了.





第二款神器: 一个附带友好开发者工具的浏览器,比如Chrome浏览器,通过开发者工具分析网页结构再配合xpath可以分析比较复杂的网页;

通过开发者工具,分析网页请求,追溯数据来源.


一个图片网站,通过开发者工具发现图片的加载请求,数据源是JSON格式.Scrapy 实战准备



如果你觉得浏览器的开发者工具分析网络请求不好用, 那就试试这个吧:  

Fiddler (前往下载)

 一个强大的HTTP/HTTPS调试工具,同样用来分析请求.

追溯数据源.

Scrapy 实战准备

关键字词:爬虫  

必填

选填

选填

◎已有0人评论