Scapy框架相关的内容,这里不在搬砖,官方给出的中文文档,已经足够详尽清晰。Scrapy框架上手非常简单,跟着教程一步步走就可以了,爬取一些静态资源是毫无问题的,但现如今,大部分网站为了封禁爬虫,都会采取一些防爬策略,最典型的是通过ajax动态渲染界面,以爬取图片为例,网页用js加载图片使得scrapy.requesturl时获得的response中不暴露图片url,而是一大段js函数,为解决这个问题,可以结合使用Pythonscrapy-splash拓展包。1.爬取动态页面环境准备1.1安装scrapy-splash,终端直接运行pipinstallscrapy-splash1.2.安装scrapy-splash服务dockerpullscrapinghub/splash1.3.启动一个splash服务容器,运行:dockerrun-p:scrapinghub/splash如有疑问,可直接参考scrapy-splash项目地址
转载请注明:http://www.aierlanlan.com/cyrz/7918.html