搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏爬虫精选
爬虫之scrapy-splash
而对于用scrapy爬虫来说就是一个很大的问题，因为scrapy没有JS engine，所以爬取的都是静态页面，对于JS生成的动态页面都无法获得解决方案： 1、利用第三方中间件来提供JS渲染服务： scrapy-splash 下面就来讲一下如何使用scrapy-splash： 1、利用pip安装scrapy-splash库： 2、pip install scrapy-splash 3、安装docker scrapy-splash
2.3K50编辑于 2025-10-08
来自专栏入门到放弃之路
Scrapy-Splash：学完秒变爬虫大佬
前言 Scrapy-Splash的作用就是：「所见即所得」。开发爬虫的时候，因为网页中有数据动态加载（可参考之前文章）的部分，很多数据是后面渲染上的。而scrapy-splash担任了一个中间人的角色，程序通过splash服务请求网站，并获得splash返回的JS渲染后的网页。 pip3 install scrapy-splash docker容器这里首先要安装docker服务，然后执行命令拉取splash的镜像，启动容器即可。但是使用scrapy-splash会便利很多，也没有很高的技术门槛，所以还是值得一学的。
2.2K20编辑于 2022-12-18
来自专栏运维经验分享
Scrapy爬虫（8）scrapy-splash的入门
答案就是，使用scrapy-splash模块！ scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。听了上面的介绍，有没有对scrapy-splash很心动呢？下面就介绍如何安装scrapy-splash，步骤如下： 1. 安装scrapy-splash模块 pip3 install scrapy-splash 1 2. scrapy-splash使用的是Splash HTTP API，所以需要一个splash instance 在这个网页中我们能够运行Lua scripts，这对我们在scrapy-splash中使用Lua scripts是非常有帮助的。以上就是我们安装scrapy-splash的全部。 scrapy-splash的实例在安装完scrapy-splash之后，不趁机介绍一个实例，实在是说不过去的，我们将在此介绍一个简单的实例，那就是利用百度查询手机号码信息。
2K30发布于 2019-03-11
来自专栏积跬Coder
Scrapy-Splash使用及代理失败处理
scrapy-splash用前配置安装依赖 pip3 install scrapy-splash settings.py # 修改 SPIDER_MIDDLEWARES = { 'scrapy_splash.SplashDeduplicateArgsMiddleware 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810, } # Configure scrapy-splash
1.9K20发布于 2020-12-24
来自专栏海仔技术驿站
Python爬虫之scrapy_splash组件的使用
scrapy_splash是scrapy的一个组件 scrapy-splash加载js数据是基于Splash来实现的。 Splash是一个Javascript渲染服务。使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。 splash官方文档 https://splash.readthedocs.io/en/stable/ 2. scrapy_splash的作用 scrapy-splash能够模拟浏览器加载js，并返回再删除容器 sudo docker ps -a sudo docker stop CONTAINER_ID sudo docker rm CONTAINER_ID 3.2 在python虚拟环境中安装scrapy-splash 包 pip install scrapy-splash 4.
2.1K40发布于 2020-09-28
来自专栏全栈程序员必看
爬虫遇到js动态渲染问题
scrapy-splash（推荐）而scrapy-splash与以上两种方法对比，它更加快速轻量，由于，他是基于twisted和qt开发的轻量浏览器引擎，并提供了http api，速度更快，最重要的是他能够与三、安装使用scrapy-splash 1.安装Docker 由于ScrapySplash要在docker里使用，我们先安装docker,过程比较复杂痛苦，略。 pip install scrapy-splash python没有花里胡哨的安装过程。注意我们最后的请求方式SplashRequest,我们不再使用Request,而是使用scrapy-splash的请求方式,这里也体现了它与scope框架的完美融合。其实大部分的动态网页的渲染，都存在与数据端进行请求交互数据，当然也存在一些，直接把数据存在js中间，然后再通过js渲染到网页上，这时候scrapy-splash就可以发挥价值了,尤其是在一些验证码，图形验证方面更加突出
2.6K20编辑于 2022-09-19
来自专栏技术探究
爬虫系列（16）Scrapy 框架-爬取JS生成的动态页面。
，所以爬取的都是静态页面，对于JS生成的动态页面都无法获得【官网】http://splash.readthedocs.io/en/stable/ 解决方案 - 利用第三方中间件来提供JS渲染服务： scrapy-splash Twisted（QT）用来让服务具有异步处理能力，以发挥webkit的并发能力安装 1. pip安装scrapy-splash库 pip install scrapy-splash 2. scrapy-splash
5.8K30发布于 2019-07-10
来自专栏小怪聊职场
爬虫课堂（二十三）|使用Splash爬取动态页面（1）
Python库的scrapy-splash是一个非常好的选择，下面就来讲解如何使用scrapy-splash。利用pip安装scrapy-splash库： $ pip install scrapy-splash scrapy-splash使用的是Splash HTTP API，所以需要一个splash instance
2.8K70发布于 2018-05-21
来自专栏python3
Splash抓取javaScript动态渲染页面
以HAR格式获取详细的渲染信息二、Scrapy-Splash的安装 Scrapy-Splash的安装分为两部分，一个是Splash服务的安装，具体通过Docker来安装服务，运行服务会启动一个Splash 服务，通过它的接口来实现JavaScript页面的加载；另外一个是Scrapy-Splash的Python库的安装，安装后就可在Scrapy中使用Splash服务了。服务 docker pull scrapinghub/splash docker run -d --name splash -p 8050:8050 scrapinghub/splash Python包Scrapy-Splash 安装 pip3 install scrapy-splash plash Lua脚本运行splash服务后，通过web页面访问服务的8050端口 http://192.168.0.10:8050/ 即可看到其 Splash缓存该参数 endpoint---Splash服务端点 splash_url---Splash服务器地址，默认为None 实验：https://github.com/scrapy-plugins/scrapy-splash
3.9K30发布于 2020-10-26
来自专栏进击的Coder
Scrapy框架的使用之Scrapy对接Splash
一、准备工作请确保Splash已经正确安装并正常运行，同时安装好Scrapy-Splash库。 startproject scrapysplashtest 新建一个 Spider，命令如下所示： scrapy genspider taobao www.taobao.com 三、添加配置可以参考Scrapy-Splash scrapy_splash.SplashDeduplicateArgsMiddleware': 100, } 这里配置了三个Downloader Middleware和一个Spider Middleware，这是Scrapy-Splash 我们不再需要像对接Selenium那样实现一个Downloader Middleware，Scrapy-Splash库都为我们准备好了，直接配置即可。
2.7K30发布于 2018-06-25
来自专栏运维经验分享
Python分布式爬虫打造搜索引擎Scrapy精讲
安装xvfb软件　　2.执行命令：pip install xvfbwrapper 安装xvfbwrapper模块以下只是提到一下，前面讲的selenium模块操作浏览器已经够用了 2、scrapy-splash ，也是scrapy获取动态网页的方案，这里就不介绍了，详情：https://github.com/scrapy-plugins/scrapy-splash 3、splinter，是一个操作浏览器的模块
1.1K60发布于 2019-03-11
来自专栏Python爬虫与数据挖掘
手把手教你用Scrapy+Gerapy部署网络爬虫
2020.1 pywin32==228 queuelib==1.5.0 redis==3.5.3 requests==2.24.0 Scrapy==1.8.0 scrapy-redis==0.6.8 scrapy-splash Scrapyd启动,挂在后台,其实本质还是向Scrapyd服务发请求,只不过是可视化操作而已基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash
2.1K10发布于 2021-02-05
来自专栏小闫笔记
爬虫框架Scrapy(三)
scrapy-splash加载js数据是基于Splash来实现的。 Splash是一个Javascript渲染服务。使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。 ?
1.2K10发布于 2019-07-18
来自专栏Python数据科学
Scrapy+MongoDB 轻松爬取海量妹子图
2.用 scrapy-splash 库获取。scrapy-splash 安装启动比较繁琐，下次再讲解，我们今天用 selenium 库获取图片信息。
2K10发布于 2018-09-14
来自专栏机器学习与统计学
【预备知识篇】python网络爬虫初步_01
ADSLProxy、ProxyPool、PookiesPool APP爬取：Charles、mitmproxy、mitmdump、Appium 爬虫框架：pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash
1K40发布于 2019-04-10
来自专栏机器学习与统计学
100天搞定机器学习|Day21 Beautiful Soup
ADSLProxy、ProxyPool、PookiesPool APP爬取：Charles、mitmproxy、mitmdump、Appium 爬虫框架：pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash
83120发布于 2019-05-16
40.8K star！让AI帮你读懂整个互联网：Crawl4AI开源爬虫工具深度解析
Scrapy-Splash优势：成熟的分布式爬虫框架局限：需要自行搭建渲染服务2. Apify优势：提供可视化操作界面局限：云服务收费较高3.
3.4K11编辑于 2025-04-25
来自专栏小徐学爬虫
Scrapy爬虫框架Spiders爬虫脚本使用技巧
books.toscrape.com" >>> response.css('h1::text').get()七、常见问题解决403 禁止访问：添加合法 USER_AGENT数据缺失：检查目标页面动态加载（需启用 scrapy-splash
69110编辑于 2025-06-03
来自专栏小徐学爬虫
Python爬虫入门案例详细教程
处理动态内容如果遇到动态加载的网站（如 JavaScript 渲染），可使用 Selenium 或 Scrapy-Splash。反爬虫策略添加随机延迟（如 time.sleep(1)）。
84810编辑于 2025-04-03
来自专栏海仔技术驿站
Python爬虫之gerapy爬虫管理
Gerapy介绍: Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash
94311发布于 2020-09-28

第 2 页

爬虫之scrapy-splash

Scrapy-Splash：学完秒变爬虫大佬

Scrapy爬虫（8）scrapy-splash的入门

Scrapy-Splash使用及代理失败处理

Python爬虫之scrapy_splash组件的使用

爬虫遇到js动态渲染问题

爬虫系列（16）Scrapy 框架-爬取JS生成的动态页面。

爬虫课堂（二十三）|使用Splash爬取动态页面（1）

Splash抓取javaScript动态渲染页面

Scrapy框架的使用之Scrapy对接Splash

Python分布式爬虫打造搜索引擎Scrapy精讲

手把手教你用Scrapy+Gerapy部署网络爬虫

爬虫框架Scrapy(三)

Scrapy+MongoDB 轻松爬取海量妹子图

【预备知识篇】python网络爬虫初步_01

100天搞定机器学习|Day21 Beautiful Soup

40.8K star！让AI帮你读懂整个互联网：Crawl4AI开源爬虫工具深度解析

Scrapy爬虫框架Spiders爬虫脚本使用技巧

Python爬虫入门案例详细教程

Python爬虫之gerapy爬虫管理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐