首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据挖掘

    python3_RoboBrowser_test

    python3_RoboBrowser_test selenium库作为交互是非常方便的,但是却大大加长了加载的时间,例如需要渲染网址,加载js,造成在爬虫过程中时间变长。 /usr/bin/python3.4 # -*- coding: utf-8 -*- from robobrowser import RoboBrowser import requests # https ://github.com/jmcarp/robobrowser s = requests.Session() # 这里可以携带cookie header = {'User-Agent': zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Connection': 'keep-alive'} s.headers = header browser = RoboBrowser

    50820发布于 2019-07-02
  • 来自专栏不仅仅是python

    web爬虫-用RoboBrowser登录和抓取数据

    RoboBrowser是一个简单的Python库,用于在没有独立Web浏览器的情况下浏览Web。RoboBrowser可以获取页面,单击链接和按钮,然后填写并提交表单。 如果您需要与没有API的Web服务进行交互,RoboBrowser可以提供很好的帮助。 接下来看一个例子,使用前需要pip install robobrowser安装这个库: import re from robobrowser import RoboBrowser #创建RoboBrowser br = RoboBrowser() #打开datacoup登录地址 br.open("https://datacoup.com/signin") #获取登录的表单 form = br.get_form import RoboBrowser #浏览Rap Genius网站 browser = RoboBrowser(history=True) browser.open('http://rapgenius.com

    3.2K20发布于 2019-07-23
  • 来自专栏爬虫0126

    使用RoboBrowser和Python下载音频

    以下是一个使用RoboBrowser和Python下载音频的下载器程序,同时使用了https://www.duoip.cn/get\_proxy获取代理服务器:```pythonimport osimport timefrom robobrowser import RoboBrowserfrom urllib.request import urlopendef get_audio_url(keyword, proxy=None): browser = RoboBrowser(history=True, proxy=proxy) browser.open("https://www.baidu.com get_audio_url(keyword, proxy) download_audio(audio_url, output_file, proxy)```在这个程序中,我们首先获取代理服务器地址,然后使用RoboBrowser 请注意,这个程序需要在Python环境中运行,并且需要安装RoboBrowser库。

    58050编辑于 2023-10-18
  • 来自专栏Python 自动化

    推荐一款小众且好用的 Python 爬虫库 - RoboBrowser

    今天推荐一款小众轻量级的爬虫库:RoboBrowser RoboBrowser,Your friendly neighborhood web scraper!  lxml RoboBrowser 常见的 2 个功能为: 模拟表单 Form 提交 网页数据爬取 使用 RoboBrowser 进行网页数据爬取,常见的 3 个方法如下: find 查询当前页面满足条件的第一个元素 实战一下 我们以「 百度搜索及爬取搜索结果列表 」为例 3-1  打开目标网站 首先,我们实例化一个 RoboBrowser 对象 from time import sleep from robobrowser #  官方推荐:lxml rb = RoboBrowser(history=True, parser='lxml') # 打开目标网站 rb.open(home_url) 然后,使用 RoboBrowser 最后 文中结合百度搜索实例,使用 RoboBrowser 完成了一次自动化及爬虫操作 相比 Selenium、Helium 等,RoboBrowser 更轻量级,不依赖独立的浏览器及驱动 如果想处理一些简单的爬虫或

    1K20发布于 2021-03-25
  • 来自专栏爬虫资料

    利用RoboBrowser库和爬虫代理实现微博视频的爬取

    在本文中,我们将介绍一种利用RoboBrowser库和爬虫代理实现微博视频的爬取的方法。 RoboBrowser是一个Python库,它可以模拟浏览器的行为,自动处理网页的解析、表单的提交、Cookie的管理等。 from=old_pc_videoshow使用RoboBrowser库打开网页,并获取页面中的视频元素为了使用RoboBrowser库,我们需要先安装它,可以使用pip命令:pip install robobrowser 然后,我们需要导入RoboBrowser库,并创建一个RoboBrowser对象,设置用户代理和代理服务器。 我们可以使用以下代码:# 导入RoboBrowser库from robobrowser import RoboBrowser# 亿牛云 爬虫代理标准版 设置代理服务器的郁闷和端口proxy_host =

    83330编辑于 2023-11-09
  • 来自专栏python进阶学习

    使用RoboBrowser库实现JD.com视频链接爬虫程序

    python Copy url = 'https://www.jd.com' browser = RoboBrowser() browser.open(url) 通过上述代码,我们成功地使用RoboBrowser 完整的爬取过程如下: from robobrowser import RoboBrowser import requests # 代理信息 proxyHost = "www.16yun.cn" proxyPort 对象,并设置代理 browser = RoboBrowser(session=requests.Session(), user_agent='Mozilla/5.0', proxies=proxies) 总之,利用RoboBrowser编写JD.com视频链接爬取程序是一项有趣且实用的技术挑战。 通过掌握RoboBrowser的基本用法,我们可以方便地实现对网页的自动化访问和信息提取,为数据分析和研究工作提供了便利。

    49210编辑于 2024-06-08
  • 来自专栏腾讯云智能·AI公有云

    使用RoboBrowser库实现JD.com视频链接爬虫程序

    本文将介绍如何利用Python编程语言中的RoboBrowser库来编写一个爬虫程序,用于从JD.com上获取视频链接。 通过RoboBrowser,我们可以模拟浏览器的行为,实现自动化地访问网页、填写表单、点击按钮等操作。 首先,我们创建一个RoboBrowser对象,并指定要访问的网页链接:pythonCopyurl = 'https://www.jd.com'browser = RoboBrowser()browser.open (url)通过上述代码,我们成功地使用RoboBrowser打开了JD.com的网页。 总之,利用RoboBrowser编写JD.com视频链接爬取程序是一项有趣且实用的技术挑战。

    36810编辑于 2024-01-12
  • 来自专栏小徐学爬虫

    冷门但好用的Python库写个爬虫代码

    以下是三个冷门但强大的 Python 爬虫库,我千辛万苦通宵几天结合其核心功能、实战案例和适用场景做出了详细说明:一、RoboBrowser 核心特点:轻量级、无头浏览器模拟,基于 BeautifulSoup 安装: pip install robobrowser lxml典型场景: 1、自动化表单提交与数据提取 示例:百度搜索关键词并提取结果: from robobrowser import RoboBrowserrb = RoboBrowser(parser='lxml')rb.open('https://baidu.com')form = rb.get_form() # 获取搜索表单form[' 多步骤表单操作状态管理、调试支持⭐️⭐️⭐️⭐️InfoSpider多库整合(含Selenium)多平台数据聚合、可视化分析开箱即用、数据源丰富⭐️⭐️选择建议: 需快速抓取静态页且避免依赖浏览器 → RoboBrowser

    33210编辑于 2025-07-11
  • 来自专栏全栈程序员必看

    importerror cannot import name_cannot resolve plugin org.apache

    今天测试一款轻量级的爬虫库:[RoboBrowser]。 (https://github.com/jmcarp/robobrowser) github上的介绍是这样的: 结合使用了 Requests 和 BeautifulSoup,具体就不介绍了,

    46510编辑于 2022-11-08
  • 来自专栏程序员的知识天地

    9个用来爬取网络站点的 Python 库

    官网 9️⃣RoboBrowser 一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。 官网 Latest release:2019.1.11

    95700发布于 2019-04-18
  • 来自专栏程序员IT圈

    Python库大全(涵盖了Python应用的方方面面),建议收藏留用!

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    1.1K40发布于 2018-07-27
  • 来自专栏北京马哥教育

    Python库大全,建议收藏留用!

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    2.1K30发布于 2018-06-20
  • 来自专栏IT派

    Python库大全,建议收藏留用!

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    1.8K20发布于 2018-07-30
  • 来自专栏沈唁志

    【收藏】Python 爬虫的工具列表大全

    RoboBrowser – 一个简单的、极具 Python 风格的 Python 库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互 Python 库。

    2.3K41发布于 2018-05-24
  • 来自专栏机器学习算法与Python学习

    干货 | Python 爬虫的工具列表大全

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    2.1K90发布于 2018-04-18
  • 来自专栏顶级程序员

    干货 | Python 爬虫的工具列表大全

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    2.2K61发布于 2018-04-26
  • 来自专栏北京马哥教育

    快收藏!史上最全156个Python网络爬虫资源

    网络库(基于pycurl) pycurl - 网络库 (与libcurl绑定) urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库 httplib2 - 网络库 RoboBrowser

    2.5K41发布于 2018-05-02
  • 来自专栏Linux Python 加油站

    Python学习干货 史上最全的 Python 爬虫工具列表大全

    § RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 § MechanicalSoup -一个与网站自动交互Python库。

    2.2K20发布于 2018-08-02
  • 来自专栏CDA数据分析师

    Python 爬虫的工具列表

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    2.8K101发布于 2018-02-05
  • 来自专栏Urlteam

    python 爬虫资源包汇总

    RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。

    3.2K30发布于 2019-11-24
领券