首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏源懒由码

    python selenium 关于将网页打包为静态网页(mhtml)下载。

    需求:单纯的将page.source写入文件的方式,会导致一些图片无法显示,对于google浏览器,直接将页面打包下载成一个mhtml格式的文件,则可以进行离线下载。 2、没有找到相关能直接下载.mhtml的命名接口。 3、pywin32置顶窗口的使用不顺利。 = 1) save_folder = r"I:\code\python\data\01 爬取微信公众号历史文章\01 二律背反的一灯如豆" + "\\" # 设置保存格式为 mhtml,减少要操作文件保存下拉框的情况 options = webdriver.ChromeOptions() options.add_argument('--save-page-as-mhtml') # 启动浏览器 driver = webdriver.Chrome return (0,'') else: # 根据标题组合成具体路径 name = save_folder + ' ' + title + '.mhtml

    3.6K42发布于 2020-10-10
  • 来自专栏张善友的专栏

    如何将offcie 2003文档(.doc、.xls、.ppt)转换成mht文档

    要实现office文档转换成MHTML文档,首先会将office文档转换成HTML格式的文档,然后将HTML文档转换成MHTML文档。 MHTML是 MIME Encapsulation of Aggregate HTML的缩写,它是一种网络编码格式,是用来定义在电子邮件正文中如何传送html内容的MIME标准。 以下是一个典型的MHTML文件(;后为解释部分): Mime-Version: 1.0 ; Content-Location为主文件地址,可以随意设定 Content-Location: http: //www.ietf.cnri.reston.va.us/ ; Content-Type为MTHML文件的类型,这里表示MHTML文件中包含多种文件类型 ;boundary定义文件之间的分隔符,可随意定义 ;注意这里是结束标记,表示MHTML文件已经结束了.在定义的分隔符前后都加上”--” --boundary-example— 上面是标准的MHTML文件格式,但是按上面的标准是无法在IE里面正确浏览的

    1.8K20编辑于 2022-03-28
  • 来自专栏python前行者

    selenium保存静态网页

    经过多次采坑之后发现chrome可以直接保存为一个单独的mhtml文档,但是chrome是默认关闭状态,这时候我们就需要在webdriver中打开这个设置。 options = webdriver.ChromeOptions() options.add_argument('--save-page-as-mhtml') driver = webdriver.Chrome 文档,但是chrome是默认关闭状态 # 打开另存为mhtml功能 options.add_argument('--save-page-as-mhtml') executable_path = ".. 格式 方案 chrome中 chrome://flags 搜索mhtml 变为启用 然后 Ctrl+s 优点:单文件,兼容性好 maff 格式方案 firefox中 下载 Mozilla Archive Format 插件 Ctrl+s 就可保存为 maff格式 mozilla-archive-format安装地址 优点:单文件,体积小(大概是mhtml的六分之一)。

    3.7K31发布于 2019-03-25
  • 来自专栏巴山学长

    科研小助手推荐第一期

    (二)网页归档保存 —— mhtml格式文件 平时浏览网页时可能会遇到需要保存网页的情况,绝大部分浏览器支持网页保存是html格式,保存的文件除了html文件之外还会生成一个相对应的素材文件,这对于强迫症患者而言时无法接受的 鉴于此,经查阅资料发现将网页存储成mhtml文件即可完美解决这样的问题。 mhtml俗称网页归档,又称单一文件网页,是一种多用途互联网邮件扩展格式,能够将一个多附件网页(如包含大量图片、Flash动画、Java小程序的网页)存储为单一文件,此单一文件即称为一网页封存文件,其扩展名为 步骤二:在Search flags中输入MHTML,将disabled改成enabled即可完成设置。如下图: ?

    1.2K20发布于 2019-07-15
  • 来自专栏Seebug漏洞平台

    绕过混合内容警告 - 在安全的页面加载不安全的内容

    有件有趣的事要记住,两个浏览器都认为伪协议(res: mhtml: file:)是不安全的,所以如果我们尝试使用这些协议加载内容,都会失败,就像普通 http 在 https 中那样。 ://"> <iframe src="<em>mhtml</em>:res://"> 使用伪协议的行为 你可能在想,HTTPS 与这些奇怪的 mhtml: 和 res: 协议有什么关系? 谨记:当攻击者想要检查用户在她的文件系统中是否有特定文件,他们往往使用熟知的技术来利用 mhtml/res/file 协议。 但是这并没什么用,因为攻击者需要 IE 伪协议(mhtml: res: 和 file:)来实现他们的技巧,IE 不接受服务器重定向至那些协议。我们需要有更好的选择。 换句话说,这时攻击者可以加载 mhtml/res 协议,无限制施展他们的技巧:IE 不知道这些内容是整备渲染的,每个嵌入的 iframe 将加载无误。 ?

    4.2K70发布于 2018-03-29
  • 来自专栏腾讯云安全的专栏

    [经验分享]——XSS 入门介绍

    反射型、存储型、DOM型、突变型、UTF-7 XSS、MHTML XSS...什么是 XSS?XSS是前端安全中最常见的问题之一 什么是XSS? VBScript XSS 其中UTF-7、MHTML XSS、CSS XSS、VBScript XSS 只在低版本的IE中可以生效,现在应该基本不可见了,不过还是给大家介绍下。 MHTML XSS MHTML XSS 同样只存在于低版本的IE中,MHTML是MIME HTML (Multipurpose Internet Mail Extension HTML,聚合超文本标记语言 )的缩写,把一个多附件(如图片,flash动画等)的网页内容都保存到单一档案的标准,是类似HTTP的协议,在IE中,当嵌入资源的URL的协议为MHTML 时,IE将调用MHTML Protocol Handler ,把该资源当作MHTML格式文件解析处理。

    1.2K31发布于 2018-06-12
  • 来自专栏巴山学长

    科研小助手推荐第八期 —— 如此简单地资料保存!

    鉴于此,经查阅资料发现将网页存储成mhtml文件即可完美解决这样的问题。 mhtml俗称网页归档,又称单一文件网页,是一种多用途互联网邮件扩展格式,能够将一个多附件网页(如包含大量图片、Flash动画、Java小程序的网页)存储为单一文件,此单一文件即称为一网页封存文件,其扩展名为 步骤一:打开使用谷歌内核浏览器,如360浏览器,在地址栏输入:chrome://flags/ ,然后按下Enter键,结果如下图所示: 步骤二:在Search flags中输入MHTML,将disabled

    62130编辑于 2023-03-17
  • 来自专栏Dance with GenAI

    AI网络爬虫:无限下拉滚动页面的另类爬取方法

    可以拉动到底部,然后保存网页为mhtml格式文件。 下面是具体步骤: 在f盘新建一个Excel文件:poe热门bot.xlsx; 用Pyppeteer库的无界面模式模拟用户打开本地的网页文件:"F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml {file_path}") # 步骤2:用Pyppeteer库的无界面模式模拟用户打开本地的网页文件 local_file_path = r'F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml

    57310编辑于 2024-06-24
  • 来自专栏全栈程序员必看

    包含本地图片请点击word转存怎么解决_为什么会出现跨域问题

    fileName : "jQuery-Word-Export"; var static = { mhtml: { uri.substring(uri.indexOf(",") + 1) }; } // Prepare bottom of mhtml styles = ""; // Aggregate parts of the file together var fileContent = static.mhtml.top.replace ("_html_", static.mhtml.head.replace("_styles_", styles) + static.mhtml.body.replace("_body_", markup.html var static = { mhtml: { top: "Mime-Version: 1.0\nContent-Base: " + location.href

    2.2K30编辑于 2022-09-27
  • 来自专栏偏前端工程师的驿站

    JS魔法堂:Data URI Scheme介绍

    嵌入图片的object、img、input[type=image]、script、link和css规则中的background和backgroundImage属性 九、IE678的polyfill方案——MHTML                    MHTML(MIME HTML,Multipurpose Internet Mail Extensions HyperText Markup Language),就是将 iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg=="); *background-image: url(mhtml 附件的末行必须为boundary字段值;            3、附件内容不能被压缩工具擦写掉;            4、由于高版本的IE在使用IE8兼容模式时能认识*这个css hack,但却不支持mhtml

    2.8K70发布于 2018-01-18
  • 来自专栏云鼎实验室的专栏

    跨站的艺术-XSS入门与介绍

    其他类型XSS 上面是大家经常听到的XSS类型,其实细分下来还有其他的XSS类型: mXSS 突变型XSS UXSS 通用型XSS Flash XSS UTF-7 XSS MHTML XSS CSS XSS VBScript XSS 其中UTF-7、MHTML XSS、CSS XSS、VBScript XSS 只在低版本的IE中可以生效,现在应该基本不可见了,不过还是给大家介绍下。 MHTML XSS MHTML XSS 同样只存在于低版本的IE中,MHTML是MIME HTML (Multipurpose Internet Mail Extension HTML,聚合超文本标记语言 )的缩写,把一个多附件(如图片,flash动画等)的网页内容都保存到单一档案的标准,是类似HTTP的协议,在IE中,当嵌入资源的URL的协议为MHTML 时,IE将调用MHTML Protocol Handler ,把该资源当作MHTML格式文件解析处理。

    1.4K70发布于 2018-04-02
  • 来自专栏Seebug漏洞平台

    检测本地文件躲避安全分析

    在上面这段代码中,第一个引起我注意的就是“mhtml:file”,因为即使IE禁用了“file:protocol”,但是mhtml仍然可以正常工作。 于是我脑海中闪现了一个念头:虽然“mhtml:file”和“res://”已经无法使用了,但如果将mhtml和res配合使用的话,会不会产生意想不到的效果呢? 关键代码如下所示: <iframe src="<em>mhtml</em>:res://c:\Program Files (x86)\Fiddler2\Fiddler.exe/16/1" onload="count++"

    1.5K40发布于 2018-03-29
  • 来自专栏IT 茂茂

    Python爬虫 抓取微博评论

    META", "sudaref": "", "_client_version": "0.6.26", } murl = "https://login.sina.com.cn/sso/login.php" mhtml = self.session.get(murl, params=mParams, headers=Mheaders) mhtml.encoding = mhtml.apparent_encoding \);' mres = re.findall(mpa, mhtml.text) # 关键的跳转步骤,这里不出问题,基本就成功了。 = self.session.get(murl, params=mParams, headers=Mheaders) mhtml.encoding = mhtml.apparent_encoding \);' mres = re.findall(mpa, mhtml.text) # 关键的跳转步骤,这里不出问题,基本就成功了。

    2.1K20编辑于 2022-05-11
  • 来自专栏凹凸玩数据

    一不小心,我爬取了100万条微博评论

    client_version": "0.6.26", } murl = "https://login.sina.com.cn/sso/login.php" mhtml = self.session.get(murl, params=mParams, headers=Mheaders) mhtml.encoding = mhtml.apparent_encoding \);' mres = re.findall(mpa, mhtml.text) # 关键的跳转步骤,这里不出问题,基本就成功了。

    1.5K40发布于 2020-03-10
  • 来自专栏Java成神之路

    01_常用的MIME类型

    text/plain .xml     text/xml .html     text/html .css      text/css .js        text/javascript .mht .mhtml

    1.6K30发布于 2018-08-10
  • 来自专栏盟主来了

    18.5.24日报

    4,增加electron的app.makeSingleInstance功能 5,增加MHTML能力 6,pdf.js在显示某个简历的时候显示有问题。

    79120发布于 2019-02-20
  • 来自专栏学习

    从 “简历难产” 到秒速成型!影刀 RPA 助你轻松拿捏 HR 眼球

    应用获取 密码是Undoom 使用影刀RPA实现简历的批量化生成操作 选择本地的文件,支持的文件格式:png,jpg,jpeg,pdf, bmp,tiff,webp, doc,docx, html, mhtml file_types = [ ('支持的文档', '*.pdf;*.png;*.jpg;*.jpeg;*.bmp;*.tiff;*.webp;*.doc;*.docx;*.html;*.mhtml ('图片文件', '*.png;*.jpg;*.jpeg;*.bmp;*.tiff;*.webp'), ('文档文件', '*.doc;*.docx;*.html;*.mhtml

    60410编辑于 2025-05-01
  • 来自专栏FreeBuf

    微软警告,IE浏览器零日漏洞正被在野利用

    该漏洞被追踪为 CVE-2021-40444,影响到微软的 MHTML,也被称为 Trident,即IE浏览器引擎,该漏洞可造成远程代码执行,CVSS评分8.8。

    46320发布于 2021-09-16
  • 来自专栏开源项目搭建

    【开源神器】微信公众号内容单篇、批量下载

    软件介绍一款可以批量下载微信公众号文章内容的小工具,无需安装证书,支持Window、MacOS支持下载微信公众号的历史消息,可以保存文章为html/mhtml/md/pdf/docx文件,支持评论、合集下载

    7.3K20编辑于 2025-12-27
  • 来自专栏FreeBuf

    作戏做全套,谷歌披露一个“努力”针对安全人员的攻击组织

    随后,韩国网络安全公司ENKI的研究人员披露了Internet Explorer中的零日漏洞,称黑客可以通过恶意MHTML文件访问其安全团队管理的设备。

    47410发布于 2021-04-16
领券