jackcode

文章/答案/技术大牛

发布

LV0

全部文章

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈
大家好，今天我们在 Mac mini 的终端前，来聊聊 2026 年数据工程领域的一个重要架构演进。
jackcode 1天前2026-07-09 14:24:50
python爬虫、动态代理、网页爬虫、python、requests
技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略
爬虫开发者第一次撞上 SPA（Single Page Application），通常是这种场景：浏览器里点一个分类标签，列表刷出来了；用 requests 拉同...
jackcode 3天前2026-07-07 14:48:33
动态代理、异步、dom、自动化测试工具、数据采集
爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？
相信很多写过一段时间爬虫的同学大概率撞过这堵“隐形墙”：在浏览器里明明白白显示着"￥9.9"的价格，或者一段验证码文本，但当你切换到 DevTools 时，发现...
jackcode 4天前2026-07-06 14:27:12
python、网页爬虫、beautifulsoup、xpath、python爬虫
手把手带你用Python撸一个多线程+代理池下载器
做数据采集的同行们，在爬虫进阶的路上肯定都遇到过这个瓶颈：当目标数据量从几百条飙升到十万级别，尤其是涉及图片、视频等多媒体文件时，普通的单线程下载不仅慢得让人怀...
jackcode 8天前2026-07-02 13:44:06
下载分发加速、动态代理、python爬虫、python、多线程
谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距
大家好，欢迎回到我的技术专栏。在日均抓取量突破千万级别的爬虫场景里，连接管理是决定单机 QPS 和机器成本的关键因素。很多团队在初期用短连接跑得很顺，但当规模膨...
jackcode 9天前2026-07-01 15:29:06
动态代理、性能优化、python3、http、tls
实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理
大家好，今天我们来聊聊自动化爬虫中一个非常让人头疼的问题。很多兄弟经常遇到这样的场景：用Playwright写好的爬虫代码，本地跑得好好的，一放到服务器上就被目...
jackcode 10天前2026-06-30 14:37:50
python爬虫、python、playwright、自动化测试、浏览器
深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？
搭建一个日产千万级页面的企业级分布式爬虫系统，框架选型往往是决定项目生死的第一步。在 Python 生态中，Scrapy 和 PySpider 是提及率最高的两...
jackcode 11天前2026-06-29 14:03:36
python爬虫、动态代理、scrapy、pyspider、python
别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？
在日常的数据采集工作中，大家可能会发现一个痛点：大多数的爬虫教程只教你怎么抓取HTML页面的数据。但在实际的业务场景里，像央行年报、政府公开数据、证券交易记录以...
jackcode 15天前2026-06-25 13:58:29
excel、html、python-requests、python、pdf
告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化
不知道大家在日常开发中，有没有遇到过这种极其抓狂的场景：写了个 Scrapy 爬虫，跑十万级规模的项目稳如老狗，一旦把目标定到百万级页面，系统就开始疯狂“作妖”...
jackcode 16天前2026-06-24 14:59:02
scrapy、python爬虫、架构设计、动态代理、浏览器
Python爬虫进阶：Playwright请求拦截（Request Interception）实战
大家好，在日常的爬虫开发和自动化抓取中，我们经常会遇到一些让人头疼的场景。比如目标网站加载了大量无关的图片和视频拖慢了抓取速度，或者通过检测请求头和前端特征来封...
jackcode 17天前2026-06-23 13:46:20
python、playwright、request、动态代理、网络爬虫
那些年我们踩过的坑：如何处理网页爬取中的中文字符集乱码（GBK/UTF-8）？
作为一名在爬虫坑里摸爬滚打多年的老兵，今天必须来聊聊这个让无数新手甚至老鸟都痛不欲生的终极暗器——网页乱码。
jackcode 18天前2026-06-22 13:43:38
动态代理、content-type、网页爬虫、http、python-requests
全面复盘：BeautifulSoup在处理大规模脏数据时的崩溃问题与解法
大家好，今天我们来聊聊一个老生常谈、却又常常让人在生产环境中痛不欲生的话题——大规模脏数据处理。
jackcode 23天前2026-06-17 14:12:24
python、大数据、html、python爬虫、beautifulsoup
告别 403 与空数据！爬虫新手避坑指南：如何优雅地抓取 Ajax 异步加载数据
今天，我们就从底层原理聊起，手把手教你如何拆解 Ajax 异步接口，并用最优雅、最高效的方式把这些隐藏在幕后的真实数据“扒”出来！
jackcode 30天前2026-06-10 13:59:33
python爬虫、requests、动态代理、http-status-code-403、ajax
为什么说掌握了HTTP协议状态码，就解决了50%的爬虫报错
在爬虫圈子里，经常能看到新手在各大技术社区发帖求助：“为什么我的爬虫昨天还好好的，今天就报错了？”、“刚爬了不到百条数据就返回空，是不是被反爬了？”
jackcode 2026-06-092026-06-09 16:27:16
http、python、python爬虫、网络爬虫、网页爬虫
如何优雅地搞定复杂 SPA 爬虫？Playwright异步模式实战踩坑指南
作为一个长期和各种反爬、动态渲染死磕的爬虫程序员，最近常有同行向我吐槽：现在的网站越来越难爬了。尤其是遇到用 React 或 Vue 架构的 SaaS 管理后台...
jackcode 2026-06-032026-06-03 14:05:49
浏览器、playwright、异步编程、python爬虫、网络爬虫
为什么你的爬虫跑着跑着内存就爆了？BeautifulSoup、Lxml与XPath的性能生死局
作为长期在数据采集一线摸爬滚打的爬虫党，我经常在私信里收到类似的求助：“为什么我的爬虫刚启动时速度飞快，跑个几小时内存就从 200MB 飙到好几个G，最后直接被...
jackcode 2026-06-022026-06-02 13:40:10
xpath、高性能、python爬虫、beautifulsoup、lxml
如果你天天用 requests.get()，请务必读懂这篇文章
大多数人在遇到这类问题时，习惯性的动作是打开搜索引擎，盲目地换几个代理 IP 或者加几行重试代码，运气好问题解决了，运气不好就继续在工位上抓耳挠腮。
jackcode 2026-05-282026-05-28 16:30:24
session、python爬虫、requests、python-requests、动态代理
为什么我劝你放弃Selenium拥抱Playwright
经常有同行或者刚入路的小伙伴在私信里问我：“博主，都2026年了，写爬虫和自动化到底是选 Selenium 还是 Playwright ？”
jackcode 2026-05-272026-05-27 15:55:13
selenium、selenium-chromedriver、playwright、python、网络爬虫
从“秒封”到“日爬十万”：谈谈5个风控机制
经常在知乎看到有刚学完 Python 基础的小白提问：“为什么我刚写好的爬虫，才跑了十几页就被封了？是我代码写得太烂，还是运气不好？”
jackcode 2026-05-262026-05-26 15:38:24
python、python爬虫、爬虫、proxy、http
别再盲目开高并发了：Python爬虫代理IP调优与防封高阶指南
经常在后台收到不少同行的私信：“我的爬虫代码明明没问题，为什么跑了不到十分钟就全红了，全是 403 和验证码？”
jackcode 2026-05-192026-05-19 14:04:18
python、python爬虫、动态代理、代理服务器、高并发

12 3 4 5 6 7 8...26 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2020-09-11

个人成就

获得 708 次赞同
文章被阅读 559.2K 次

关注了：4关注者：26

jackcode

全部文章

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？

手把手带你用Python撸一个多线程+代理池下载器

谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距

实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化

Python爬虫进阶：Playwright请求拦截（Request Interception）实战

那些年我们踩过的坑：如何处理网页爬取中的中文字符集乱码（GBK/UTF-8）？

全面复盘：BeautifulSoup在处理大规模脏数据时的崩溃问题与解法

告别 403 与空数据！爬虫新手避坑指南：如何优雅地抓取 Ajax 异步加载数据

为什么说掌握了HTTP协议状态码，就解决了50%的爬虫报错

如何优雅地搞定复杂 SPA 爬虫？Playwright异步模式实战踩坑指南

为什么你的爬虫跑着跑着内存就爆了？BeautifulSoup、Lxml与XPath的性能生死局

如果你天天用 requests.get()，请务必读懂这篇文章

为什么我劝你放弃Selenium拥抱Playwright

从“秒封”到“日爬十万”：谈谈5个风控机制

别再盲目开高并发了：Python爬虫代理IP调优与防封高阶指南

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐