引言：传统爬虫的“阿喀琉斯之踵”

对于任何一个写过爬虫的程序员来说，以下场景绝对是“血压飙升”的瞬间：

在 2026 年的 AI 时代，爬虫的范式已经彻底改变。

  我们不再需要教计算机“怎么找（规则）”，而是直接告诉 AI“我要什么（意图）”。通过结合

浏览器自动化技术（Playwright）与大语言模型（LLM）

，我们可以打造出能够像人类一样“阅读和理解”网页的 

今天，我们将用 Python 手写一个 

。它能自动打开网页、过滤干扰代码、理解页面语义，并精准提取你需要的结构化数据。

一、 核心技术栈：Playwright + HTML 降维 + LLM

构建一个 AI 爬虫，最大的挑战是 

“网页 DOM 树太大，塞不进大模型的上下文窗口”

。一个普通的网页 HTML 动辄几万 Token，直接喂给 AI 不仅昂贵，还会导致“注意力迷失”。

因此，我们的核心技术链路如下：

二、 实战演练：构建“AI 科技资讯抓取器”

 的首页，让 AI 自动提取新闻标题、链接，并

（这是传统爬虫绝对做不到的）。

# 安装核心依赖
pip install playwright beautifulsoup4 markdownify langchain-openai python-dotenv

# 安装 Playwright 浏览器内核（只需执行一次）
playwright install chromium


OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx
OPENAI_BASE_URL=https://api.openai.com/v1
# 推荐使用 GPT-4o-mini，速度极快且 JSON 输出稳定，成本极低


import os
import json
import asyncio
from dotenv import load_dotenv
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup
from markdownify import markdownify as md
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser

# 加载环境变量
load_dotenv()

# ==========================================
# 1. 网页抓取与降维清洗 (电脑技术层)
# ==========================================
async def fetch_and_clean_html(url: str) -> str:
    """使用 Playwright 获取动态渲染后的网页，并清洗降维"""
    print(f"🌐 [1/3] 正在启动无头浏览器访问: {url} ...")
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()
        
        # 模拟人类访问，防止基础反爬
        await page.set_extra_http_headers({"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Gecko/20100101 Firefox/120.0"})
        await page.goto(url, wait_until="networkidle")
        
        # 获取渲染后的完整 HTML
        html_content = await page.content()
        await browser.close()

    print("🧹 [2/3] 正在清洗 DOM 树并转换为 Markdown...")
    # 使用 BeautifulSoup 剔除脚本和样式
    soup = BeautifulSoup(html_content, 'html.parser')
    for tag in soup(['script', 'style', 'nav', 'footer', 'header']):
        tag.decompose()
        
    # 将 HTML 转换为 Markdown (极大压缩 Token，保留链接结构)
    markdown_text = md(str(soup), strip=['a']) 
    # 限制长度，防止超出模型上下文
    return markdown_text[:15000] 

# ==========================================
# 2. AI 语义理解与结构化抽取 (AI 层)
# ==========================================
def extract_data_with_ai(markdown_text: str, user_intent: str):
    """将清洗后的网页喂给大模型，进行意图抽取"""
    print("🧠 [3/3] 正在调用大模型进行语义理解与数据抽取...")
    
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
    
    # 定义 JSON 输出解析器
    parser = JsonOutputParser()
    
    prompt = ChatPromptTemplate.from_template("""
    你是一个专业的网页数据分析师。请阅读以下由网页转换而来的 Markdown 文本。
    根据用户的【抽取意图】，从文本中提取信息，并严格输出一个 JSON 数组。
    
    【抽取意图】:
    {intent}
    
    【要求】:
    1. 必须包含字段: title (标题), url (原文链接), ai_summary (你用中文生成的一句话核心摘要)。
    2. 如果找不到 url，请填 null。
    3. 只输出合法的 JSON 数组，不要包含任何 Markdown 标记（如 ```json）或解释性文字。
    
    【网页内容】:
    {context}
    """)
    
    chain = prompt | llm | parser
    
    try:
        result = chain.invoke({
            "intent": user_intent,
            "context": markdown_text
        })
        return result
    except Exception as e:
        print(f"❌ AI 解析失败: {e}")
        return []

# ==========================================
# 3. 主程序运行
# ==========================================
async def main():otterly.cn
    target_url = "https://news.ycombinator.com/"
    
    # 定义你的人话需求（无需写任何正则！）
    my_intent = "提取首页排名前 5 的科技新闻。"
    
    # 执行工作流
    clean_text = await fetch_and_clean_html(target_url)
    extracted_data = extract_data_with_ai(clean_text, my_intent)
    
    print("\n" + "="*60)
    print(f"✅ 抽取完成！共获取 {len(extracted_data)} 条数据：")
    print("="*60 + "\n")
    
    # 打印结果
    for idx, item in enumerate(extracted_data, 1):
        print(f"📌 [{idx}] {item.get('title', '未知标题')}")
        print(f"🔗 链接: {item.get('url', '无')}")
        print(f"💡 AI 摘要: {item.get('ai_summary', '无')}")
        print("-" * 40)

if __name__ == "__main__":
    asyncio.run(main())


运行脚本后，AI 不仅帮你抓取了数据，还

🌐 [1/3] 正在启动无头浏览器访问: https://news.ycombinator.com/ ...
🧹 [2/3] 正在清洗 DOM 树并转换为 Markdown...
🧠 [3/3] 正在调用大模型进行语义理解与数据抽取...

============================================================
✅ 抽取完成！共获取 5 条数据：
============================================================

📌 [1] Show HN: I built a local-first alternative to Notion
🔗 链接: https://github.com/anyproto/anytype-ts
💡 AI 摘要: 开发者开源了一个名为 Anytype 的本地优先笔记应用，旨在替代 Notion，强调数据隐私和离线可用性。
----------------------------------------
📌 [2] The Death of the URL
🔗 链接: https://example.com/death-of-url
💡 AI 摘要: 文章探讨了现代 Web 应用中 URL 结构的复杂化趋势，以及这对用户分享和搜索引擎优化带来的负面影响。
----------------------------------------
...


三、 从“脚本”到“企业级 Web Agent”的 4 个进阶策略

上面的代码实现了“所见即所取”的最小闭环。但在应对真实世界中极其复杂的商业网页时，你还需要掌握以下高阶电脑技术：

1. 应对“无限滚动”与“懒加载”

很多现代网站（如 Twitter、淘宝）采用瀑布流，初始 HTML 只有 10 条数据。 

：在 Playwright 中注入自动滚动脚本。

# 在 page.goto 之后加入自动滚动到底部的逻辑
for _ in range(3): # 滚动3次
    await page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
    await page.wait_for_timeout(1500) # 等待 Ajax 加载


2. 突破 Token 极限：DOM 分块与 Map-Reduce

如果网页是一篇长达 5 万字的财报，即使转成 Markdown 也会超出大模型的上下文限制。 

：采用 Map-Reduce 架构。先用 Python 将长 Markdown 按标题（

）切分成多个 Chunk；然后让 AI 并发（Map）提取每个 Chunk 的关键数据；最后再让 AI 汇总（Reduce）成一份完整的 JSON 报告。

3. 让 AI 自己“点按钮”（Browser-Use 技术）

目前的代码只能“看”网页。如果想让 AI 自动登录、点击“下一页”、展开折叠菜单怎么办？ 

。用 Python 给网页上的所有可点击元素（按钮、输入框）画上带编号的边界框并截图，将截图喂给多模态大模型（如 GPT-4o）。AI 会输出类似 

 的指令，Playwright 接收指令后执行点击。这就是目前最火的 

如果你依然需要高频抓取，完全依赖 AI 每次重新阅读网页会太慢且贵。 

：让 AI 充当“代码生成器”。第一次运行时，让 AI 根据网页结构

 CSS Selector 或 XPath 代码。后续运行时，优先使用这些传统规则进行毫秒级抓取；一旦规则失效（抛出异常），再唤醒 AI 重新分析网页并

结语：AI 不会消灭爬虫，而是让爬虫“升维”

传统的爬虫工程师是在和网页的 DOM 结构“肉搏”，而 AI 时代的开发者是在

 的组合，我们将繁琐的 DOM 解析、反爬对抗、数据清洗全部交给了 AI 和现代浏览器内核。这不仅让开发效率提升了十倍以上，更让抓取“非结构化主观数据”（如情感倾向、核心观点总结）成为可能。

打开你的编辑器，找一个你一直想抓但嫌麻烦没动手的网站，用这段代码给它一点“AI 震撼”吧！

在 2026 年的 AI 时代，爬虫的范式已经彻底改变。  我们不再需要教计算机“怎么找（规则）”，而是直接告诉 AI“我要什么（意图）”。通过结合浏览器自动化技术（Playwright）与大语言模型（LLM），我们可以打造出能够像人类一样“阅读和理解”网页的 Web Agent（网页智能体）。

极客实战：告别 XPath 与正则，用 Python + AI 打造“看懂网页”的智能爬虫

架构设计

"2026年AI爬虫技术革新：结合Playwright与LLM实现智能网页抓取。无需复杂规则，AI自动理解网页语义并提取结构化数据。教程涵盖HTML降维、动态渲染处理及JSON输出，突破传统爬虫局限。附Python实战代码，实现科技新闻自动抓取与中文摘要生成，提升数据采集效率10倍以上。"

结构化数据

数据分析

数据清洗

数据隐私

智能体

Python

Agent

JSON

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

极客实战：告别 XPath 与正则，用 Python + AI 打造“看懂网页”的智能爬虫

极客实战：告别 XPath 与正则，用 Python + AI 打造“看懂网页”的智能爬虫

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐