你写 XPath 写得想辞职了吗?

有次我接了个活,要搞一个化学产品销售站的采集。看着简单,点开一看,全是暗藏杀机:有的产品页面是静态表格,有的是动态 div 嵌套,甚至还有直接用 Canvas 渲染信息的。

我当时真觉得这网站设计师怕不是以前干动画出身的,这 UI 整得比电商还潮。为了一页数据,我写了一堆 Selenium + XPath,还加了 sleep,调到快吐。

那会我真就想,如果有个能理解网页内容的“爬虫助手”,让我说一句“把 CAS 编号和价格提出来”,它就能自己看页面结构、自己定位节点,甚至能看懂 JavaScript,那我不就解脱了吗?

直到我用上了 Crawl4AI,它跟传统爬虫最大不同就是:它真的是个“懂网页的 AI”。你不用跟它讲标签路径,它听人话,像“从页面主表格提取产品纯度和价格”这种指令,它能听懂还能干事。

它怎么用?你说事,它干活

给大家捋一遍实际用法。比如我要抓一个产品详情页里,常规的字段:CAS 编号、纯度、价格、分子式这些,以前你得自己写正则或 XPath,不小心碰到异步加载还得上 JS 驱动。

现在,用 Crawl4AI 加 DeepSeek,大概就是这样:

from crawl4ai import AsyncWebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel

class Product(BaseModel):
    CASNo: str
    size: str
    price: str
    stock: str
    purity: str
    MF: str
    MW: str
    SMILES: str

然后定义一个策略,让 AI 知道你想抓啥字段:

strategy = LLMExtractionStrategy(
    provider="deepseek/deepseek-chat",
    api_token="你的API密钥",
    schema=Product.model_json_schema(),
    extraction_type="schema",
    instruction="从页面主表格提取出产品的 CASNo、purity、MF、MW、SMILES、size、price、stock",
    chunk_token_threshold=1000,
    apply_chunking=True,
    input_format="markdown",
)

然后就是让爬虫跑:

async def run():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://某化学站点地址.com/product-detail",
            extraction_strategy=strategy
        )
        print(result.extracted_content)

你看,全程没有 XPath、没有正则匹配、甚至不需要关注 DOM 树,你直接告诉它“我要这些字段”,它自己搞定。

这时候我脑子里只有一个想法:这不就是我理想中的自动化采集吗?我说我要什么,它就去挖,AI 给我当爬虫专家,这效率真不是一般的爽。

至于 DeepSeek 模型这边,注册获取 API key 是需要走一下流程的,据说官网 API 服务目前有些限制,这边推荐两个超稳定的渠道,大家自行获取。

腾讯云:https://curl.qcloud.com/T3M5yBHp

硅基流动(SiliconCloud):https://cloud.siliconflow.cn/i/VXZzAOed

动态网页?那也不是问题

以前一遇到动态内容,比如页面初始不加载,滚动后才加载表格,我就知道麻烦来了,得加 JS 执行、手动等待、监听节点、处理超时……Crawl4AI 这方面简直就是给我发福利了,它可以执行 JavaScript,也能设置等待条件,代码长这样:

result = await crawler.arun(
    url="https://动态内容站点.com",
    js_code="window.scrollTo(0, document.body.scrollHeight);",
    wait_for="document.querySelector('.loaded')"
)

意思就是你告诉它:先滚动到底,再等某个 class 出现,它就会照做,然后才开始提取。这种原来要调半天的步骤,现在一句 JS + 一个 selector 就搞定了。以前我要调一天才能稳定运行的东西,现在五分钟部署好。

我这时候真有点感慨:就像你以前要自己打水煮饭,现在你只是点点外卖,饭和汤都一起到了。

它配置有多灵活?

除了提取数据能力很强,我还特别喜欢它的一个点:容错机制做得好。你知道爬虫最怕的其实不是网页结构变,而是变了你还没发现,它就默默给你爬了一堆“None”,最后存库还不报错,排查起来跟开盲盒一样。

Crawl4AI 对这块的日志和异常提示做得很细,比如你可以 try-catch 捕获:

try:
    result = await crawler.arun(url="https://任意页面.com")
except Exception as e:
    print("爬虫崩了,兄弟来看一下是啥情况:", e)

或者你还能定义钩子函数,在每一步执行前后加点逻辑,比如:

  • 抓取前自动登录账号;
  • 加载 Cookies;
  • 爬完之后自动格式清洗或入库。

它不是简单给你一个黑盒,而是允许你自定义流程,尤其适合稍微复杂一点的爬虫任务场景。比起传统爬虫那种“遇事只能打印 log + debug”的方式,这种方式更像一个可以自定义的工作流引擎,灵活得让人放心。

Deepseek 真能提准?

我随手找了一个目标站点:ChemShuttle,这是个卖化学合成品的网站,页面表格长得挺复杂,有隐藏字段、动态加载,还有一些用 JS 合并显示的部分。我心想,这 Deepseek 要是真能吃下这页面,那我以后爬虫就能躺了。

我给它下达的指令是:“提取产品的 CAS 编号、纯度、分子式、分子量、SMILES 表达式、价格、库存”,然后就静静等它处理……最后它给我返回了这么一段 JSON:

[
  {
    "CASNo": "269398-78-9",
    "size": "1g",
    "price": "$150.00",
    "stock": "Typically in stock",
    "purity": "95%",
    "MF": "C25H22N2O6",
    "MW": "446.459",
    "SMILES": "OC(=O)C[C@@H]..."
  }
]

我一看这个格式,眼泪都要下来了,不仅字段全都提到了,关键是字段值也很准,格式规整。换成以前我爬一次得调好几个小时 XPath,然后还要手动清洗字段名和单位,结果现在五分钟输出数据库级别结构。

你要说它完美我倒不至于夸,但我可以负责任地说:它提的这个质量,已经完全够用,甚至可以直接丢给数据分析师用了,不用你二次加工。这不就是我们搞爬虫的人一直梦想的场景么?

最后

现在回头看,Crawl4AI + DeepSeek 这组合,确实让我有一种“终于不靠体力劳动赚钱”的感觉。以往我写个小项目,要整三天抓数据,前两天在写 XPath 和调结构,最后一天才能处理内容,现在换成 AI 帮我看页面,我只管告诉它我要什么字段,它不仅帮我找到,还能帮我格式化。

它不是一个传统意义上的爬虫框架,更像是“你说话,它干活”的网页助手,对于数据工作者来说,效率提升不是一点半点。就算你不搞爬虫,单纯需要从页面提点结构化信息出来,它也值得一试。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐