初学者如何用 deepseek 写第一个爬虫

1. 查看 `robots.txt`：访问 `https://www.deepseek.com/robots.txt` 查看允许爬取的页面。API优先：如果目标网站提供API（如DeepSeek可能有官方接口），优先使用API获取数。print(f"请求失败，状态码：{response.status_code}")详细教程：https://pan.quark.cn/s/0c54472847fc。#

xiaoting1227

2199人浏览 · 2025-03-06 16:54:02

xiaoting1227 · 2025-03-06 16:54:02 发布

详细教程：https://pan.quark.cn/s/0c54472847fc

Step 1：环境准备

安装必要库

bash

pip install requests beautifulsoup4

Step 2：基础爬虫代码

import requests

from bs4 import BeautifulSoup

# 1. 定义目标网址（示例：DeepSeek官网）

url = "https://www.deepseek.com"

# 2. 发送HTTP GET请求（添加headers模拟浏览器）

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

}

response = requests.get(url, headers=headers)

# 3. 检查请求是否成功

if response.status_code == 200:

# 4. 解析HTML内容

soup = BeautifulSoup(response.text, 'html.parser')

# 5. 提取数据（示例：提取所有标题）

titles = soup.find_all('h1') # 根据实际HTML结构调整标签和类名

# 6. 打印结果

for title in titles:

print(title.text.strip())

else:

print(f"请求失败，状态码：{response.status_code}")

Step 3：数据存储（可选）

将结果保存到 CSV 文件：

import csv

# 接上述代码

with open('titles.csv', 'w', newline='', encoding='utf-8') as f:

writer = csv.writer(f)

writer.writerow(['标题'])

for title in titles:

writer.writerow([title.text.strip()])

Step 4：遵守爬虫规则

1. 查看 `robots.txt`：访问 `https://www.deepseek.com/robots.txt` 查看允许爬取的页面。

2. 设置请求间隔：避免高频请求，添加延时：

import time

time.sleep(1) # 每次请求后暂停1秒

3. 尊重版权：仅爬取公开数据，不用于商业用途。

针对动态内容（如JavaScript渲染）

如果目标页面是动态加载的，可使用 `Selenium`：

```python

from selenium import webdriver

driver = webdriver.Chrome()

driver.get(url)

html = driver.page_source

soup = BeautifulSoup(html, 'html.parser')

# 后续解析步骤同上

注意事项

法律合规：确保爬虫行为符合目标网站条款和当地法律法规。

反爬机制：部分网站可能有验证码或IP封锁，需谨慎处理。

API优先：如果目标网站提供API（如DeepSeek可能有官方接口），优先使用API获取数

通过以上步骤，可以完成一个基础爬虫。实际项目中需根据目标网站结构调整解析逻辑。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

企业微信如何使用deepseek-最简单的方法

DeepSeek技术社区

deepseek 关闭思考，在ollama中，在代码中

deepseek 关闭思考，在ollama中，在代码中

DeepSeek技术社区

cover

第38次CCF-CSP认证——月票发行（chatgpt5 vs deepseekv3.1）

DeepSeek技术社区

所有评论(0)

查看更多评论

xiaoting1227

已为社区贡献3条内容