初学者如何用 deepseek 写第一个爬虫
1. 查看 `robots.txt`:访问 `https://www.deepseek.com/robots.txt` 查看允许爬取的页面。API优先:如果目标网站提供API(如DeepSeek可能有官方接口),优先使用API获取数。print(f"请求失败,状态码:{response.status_code}")详细教程:https://pan.quark.cn/s/0c54472847fc。#
详细教程:https://pan.quark.cn/s/0c54472847fc
Step 1:环境准备
安装必要库
bash
pip install requests beautifulsoup4
Step 2:基础爬虫代码
import requests
from bs4 import BeautifulSoup
# 1. 定义目标网址(示例:DeepSeek官网)
url = "https://www.deepseek.com"
# 2. 发送HTTP GET请求(添加headers模拟浏览器)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
# 3. 检查请求是否成功
if response.status_code == 200:
# 4. 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 5. 提取数据(示例:提取所有标题)
titles = soup.find_all('h1') # 根据实际HTML结构调整标签和类名
# 6. 打印结果
for title in titles:
print(title.text.strip())
else:
print(f"请求失败,状态码:{response.status_code}")
Step 3:数据存储(可选)
将结果保存到 CSV 文件:
import csv
# 接上述代码
with open('titles.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['标题'])
for title in titles:
writer.writerow([title.text.strip()])
Step 4:遵守爬虫规则
1. 查看 `robots.txt`:访问 `https://www.deepseek.com/robots.txt` 查看允许爬取的页面。
2. 设置请求间隔:避免高频请求,添加延时:
import time
time.sleep(1) # 每次请求后暂停1秒
3. 尊重版权:仅爬取公开数据,不用于商业用途。
针对动态内容(如JavaScript渲染)
如果目标页面是动态加载的,可使用 `Selenium`:
```python
from selenium import webdriver
driver = webdriver.Chrome()
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
# 后续解析步骤同上
注意事项
法律合规:确保爬虫行为符合目标网站条款和当地法律法规。
反爬机制:部分网站可能有验证码或IP封锁,需谨慎处理。
API优先:如果目标网站提供API(如DeepSeek可能有官方接口),优先使用API获取数
通过以上步骤,可以完成一个基础爬虫。实际项目中需根据目标网站结构调整解析逻辑。
更多推荐


所有评论(0)