详细教程:https://pan.quark.cn/s/0c54472847fc

Step 1:环境准备

安装必要库

bash

pip install requests beautifulsoup4

Step 2:基础爬虫代码

import requests

from bs4 import BeautifulSoup

 

# 1. 定义目标网址(示例:DeepSeek官网)

url = "https://www.deepseek.com"

 

# 2. 发送HTTP GET请求(添加headers模拟浏览器)

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

}

response = requests.get(url, headers=headers)

 

# 3. 检查请求是否成功

if response.status_code == 200:

    # 4. 解析HTML内容

    soup = BeautifulSoup(response.text, 'html.parser')

    

    # 5. 提取数据(示例:提取所有标题)

    titles = soup.find_all('h1') # 根据实际HTML结构调整标签和类名

    

    # 6. 打印结果

    for title in titles:

        print(title.text.strip())

else:

    print(f"请求失败,状态码:{response.status_code}")

Step 3:数据存储(可选)

将结果保存到 CSV 文件:

import csv

 

# 接上述代码

with open('titles.csv', 'w', newline='', encoding='utf-8') as f:

    writer = csv.writer(f)

    writer.writerow(['标题'])

    for title in titles:

        writer.writerow([title.text.strip()])

Step 4:遵守爬虫规则

1. 查看 `robots.txt`:访问 `https://www.deepseek.com/robots.txt` 查看允许爬取的页面。

2. 设置请求间隔:避免高频请求,添加延时:

import time

   time.sleep(1) # 每次请求后暂停1秒

3. 尊重版权:仅爬取公开数据,不用于商业用途。

针对动态内容(如JavaScript渲染)

如果目标页面是动态加载的,可使用 `Selenium`:

```python

from selenium import webdriver

 

driver = webdriver.Chrome()

driver.get(url)

html = driver.page_source

soup = BeautifulSoup(html, 'html.parser')

# 后续解析步骤同上

注意事项

法律合规:确保爬虫行为符合目标网站条款和当地法律法规。

反爬机制:部分网站可能有验证码或IP封锁,需谨慎处理。

API优先:如果目标网站提供API(如DeepSeek可能有官方接口),优先使用API获取数

 

通过以上步骤,可以完成一个基础爬虫。实际项目中需根据目标网站结构调整解析逻辑。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐