0到1【gemini使用教程】

详细介绍了Google Gemini的使用教程，分为普通用户和开发者两部分。普通用户可通过网页版直接对话，支持文本生成、图像理解、语音输入和联网搜索功能。开发者可通过API密钥集成Gemini到应用程序中，提供了Python代码示例实现文本交互、图片处理和多轮对话。文章还讲解了核心模型、安全设置、文件处理及最佳实践，包括错误处理、速率限制和API密钥安全等注意事项。建议参考官方文档获取最新信息。

aolicloud

2580人浏览 · 2025-11-22 15:01:52

aolicloud · 2025-11-22 15:01:52 发布

Gemini 使用教程，将从最简单的方式开始，逐步深入

第一部分：最简单的方式 - 直接对话

对于大多数普通用户，最快体验 Gemini 的方式就是直接与它对话。

访问 Bard（现已更名为 Gemini）：
- 前往 https://gemini.google.com/
- 确保你使用你的 Google 账户登录。
开始聊天：
- 在输入框中直接输入你的问题或指令，就像和我聊天一样。
- Gemini 支持多模态输入。你可以点击输入框旁的上传文件或图片图标，上传图像并询问相关问题。
  - 例如：上传一张花的照片，问它“这是什么花？”
  - 例如：上传一张表格的截图，让它“帮我提取这个表格中的数据”。
主要功能：
- 文本生成与对话：写邮件、写代码、头脑风暴、翻译等。
- 图像理解：描述图片、从图片中提取文字、解答图片相关的问题。
- 语音输入：在移动端 App 上可以使用语音输入。
- 联网搜索：确保开启 Google 搜索 选项，它可以获取最新信息。

第二部分：面向开发者 - 使用 API

如果你想在自己的应用程序（如 Python 脚本、网站等）中集成 Gemini，需要使用其 API。

步骤 1：获取 API 密钥

访问 Google AI Studio：https://aistudio.google.com/
使用你的 Google 账户登录。
点击 Get API key（获取 API 密钥）按钮。
创建一个新的 API 密钥并妥善保存。（注意：不要泄露这个密钥！）

步骤 2：安装 SDK

以 Python 为例，首先安装官方库：

bash

pip install google-generativeai

步骤 3：基础代码示例

示例 1：纯文本交互

python

import google.generativeai as genai

# 1. 配置你的 API 密钥
genai.configure(api_key="YOUR_API_KEY") # 将 YOUR_API_KEY 替换为你的真实密钥

# 2. 选择模型（这里使用 gemini-pro 进行文本生成）
model = genai.GenerativeModel('gemini-pro')

# 3. 生成内容
response = model.generate_content("用简单的语言解释一下人工智能是什么？")

# 4. 打印结果
print(response.text)

示例 2：图片交互（多模态）

python

import google.generativeai as genai
import PIL.Image

# 配置 API 密钥
genai.configure(api_key="YOUR_API_KEY")

# 选择支持多模态的模型（gemini-pro-vision）
model = genai.GenerativeModel('gemini-pro-vision')

# 加载一张本地图片
img = PIL.Image.open('path_to_your_image.jpg') # 将 path_to_your_image.jpg 替换为你的图片路径

# 根据图片生成描述
response = model.generate_content(["请描述这张图片里有什么", img])

print(response.text)

示例 3：多轮对话（Chat）

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# 创建模型并开启聊天会话
model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])

# 第一轮
response = chat.send_message("你好，我的名字是小明。")
print(response.text)

# 第二轮，模型会记住上下文
response = chat.send_message("还记得我叫什么名字吗？")
print(response.text)

# 查看完整的聊天历史
for message in chat.history:
    print(f'{message.role}: {message.parts[0].text}')

第三部分：核心概念与技巧

1. 主要模型介绍

gemini-pro：优化的文本生成模型，适用于各种文本任务。
gemini-pro-vision：支持文本和图像输入的多模态模型。
embedding-001：用于生成文本嵌入向量，适用于搜索、聚类等。

2. 安全设置

Gemini API 内置了安全过滤器，你可以根据需要调整，以避免生成有害内容。

python

generation_config = {
    "temperature": 0.9,      # 控制随机性 (0.0 ~ 1.0)，值越高回答越随机/有创意
    "top_p": 0.8,
    "top_k": 40,
    "max_output_tokens": 2048, # 限制回答的最大长度
}

model = genai.GenerativeModel(
    'gemini-pro',
    generation_config=generation_config
)

3. 处理文件

除了本地图片，你还可以直接从网络加载图片。

python

import requests
from PIL import Image

url = "https://example.com/some-image.jpg"
img = Image.open(requests.get(url, stream=True).raw)
# ... 之后的使用方法与示例2相同

第四部分：最佳实践与注意事项

错误处理：你的代码应该处理可能出现的异常（如 API 调用失败、内容被安全策略阻止等）。
速率限制：免费版 API 有调用次数限制，请注意查看 AI Studio 中的配额信息。
内容安全：不要在代码中硬编码 API 密钥。应该使用环境变量或安全的密钥管理服务。

python
```
import os
api_key = os.getenv('GEMINI_API_KEY')
genai.configure(api_key=api_key)
```
保持更新：Gemini 模型和 SDK 在快速迭代，请关注官方文档以获取最新信息。