Gemini31Pro多模态开发入门指南

Google DeepMind推出的Gemini3.1Pro是一款原生多模态AI模型，支持文本、图像、PDF、视频和音频的联合处理。其核心优势在于预训练阶段就进行多模态联合训练，而非后期拼接。模型采用MoE架构，具备100万token上下文窗口，在MMMU-Pro和Video-MMMU基准测试中表现优异。技术特点包括原生PDF解析、长视频处理（支持6小时视频）、低媒体分辨率优化等。API定价为输入

????????eason

348人浏览 · 2026-05-07 15:36:16

????????eason · 2026-05-07 15:36:16 发布

概要

Gemini 3.1 Pro 是 Google DeepMind 于 2026 年 2 月发布的旗舰模型，ARC-AGI-2 得分 77.1%。该模型从预训练阶段就对文本、图像、音频、视频进行联合训练，不是后期拼接的多模态方案。在 MMMU-Pro 多模态推理基准上取得 75.8% 的成绩，Video-MMMU 视频理解基准得分约 87.6%。上下文窗口扩展至 100 万 token，约等于 70 到 80 万字中文内容。定价与前代相同——每百万输入 token 2 美元，输出 12 美元。

对于国内开发者而言，直接调用 Google API 存在网络限制。 KULAAI（c.877ai.cn）作为 AI 模型聚合平台，支持国内直连、统一接口调用 Gemini 3.1 Pro、GPT-5.5、Claude、DeepSeek 等多个主流大模型，一个 Key 即可完成多模型切换。本文将从多模态输入的四种类型出发，讲解 Gemini 3.1 Pro 的多模态开发入门实践。

整体架构流程

Gemini 3.1 Pro 的多模态处理架构与传统"文本模型+视觉编码器"的拼接方案有本质区别：

text

text

输入（文本/图像/音频/视频）  ↓  统一 Tokenizer  ↓  同质 Token 序列  ↓  MoE Transformer  （门控网络 → 专家子网络路由）  ↓  统一解码输出

传统方案的做法是先训练一个文本模型，再训练一个视觉模型，然后把它们接到一起。这种方式的问题是不同模态之间的理解是割裂的。Gemini 从一开始就对不同模态进行预训练，再用额外的多模态数据进行微调。模型从底层就学会了"看"和"读"是同一件事。

调用方式统一使用 generate_content 接口，通过构造不同类型的 content 对象传入多模态数据：

python

python

from google import genai  client = genai.Client(api_key="YOUR_API_KEY")  # 纯文本 response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents="解释一下什么是微服务架构" )  # 图片+文本 from google.genai import types import pathlib  response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_image(types.Image.from_file("diagram.png")),  "描述这张架构图中的组件关系"  ] )

技术名词解释

原生多模态（Native Multimodal） Gemini 3.1 Pro 的核心设计理念。文本、图像、音频、视频在模型内部被转化为同质的 Token 序列进行处理。不是在文本模型上嫁接视觉模块，而是从预训练阶段就联合训练。这让模型能精准关联不同模态之间的语义关系。

MoE（混合专家架构） Gemini 3.1 Pro 的底层架构。模型内部包含多个专家子网络，推理时门控网络根据输入语义将 token 路由到最合适的专家。只激活部分专家，用更少的计算量达到同等效果，这是定价能保持在 2 美元/百万输入 token 的技术基础。

MMMU-Pro 多模态理解和推理基准测试，涵盖科学、技术、工程、数学等多个领域的图表和图像理解任务。Gemini 3.1 Pro 取得 75.8% 的成绩。

Video-MMMU 视频理解基准测试。Gemini 3.0 Pro 得分约 87.6%，3.1 Pro 在此基础上进一步提升。目前主流大模型中只有 Gemini 支持直接视频输入。

1M Context Window 100 万 token 的上下文窗口，约等于 70 到 80 万字中文内容。一个平均长度的小说约 100K tokens，一个大型代码库约 500K tokens，20 篇研究论文约 400K tokens。1M 上下文能同时处理这些内容。

低媒体分辨率功能（Low Media Resolution） 在性能损失极小的情况下，将每帧视频的视觉 token 从 258 个锐减到 66 个。这意味着 200 万 token 限制下，以前能处理 2 小时的视频，现在能处理长达 6 小时。

技术细节

一、图片输入

Gemini 3.1 Pro 支持通过文件路径、URL 或 base64 编码三种方式传入图片。

python

python

# 方式一：本地文件 from google.genai import types  image = types.Image.from_file("product.jpg") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[image, "识别图片中的商品并生成描述"] )  # 方式二：URL import httpx image_data = httpx.get("https://example.com/chart.png").content image = types.Image(image=image_data, mime_type="image/png")  # 方式三：Base64 import base64 with open("screenshot.png", "rb") as f:  encoded = base64.b64encode(f.read()).decode() image = types.Image(image=base64.b64decode(encoded), mime_type="image/png")

注意事项：每 100KB 图像数据使输出 token 硬上限自动下调 128 tokens。建议传入前压缩图片到合理大小。倾斜角度超过 30 度的文字识别精度会下降，光线不足或分辨率较低的图片效果打折扣。

二、PDF 输入

Gemini 3.1 Pro 支持直接传入 PDF 文件，不需要先 OCR 再处理。模型具备"原生视觉"能力，支持处理最多 3000 个 PDF 文件，每个文件上限 1000 页或 50MB。

python

python

from google.genai import types  pdf_path = pathlib.Path("technical_report.pdf") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_bytes(data=pdf_path.read_bytes(), mime_type="application/pdf"),  "提取这份报告中的核心数据和关键结论"  ] )

PDF 视觉引用精度 IoU 达到 0.804，远超 GPT-4o 的 0.223 和 Claude 的 0.210。这意味着模型不仅能提取文字内容，还能理解图表、表格和整体排布。

传统 PDF 解析工具（Adobe Acrobat、PyPDF2）在面对学术论文的三栏排版或财务报表的嵌套图表时常常失效。Gemini 通过构建文档的二维位置编码，将每个字符的空间坐标转化为向量表示，真正"看见"文字在页面中的物理排布。

三、视频输入

这是 Gemini 3.1 Pro 和其他模型拉开差距最大的地方。GPT-5.5 支持图片但不支持视频，Claude 支持图片和 PDF 但不支持视频。

python

python

# 上传视频文件 video_file = client.files.upload(file="demo_video.mp4")  # 等待处理完成 import time while video_file.state.name == "PROCESSING":  time.sleep(5)  video_file = client.files.get(name=video_file.name)  # 分析视频内容 response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  video_file,  "按时间线列出这个视频中的每个操作步骤"  ] )

视频处理是异步的。1 分钟的视频大约需要 30 秒处理，10 分钟的视频可能需要几分钟。低媒体分辨率功能让每帧视频的视觉 token 从 258 个减到 66 个，6 小时长视频处理成为可能。

时序推理能力突出。模型能精准识别长视频中的特定片段并给出带时间戳的描述。在一个 10 分钟的演讲视频中，它能准确识别出 16 个与产品演示相关的不同片段。

四、音频输入

Gemini 3.1 Pro 支持直接传入音频文件进行理解和分析。支持的格式包括 WAV、MP3、FLAC 等常见音频格式。

python

python

audio_path = pathlib.Path("meeting_recording.wav") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_bytes(data=audio_path.read_bytes(), mime_type="audio/wav"),  "提取这段会议录音中的讨论要点和待办事项"  ] )

音频转文字的精度取决于音频质量和说话人口音。背景噪音较大的录音建议先做降噪预处理。

五、多模态混合输入

实际项目中经常需要同时传入多种模态的数据。Gemini 3.1 Pro 支持在一次请求中混合传入文本、图片、PDF、视频、音频。

python

python

response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Image.from_file("architecture.png"),  types.Part.from_bytes(pdf_path.read_bytes(), mime_type="application/pdf"),  "结合这张架构图和这份技术文档，分析系统的瓶颈在哪里"  ] )