概要

Gemini 3.1 Pro 是 Google DeepMind 于 2026 年 2 月发布的旗舰模型,ARC-AGI-2 得分 77.1%。该模型从预训练阶段就对文本、图像、音频、视频进行联合训练,不是后期拼接的多模态方案。在 MMMU-Pro 多模态推理基准上取得 75.8% 的成绩,Video-MMMU 视频理解基准得分约 87.6%。上下文窗口扩展至 100 万 token,约等于 70 到 80 万字中文内容。定价与前代相同——每百万输入 token 2 美元,输出 12 美元。

对于国内开发者而言,直接调用 Google API 存在网络限制。 KULAAI(c.877ai.cn)作为 AI 模型聚合平台,支持国内直连、统一接口调用 Gemini 3.1 Pro、GPT-5.5、Claude、DeepSeek 等多个主流大模型,一个 Key 即可完成多模型切换。本文将从多模态输入的四种类型出发,讲解 Gemini 3.1 Pro 的多模态开发入门实践。


整体架构流程

Gemini 3.1 Pro 的多模态处理架构与传统"文本模型+视觉编码器"的拼接方案有本质区别:

text

text
输入(文本/图像/音频/视频)  ↓  统一 Tokenizer  ↓  同质 Token 序列  ↓  MoE Transformer  (门控网络 → 专家子网络路由)  ↓  统一解码输出 

传统方案的做法是先训练一个文本模型,再训练一个视觉模型,然后把它们接到一起。这种方式的问题是不同模态之间的理解是割裂的。Gemini 从一开始就对不同模态进行预训练,再用额外的多模态数据进行微调。模型从底层就学会了"看"和"读"是同一件事。

调用方式统一使用 generate_content 接口,通过构造不同类型的 content 对象传入多模态数据:

python

python
from google import genai  client = genai.Client(api_key="YOUR_API_KEY")  # 纯文本 response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents="解释一下什么是微服务架构" )  # 图片+文本 from google.genai import types import pathlib  response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_image(types.Image.from_file("diagram.png")),  "描述这张架构图中的组件关系"  ] ) 

技术名词解释

原生多模态(Native Multimodal) Gemini 3.1 Pro 的核心设计理念。文本、图像、音频、视频在模型内部被转化为同质的 Token 序列进行处理。不是在文本模型上嫁接视觉模块,而是从预训练阶段就联合训练。这让模型能精准关联不同模态之间的语义关系。

MoE(混合专家架构) Gemini 3.1 Pro 的底层架构。模型内部包含多个专家子网络,推理时门控网络根据输入语义将 token 路由到最合适的专家。只激活部分专家,用更少的计算量达到同等效果,这是定价能保持在 2 美元/百万输入 token 的技术基础。

MMMU-Pro 多模态理解和推理基准测试,涵盖科学、技术、工程、数学等多个领域的图表和图像理解任务。Gemini 3.1 Pro 取得 75.8% 的成绩。

Video-MMMU 视频理解基准测试。Gemini 3.0 Pro 得分约 87.6%,3.1 Pro 在此基础上进一步提升。目前主流大模型中只有 Gemini 支持直接视频输入。

1M Context Window 100 万 token 的上下文窗口,约等于 70 到 80 万字中文内容。一个平均长度的小说约 100K tokens,一个大型代码库约 500K tokens,20 篇研究论文约 400K tokens。1M 上下文能同时处理这些内容。

低媒体分辨率功能(Low Media Resolution) 在性能损失极小的情况下,将每帧视频的视觉 token 从 258 个锐减到 66 个。这意味着 200 万 token 限制下,以前能处理 2 小时的视频,现在能处理长达 6 小时。


技术细节

一、图片输入

Gemini 3.1 Pro 支持通过文件路径、URL 或 base64 编码三种方式传入图片。

python

python
# 方式一:本地文件 from google.genai import types  image = types.Image.from_file("product.jpg") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[image, "识别图片中的商品并生成描述"] )  # 方式二:URL import httpx image_data = httpx.get("https://example.com/chart.png").content image = types.Image(image=image_data, mime_type="image/png")  # 方式三:Base64 import base64 with open("screenshot.png", "rb") as f:  encoded = base64.b64encode(f.read()).decode() image = types.Image(image=base64.b64decode(encoded), mime_type="image/png") 

注意事项:每 100KB 图像数据使输出 token 硬上限自动下调 128 tokens。建议传入前压缩图片到合理大小。倾斜角度超过 30 度的文字识别精度会下降,光线不足或分辨率较低的图片效果打折扣。

二、PDF 输入

Gemini 3.1 Pro 支持直接传入 PDF 文件,不需要先 OCR 再处理。模型具备"原生视觉"能力,支持处理最多 3000 个 PDF 文件,每个文件上限 1000 页或 50MB。

python

python
from google.genai import types  pdf_path = pathlib.Path("technical_report.pdf") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_bytes(data=pdf_path.read_bytes(), mime_type="application/pdf"),  "提取这份报告中的核心数据和关键结论"  ] ) 

PDF 视觉引用精度 IoU 达到 0.804,远超 GPT-4o 的 0.223 和 Claude 的 0.210。这意味着模型不仅能提取文字内容,还能理解图表、表格和整体排布。

传统 PDF 解析工具(Adobe Acrobat、PyPDF2)在面对学术论文的三栏排版或财务报表的嵌套图表时常常失效。Gemini 通过构建文档的二维位置编码,将每个字符的空间坐标转化为向量表示,真正"看见"文字在页面中的物理排布。

三、视频输入

这是 Gemini 3.1 Pro 和其他模型拉开差距最大的地方。GPT-5.5 支持图片但不支持视频,Claude 支持图片和 PDF 但不支持视频。

python

python
# 上传视频文件 video_file = client.files.upload(file="demo_video.mp4")  # 等待处理完成 import time while video_file.state.name == "PROCESSING":  time.sleep(5)  video_file = client.files.get(name=video_file.name)  # 分析视频内容 response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  video_file,  "按时间线列出这个视频中的每个操作步骤"  ] ) 

视频处理是异步的。1 分钟的视频大约需要 30 秒处理,10 分钟的视频可能需要几分钟。低媒体分辨率功能让每帧视频的视觉 token 从 258 个减到 66 个,6 小时长视频处理成为可能。

时序推理能力突出。模型能精准识别长视频中的特定片段并给出带时间戳的描述。在一个 10 分钟的演讲视频中,它能准确识别出 16 个与产品演示相关的不同片段。

四、音频输入

Gemini 3.1 Pro 支持直接传入音频文件进行理解和分析。支持的格式包括 WAV、MP3、FLAC 等常见音频格式。

python

python
audio_path = pathlib.Path("meeting_recording.wav") response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Part.from_bytes(data=audio_path.read_bytes(), mime_type="audio/wav"),  "提取这段会议录音中的讨论要点和待办事项"  ] ) 

音频转文字的精度取决于音频质量和说话人口音。背景噪音较大的录音建议先做降噪预处理。

五、多模态混合输入

实际项目中经常需要同时传入多种模态的数据。Gemini 3.1 Pro 支持在一次请求中混合传入文本、图片、PDF、视频、音频。

python

python
response = client.models.generate_content(  model="gemini-3.1-pro-preview",  contents=[  types.Image.from_file("architecture.png"),  types.Part.from_bytes(pdf_path.read_bytes(), mime_type="application/pdf"),  "结合这张架构图和这份技术文档,分析系统的瓶颈在哪里"  ] ) 

六、三层思维模式在多模态场景下的应用

Gemini 3.1 Pro 的三层思维模式(Low/Medium/High)在多模态场景下非常实用。

模式 响应时间 适用场景 成本
Low ~1 秒 图片快速识别、简单 OCR 最低
Medium ~3 秒 PDF 深度分析、图表理解 中等
High ~5 秒 视频内容理解、跨文档推理 较高

同一个任务 Low 和 High 的准确率差距可达 21 个百分点。图片识别用 Low 模式快速返回结果,PDF 深度分析用 Medium 模式平衡速度和质量,视频理解和跨文档推理用 High 模式保证准确性。

七、API 定价

模型 输入 (每 1M tokens) 输出 (每 1M tokens)
Gemini 3.1 Pro $2.00 $12.00
GPT-5.5 $5.00 $30.00
Claude Opus 4.6 $15.00 $75.00

多模态输入的 Token 计算方式:文本按字符数计算,图片按分辨率和大小计算(每 100KB 约消耗一定量的视觉 token),视频按帧数和分辨率计算。低媒体分辨率功能可以大幅降低视频处理的 Token 消耗。


小结

Gemini 3.1 Pro 的多模态能力不是简单的功能叠加,而是架构层面的统一。从预训练阶段就对文本、图像、音频、视频进行联合训练,这让不同模态之间的语义关联比拼接方案更紧密。

入门开发需要注意几个要点:图片传入前压缩大小以控制 Token 消耗,PDF 可以直接传入不需要预处理,视频处理是异步的需要等待,多模态混合输入时注意上下文窗口的使用量。三层思维模式在多模态场景下尤其有价值——简单图片识别用 Low 模式省成本,复杂视频分析用 High 模式保质量。

对于国内开发者,建议先在聚合平台上验证多模态调用流程和输出质量,对比不同模型在自己场景下的表现,再决定投入方向。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐