【晓天衡宇·评测社区】前沿化学-真实科研场景解析分子结构评测榜单正式发布，Gemini仍是最佳科研搭档？

本榜单以MolQuest为核心评测基准，评估19款大模型从实验表征信息推断分子结构的能力。MolQuest是面向化学分子结构解析任务的动态推理能力评测基准，共包含 530 条分子结构解析评测任务，所有任务数据均提取自 2025 年以来发表的化学领域开源的高质量学术文献并经严格实验验证，采用模型抽取 + 专家双重校验的标准化流程完成构建。【查看完整榜单】👉🏻。

晓天衡宇·评测社区

325人浏览 · 2026-04-24 10:23:30

晓天衡宇·评测社区 · 2026-04-24 10:23:30 发布

【榜单简介】

本榜单以MolQuest为核心评测基准，评估19款大模型从实验表征信息推断分子结构的能力。

MolQuest是面向化学分子结构解析任务的动态推理能力评测基准，共包含 530 条分子结构解析评测任务，所有任务数据均提取自 2025 年以来发表的化学领域开源的高质量学术文献并经严格实验验证，采用模型抽取 + 专家双重校验的标准化流程完成构建。

【参评模型】

【评测集解读】

评测维度

采用不同维度的指标进行评估，对模型在动态交互（Agent）和静态单轮（Baseline）两种配置下的表现分别统计，同时结合模型交互效率与成本效益进行综合评价，所有指标均基于模型输出结果与真实标注的对比计算。

数据标准

评测为化学分子结构解析任务的动态推理能力评测，共530条分子结构解析任务，覆盖分子量150-500 Da的分子，包含羰基、羟基、芳香环、含氮杂环等多样官能团及手性中心，保留真实实验数据的噪声、峰重叠、信息缺口等固有特征，有效规避数据污染风险。

【评分标准】

把结构准确率（Structure Accuracy）作为核心成功指标，衡量模型预测分子结构与真实结构的完全匹配度。
如果预测的SMILES字符串与真实标注的SMILES字符串经规范处理后完全一致，计为正确，否则为错误，统计正确数占总案例数的百分比
各核心能力指标均以百分比（%）为基础呈现，交互效率指标为原始量化数值，所有指标均保留两位小数，无需额外进行0-100折算，可直接用于不同模型间的横向对比及综合能力评估。

【榜单速览】

【榜单结论】

Google Gemini 系列的领先优势明显，gemini-3-pro 和 gemini-3-flash 的准确率突破了 50% 大关，远超其他模型，这表明其在处理复杂化学逻辑和噪声数据方面具有显著优势，可能是目前化学科研辅助的最佳选择，但在面对复杂手性分子时，目前的顶尖模型仍有约50%的错误率，尚需人工复核。