【晓天衡宇·评测社区】前沿化学-真实科研场景解析分子结构评测榜单正式发布,Gemini仍是最佳科研搭档?
本榜单以MolQuest为核心评测基准,评估19款大模型从实验表征信息推断分子结构的能力。MolQuest是面向化学分子结构解析任务的动态推理能力评测基准,共包含 530 条分子结构解析评测任务,所有任务数据均提取自 2025 年以来发表的化学领域开源的高质量学术文献并经严格实验验证,采用模型抽取 + 专家双重校验的标准化流程完成构建。【查看完整榜单】👉🏻。
【榜单简介】
本榜单以MolQuest为核心评测基准,评估19款大模型从实验表征信息推断分子结构的能力。
MolQuest是面向化学分子结构解析任务的动态推理能力评测基准,共包含 530 条分子结构解析评测任务,所有任务数据均提取自 2025 年以来发表的化学领域开源的高质量学术文献并经严格实验验证,采用模型抽取 + 专家双重校验的标准化流程完成构建。
【参评模型】

【评测集解读】
评测维度
采用不同维度的指标进行评估,对模型在动态交互(Agent)和静态单轮(Baseline)两种配置下的表现分别统计,同时结合模型交互效率与成本效益进行综合评价,所有指标均基于模型输出结果与真实标注的对比计算。
数据标准
评测为化学分子结构解析任务的动态推理能力评测,共530条分子结构解析任务,覆盖分子量150-500 Da的分子,包含羰基、羟基、芳香环、含氮杂环等多样官能团及手性中心,保留真实实验数据的噪声、峰重叠、信息缺口等固有特征,有效规避数据污染风险。
【评分标准】
-
把结构准确率(Structure Accuracy)作为核心成功指标,衡量模型预测分子结构与真实结构的完全匹配度。
-
如果预测的SMILES字符串与真实标注的SMILES字符串经规范处理后完全一致,计为正确,否则为错误,统计正确数占总案例数的百分比
-
各核心能力指标均以百分比(%)为基础呈现,交互效率指标为原始量化数值,所有指标均保留两位小数,无需额外进行0-100折算,可直接用于不同模型间的横向对比及综合能力评估。
【榜单速览】

【榜单结论】
Google Gemini 系列的领先优势明显,gemini-3-pro 和 gemini-3-flash 的准确率突破了 50% 大关,远超其他模型,这表明其在处理复杂化学逻辑和噪声数据方面具有显著优势,可能是目前化学科研辅助的最佳选择,但在面对复杂手性分子时,目前的顶尖模型仍有约50%的错误率,尚需人工复核。

更多推荐




所有评论(0)