【晓天衡宇·评测社区】前沿物理推理-材料晶体榜单正式发布，Gemini、Claude、GPT谁才是材料届的最强大脑？

本榜单以CrystalXRD-Bench为核心评测基准，对7款全球顶尖大模型在前沿物理方面的相关能力进行探索。CrystalXRD-Bench 是面向材料科学领域的 XRD 衍射图谱理解评测基准，评估模型从理论合成 XRD 图像中识别 Miller 指数（HKL）的能力。【查看完整榜单】👉🏻。

晓天衡宇·评测社区

355人浏览 · 2026-04-21 10:14:39

晓天衡宇·评测社区 · 2026-04-21 10:14:39 发布

【榜单简介】

本榜单以CrystalXRD-Bench为核心评测基准，对7款全球顶尖大模型在前沿物理方面的相关能力进行探索。

CrystalXRD-Bench 是面向材料科学领域的 XRD 衍射图谱理解评测基准，评估模型从理论合成 XRD 图像中识别 Miller 指数（HKL）的能力。

【查看完整榜单】👉🏻https://skylenage.net/sla/leaderboard

【参评模型】

【评测集解读】

评测维度

输入：pymatgen理论合成的XRD粉末衍射谱图像
输出：最高衍射峰对应的Miller指数（HKL）集合，JSON格式
真值（GT）构建：CIF → pymatgen计算理论峰 → argmax定位最大峰 → ±0.30°容差内所有HKL的并集

数据标准

从10个材料数据库的1,936候选池中经KMeans聚类抽样，最终选取250个代表性样本（每库25条）。

难度分布：Easy（86）/ Medium（79）/ Hard（85），按最大峰对应HKL并集大小（Union Size）划分。

【评分标准】

【榜单速览】

👉【获取完整榜单】
此处仅展示综合评分前五名预览，查看完整排名以及细分维度的详细对比数据，请访问晓天衡宇•评测社区官网：https://skylenage.net/sla/leaderboard

【榜单结论】

所有模型Overall Jaccard均低于50分，XRD HKL识别对当前VLM仍极具挑战。

Gemini 3.1 Pro以Jaccard 49.54领跑，且Recall最高（83.74）。
惩罚后所有模型Jaccard下降10%–22%，反映普遍存在过度预测。
MOF类数据集表现优于复杂无机结构，难度随Union Size递增显著上升。

【了解更多】

前沿物理-材料晶体已同步上线至晓天衡宇•评测社区官网，欢迎大家访问查看更详细的评测数据：https://skylenage.net/sla/leaderboard

👇关注晓天衡宇•评测社区官方平台，获取更多大模型相关知识~

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

评测集泄漏：为什么离线高分模型上线后掉点30%？

DeepSeek技术社区

DeepSeek系统提示词分层设计：如何用工程手段平衡安全与灵活性

DeepSeek技术社区

INT8 量化上线争议：为什么你的业务团队不敢签字？

DeepSeek技术社区

所有评论(0)

查看更多评论