【榜单简介】

本榜单以CrystalXRD-Bench为核心评测基准,对7款全球顶尖大模型在前沿物理方面的相关能力进行探索。

CrystalXRD-Bench 是面向材料科学领域的 XRD 衍射图谱理解评测基准,评估模型从理论合成 XRD 图像中识别 Miller 指数(HKL)的能力。

【查看完整榜单】👉🏻https://skylenage.net/sla/leaderboard

【参评模型】

【评测集解读】

评测维度

  • 输入:pymatgen理论合成的XRD粉末衍射谱图像

  • 输出:最高衍射峰对应的Miller指数(HKL)集合,JSON格式

  • 真值(GT)构建:CIF → pymatgen计算理论峰 → argmax定位最大峰 → ±0.30°容差内所有HKL的并集

数据标准

从10个材料数据库的1,936候选池中经KMeans聚类抽样,最终选取250个代表性样本(每库25条)。

难度分布:Easy(86)/ Medium(79)/ Hard(85),按最大峰对应HKL并集大小(Union Size)划分。

【评分标准】

【榜单速览】

👉【获取完整榜单】
此处仅展示综合评分前五名预览,查看完整排名以及细分维度的详细对比数据,请访问晓天衡宇•评测社区官网:https://skylenage.net/sla/leaderboard

【榜单结论】

所有模型Overall Jaccard均低于50分,XRD HKL识别对当前VLM仍极具挑战。

  • Gemini 3.1 Pro以Jaccard 49.54领跑,且Recall最高(83.74)。

  • 惩罚后所有模型Jaccard下降10%–22%,反映普遍存在过度预测。

  • MOF类数据集表现优于复杂无机结构,难度随Union Size递增显著上升。

【了解更多】

前沿物理-材料晶体已同步上线至晓天衡宇•评测社区官网,欢迎大家访问查看更详细的评测数据:https://skylenage.net/sla/leaderboard

👇关注晓天衡宇•评测社区官方平台,获取更多大模型相关知识~ 

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐