【晓天衡宇·评测社区】前沿物理推理-材料晶体榜单正式发布,Gemini、Claude、GPT谁才是材料届的最强大脑?
本榜单以CrystalXRD-Bench为核心评测基准,对7款全球顶尖大模型在前沿物理方面的相关能力进行探索。CrystalXRD-Bench 是面向材料科学领域的 XRD 衍射图谱理解评测基准,评估模型从理论合成 XRD 图像中识别 Miller 指数(HKL)的能力。【查看完整榜单】👉🏻。
【榜单简介】
本榜单以CrystalXRD-Bench为核心评测基准,对7款全球顶尖大模型在前沿物理方面的相关能力进行探索。
CrystalXRD-Bench 是面向材料科学领域的 XRD 衍射图谱理解评测基准,评估模型从理论合成 XRD 图像中识别 Miller 指数(HKL)的能力。
【查看完整榜单】👉🏻https://skylenage.net/sla/leaderboard
【参评模型】

【评测集解读】
评测维度
-
输入:pymatgen理论合成的XRD粉末衍射谱图像
-
输出:最高衍射峰对应的Miller指数(HKL)集合,JSON格式
-
真值(GT)构建:CIF → pymatgen计算理论峰 → argmax定位最大峰 → ±0.30°容差内所有HKL的并集
数据标准
从10个材料数据库的1,936候选池中经KMeans聚类抽样,最终选取250个代表性样本(每库25条)。

难度分布:Easy(86)/ Medium(79)/ Hard(85),按最大峰对应HKL并集大小(Union Size)划分。
【评分标准】

【榜单速览】

👉【获取完整榜单】
此处仅展示综合评分前五名预览,查看完整排名以及细分维度的详细对比数据,请访问晓天衡宇•评测社区官网:https://skylenage.net/sla/leaderboard
【榜单结论】
所有模型Overall Jaccard均低于50分,XRD HKL识别对当前VLM仍极具挑战。
-
Gemini 3.1 Pro以Jaccard 49.54领跑,且Recall最高(83.74)。
-
惩罚后所有模型Jaccard下降10%–22%,反映普遍存在过度预测。
-
MOF类数据集表现优于复杂无机结构,难度随Union Size递增显著上升。
【了解更多】
前沿物理-材料晶体已同步上线至晓天衡宇•评测社区官网,欢迎大家访问查看更详细的评测数据:https://skylenage.net/sla/leaderboard
👇关注晓天衡宇•评测社区官方平台,获取更多大模型相关知识~

更多推荐




所有评论(0)