
DeepSeek上线类o1模型——DeepSeek-R1-Lite
2024年11月20日,DeepSeek全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。可登录官方网页 (chat.deepseek.com),开启与 R1-Lite 的对话体验。该模型采用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,
2024年11月20日,DeepSeek全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。
可登录官方网页 (chat.deepseek.com),开启与 R1-Lite 的对话体验。
该模型采用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。
该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。
效果
分别公布了在6个评测集上,与其他5个模型的比较,同时添加了评估方式(例如AIME的 pass@1),整体看下来算公正。
以下是kimi k0-math的评估集结果:
评估集、数值出入较大,不太好比。
但以o1-preview的AIME的分数作为锚点,在AIME上,k0-math弱于o1-preview,而o1-preview弱于DeepSeek-R1-Lite 。可以初步推理出k0-math弱于DeepSeek-R1-Lite。
不仅如此,DeepSeek-R1-Lite已经上线,而k0-math不知道啥时候上线,只看到PR文。。。
测试
“DeepSeek”中有几个e
开场暴击
考研题
中间有一大串思维链过程,很适合模型蒸馏hhh
从思维链中看到,有一些自我反思过程
更多推荐
所有评论(0)