RTX3060 12G实测qwen3embedding-0.6B/4B向量化速度

模型精度:原始版本,BF16

输入文本长度:10字以内

遍历269条文本进行向量化

指标/模型参数量 0.6B 4B
显存占用 3.2G 11.8G

总耗时(秒)

11.62 270
速度(秒/每条) 0.04 1

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐