
挑战行业巨头:DeepSeek自研3FS,为何不依赖英伟达?
在人工智能(AI)和大数据时代,数据存储和处理的需求日益增长。为了应对这些挑战,DeepSeek公司推出了自研的高性能文件系统3FS(Fire-Flyer File System),旨在为AI训练和推理工作负载提供高效的数据访问解决方案。本文将深入探讨3FS的核心特性、性能表现及其在行业中的影响。
在人工智能(AI)和大数据时代,数据存储和处理的需求日益增长。为了应对这些挑战,DeepSeek公司推出了自研的高性能文件系统3FS(Fire-Flyer File System),旨在为AI训练和推理工作负载提供高效的数据访问解决方案。本文将深入探讨3FS的核心特性、性能表现及其在行业中的影响。
3FS的核心特性
分离式架构
3FS采用了分离式架构,整合了数千块SSD与数百个存储节点的网络带宽。这种设计使得系统能够在不考虑数据局部性的情况下,完成大规模并行存储访问。这种架构的优势在于,它能够充分利用现代SSD和RDMA网络的全部带宽,从而提供高吞吐量和低延迟的数据访问。
强一致性
3FS利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。强一致性是分布式系统中一个重要的特性,它确保了数据的一致性和可靠性,使得开发者可以更加专注于业务逻辑的实现,而不必担心数据一致性问题。
文件接口
3FS基于成熟的元数据服务与事务型键值存储(如FoundationDB),提供了通用而熟悉的文件API。这意味着开发者无需额外学习新协议,即可轻松上手使用3FS。这种设计降低了系统的使用门槛,使得更多的开发者能够快速集成和使用3FS。
性能表现
在一个由180个存储节点组成的大规模集群中(每节点含2×200Gbps InfiniBand网卡与16块14TiB NVMe SSD),3FS在同时运行训练任务的背景流量下,依然实现了约6.6 TiB/s的整体读取吞吐量。这一性能表现使得3FS在实际业务场景中展现出卓越的性能,使其单一集群的表现位居国内前列。
此外,3FS在GraySort基准测试中突破了3.66 TiB/分钟的成绩。在由25个存储节点和50个计算节点构成的集群上,3FS通过两阶段(基于键前缀位的Shuffle分区 + 分区内排序)读取/写入数据,完成了对110.5 TiB数据、8192个分区的排序,仅耗时30分钟14秒,平均吞吐量达到3.66 TiB/分钟。
3FS在AI推理中的应用
在推理场景下,3FS为优化大规模语言模型(LLM)的KVCache查找速度,提供了高吞吐、强一致性的数据访问能力。单个客户端节点峰值可达40+ GiB/s,同时支持高效的垃圾回收操作。这种设计使得3FS在大规模AI推理场景下具有显著优势,能够有效缓解推理对显存容量的要求,从而节省算力,支持更多的计算任务。
行业影响
3FS的出现填补了开源市场在高性能并行文件系统方面的空白。与业界已有的存储系统相比,3FS不仅在性能上表现出色,还在AI训练和推理的全流程优化方面提供了新的思路。例如,3FS通过提供KVCache访问协议,为大规模AI推理场景提供了更具性价比的解决方案,这在业界被视为一个很大的突破。
然而,高性能文件系统的使用和运维门槛相对较高,尤其是3FS这类专有的高性能文件系统。业界应理性看待3FS,在充分理解其工作原理前避免盲目跟进。毕竟,不是所有公司都具备DeepSeek的基础设施和人才储备。
结论
DeepSeek自研的高性能文件系统3FS,通过其分离式架构、强一致性和熟悉的文件接口,为AI训练和推理工作负载提供了高效的数据访问解决方案。其卓越的性能表现和全流程优化能力,使得3FS在实际业务场景中展现出显著优势。尽管3FS的使用和运维门槛较高,但其在开源市场中的出现,无疑为高性能并行文件系统的发展注入了新的活力。
图1:3FS在大型集群中的读取压力测试吞吐情况
图2:3FS的分离式架构示意图
通过以上分析,我们可以看到,3FS不仅在技术上具有创新性,还在实际应用中展现出强大的性能优势。随着AI和大数据技术的不断发展,3FS有望在未来的数据存储和处理领域发挥更加重要的作用。
更多推荐
所有评论(0)