DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,总部位于中国杭州。 由中国知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型(LLM)和相关技术。

发展历程:
• 2023年11月29日:发布了DeepSeek LLM系列模型,包含7B和67B参数的Base和Chat版本。 这些模型在多项评测中表现出色,尤其在开源LLM领域表现突出。
• 2024年5月:推出第二代MoE大模型DeepSeek-V2,在性能上比肩GPT-4 Turbo,但价格仅为其百分之一,因此被称为“AI界的拼多多”。 
• 2024年12月:发布了DeepSeek-V3模型,通过在算法、框架和硬件方面的协同优化,实现了经济高效的训练成本。 
• 2025年1月20日:推出了推理模型DeepSeek-R1,其性能接近OpenAI的o1模型,且完全开源,再次引起全球关注。 

技术优势:

DeepSeek在模型架构方面进行了全面创新。其新的MLA(多头潜在注意力)架构将内存使用量减少到仅占最常用MHA架构的5%-13%。此外,专有的DeepSeekMoesParse结构最大限度地降低了计算成本,从而显著降低了成本。 

开源策略:

DeepSeek采用完全开源策略,降低了用户使用门槛,促进了AI开发者社区的协作生态。 

全球影响:

DeepSeek的发布引发了全球AI领域的震动,甚至导致美国芯片巨头英伟达(NVIDIA)股价暴跌约17%,引发市场广泛关注。 

总之,DeepSeek以其创新的技术和开源策略,正在推动人工智能领域的发展,值得持续关注。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐