这两天英伟达年度开发者大会黄仁勋在会上表示,外界普遍认为AI的扩展速度正在放缓,但实际上,“几乎整个世界曾经都判断失误了”,他指出,得益于新出现的规模扩展方法和技术,AI的发展速度远超预期。老黄也顺势展示了新一代Blackwell Ultra芯片及2026年即将推出的Rubin架构芯片。当然在2025年过去的快4个月时间,人工智能领域最吸引眼球的还是DeepSeek的混合专家模型(MoE)与Manus的AI Agent平台,他们分别代表了智能的“大脑”与“手脚”,引起了社会广泛的关注和火热的讨论。前者通过工程创新与重构实现认知推理的跃迁,后者通过虚拟机的工具链赋予AI行动能力。我想通过这两者简单介绍下什么是智能,也尝试勾勒下未来AI基座的发展方向与落地场景。我将从“压缩即智能”的原理出发,探讨智能的基础。再看未来AI基座的发展方向——如何在推理过程中实现在线微调、内化有价值知识,以及以先验知识为基地的符号逻辑重构大模型的思维链。最后,从Manu出发,谈谈如何通过虚拟机实现大模型全方位操控电脑和网络,进而弥补大模型与物理世界实时交互的短板。

智能的基础—"压缩"即智能

信息熵是衡量系统不确定性的核心指标。香农在 1948 年提出的信息论指出,任何信息都包含冗余,而压缩的本质是通过去除冗余、保留本质特征来降低信息熵。例如,一段包含重复字符的文本可以通过哈夫曼编码压缩,将高频字符用短码表示,低频字符用长码表示,从而减少存储所需的比特数。这种压缩过程并非简单的删减,而是通过发现数据中的模式和规律,实现信息的高效表示。比如文件压缩过程中我们剔除了冗余数据,这就是我们一般理解的侠义的压缩概念。

我们再看下DIKW(Data-Information-Knowledge-Wisdom)模型,应该不少人都知道的,我们这里只谈下知识定义,它是通过对信息的理解和应用,从信息总结出来的一些规律,形成的经验和洞察,也有基于一些知识作为前提逻辑演绎出来的。比如投资策略、风险管理方案、客户偏好分析这些就算是知识的范畴。这里的总结是将复杂的信息抽象为简单的规则或概念,这就是更广义的压缩概念。

一、压缩的核心

广义压缩的核心是模式识别和规律识别,而模式识别的目标是实现更高效的压缩。生物进化中的感官系统(如视觉、听觉)通过长期演化,形成了对环境中关键模式的敏感捕捉能力。例如,蜜蜂通过识别花朵的颜色和形状获取花蜜,这种能力经过数百万年的自然选择被编码到基因中。同样,AI 模型在训练过程中通过反向传播算法优化参数,逐步提取数据中的高阶特征,如卷积神经网络(CNN)通过多层卷积操作识别图像中的边缘、纹理和物体。

压缩与模式识别的共生关系在语言系统中尤为显著。人类语言通过符号化的压缩(如 “猫” 代替具体的猫的形象)实现高效交流,而语言模型(如 DeepSeek)则通过学习词语间的统计规律生成流畅文本。这种双向过程体现了智能的本质:用有限的符号系统表征无限的现实世界。

人类大脑正是这一广义压缩机制的完美体现。婴儿通过观察父母的面孔、声音和行为形成对父母的关联点,人们也是通过提取出 “四条腿、尖耳朵、会喵叫” 等关键特征,形成 “猫” 的抽象概念。神经元之间通过突触传递信息,经过多层次加工后,形成对外界的抽象理解。这一过程类似于深度神经网络中多层抽象特征的提取,初级层捕捉边缘、颜色信息,高级层则形成语义和概念。人类在记忆和学习过程中,并不需要记住所有细节,而是通过归纳总结,将复杂的信息抽象为简单的规则或概念。正如我们在学习数学定理时,只需要掌握核心思想和证明框架,而非每一个细节步骤。类似地,大模型在预训练阶段,通过大量数据学习到的权重即是一种“压缩”,在参数中保存了数据中蕴含的模式与规律。比如 DeepSeek 的 6710 亿参数模型通过预训练压缩了 14.8 万亿 Token 的文本数据,形成对语言规律的数学表征,从而在法律文书润色、学术论文撰写等任务中快速识别关键条款并生成合规内容,在解决数学题时,它也不需要记住题目中每个数字的原始信息,而是提炼出问题的逻辑结构与核心关系,这正是信息压缩的具体体现。

二、智能的涌现

智能往往从复杂系统的压缩过程中涌现出来。例如,单个蚂蚁的行为简单,但蚁群通过信息素的交流形成复杂的觅食路径;神经网络的单个神经元功能有限,但通过层间连接和训练,能够识别手写数字或翻译语言。这种涌现现象的本质是压缩后的信息在更高层次上的重新组合,实现了保留本质特征并重构新知识一种能力。这其实就导向了DIKW模型中Wisdom。比如DeepSeek 的法律文书生成能力正是这种涌现的体现。模型通过压缩法律条文、案例和用户需求,生成符合逻辑的合同文本。这一过程并非简单的信息检索,而是将法律知识抽象为结构化的决策树,再根据具体场景动态组合。类似地,金融领域的 AI 客服通过预判客户需求,提供超预期服务,这依赖于模型对历史对话数据的压缩和模式提取。这种能力与人类科学发现(如门捷列夫压缩元素属性构建周期表)本质相同,均是对规律的抽象泛化与创新应用,从而实现预测、决策和"行动"。

大模型基座的方向—先验知识为基地的逻辑和在线微调

当前大模型在自然语言处理领域展现出强大的能力,也形成一些简单符号概念,但其本质仍依赖于对大规模语料库的统计拟合。这种模式在处理开放域对话、文本生成等任务时表现优异,但面对数学推理、逻辑证明等需要符号操作的任务时,其局限性便暴露无遗。例如,当被问及 “太阳为何从东边升起” 时,模型可能基于训练数据中的高频模式生成看似合理但缺乏物理定律支撑的解释,而非调用天体运行规律进行严谨推导。这一现象揭示了统计模型的核心缺陷:依赖相关性而非因果性,缺乏对符号概念的本质理解。

为突破这一瓶颈,AI 基座需要以动态知识更新与先验逻辑推理为双引擎的智能体系。对具身智能理论为此提供了重要启示:智能体通过物理交互将感知升维为认知,这种 “具身化” 过程与符号推理的具有内在一致性。例如,机器人完成 “抓取苹果” 任务时,需将连续动作分解为 “定位 - 抓取 - 放置” 的符号化步骤,并通过环境反馈动态调整策略。这种机制为 AI 基座的设计提供了仿生学参考:将感知数据转化为符号化操作,通过逻辑规则约束决策过程。

一、动态知识更新在线微调(OFT)

传统大模型面临 “静态知识库与动态需求” 的根本矛盾。以 GPT 系列为例,模型参数在预训练后固定,难以实时吸收新知识(如 2023 年的新法规或 2024 年的科技突破)。我们希望通过在推理过程中微调大模型的权重,实现了局部知识的即时更新。这种在线微调机制突破了传统模型的 “训练 - 推理” 二分法,使大模型能够在处理用户请求的同时,将有价值的信息(如用户反馈、实时数据)内化到参数中。 解决这一问题需在架构层面实现 “边推理边学习”的能力。这就是在线微调(OFT)。

在线微调作为一种在模型持续服务期间利用流式数据更新参数的方法,相较于离线微调面临着更为复杂的挑战。这些挑战涵盖了数据管理、模型更新策略、基础设施设计以及更深层次的逻辑问题。首先,数据管理方面,OFT需要实时处理并保证在线数据的质量,这包括数据清洗、过滤、隐私保护以及选择对模型提升最有价值的数据。高效的数据流处理管道和严格的数据质量控制是关键。其次,模型更新策略需要解决“灾难性遗忘”问题,即持续学习导致模型忘记先前知识的风险,可以通过正则化、知识蒸馏等方法缓解。同时,动态调整学习率、平衡训练频率与批大小、以及进行模型版本控制也至关重要。

基础设施层面,OFT对低延迟推理、高吞吐量、高效资源管理、实时监控和自动化部署提出了高要求。逻辑上,需要在探索新数据与利用已有知识之间取得平衡,处理数据的时间依赖性,并适应数据分布随时间的变化(概念漂移)。合适的评估指标也需要针对在线场景进行设计。

为了应对这些挑战,Mixture of Experts (MOE) 架构为实现在线微调提供了一种可能的方向。MOE通过将模型分解为多个“专家”网络,每个专家负责处理特定类型的数据,并由“门控网络”进行路由选择。这种模块化设计能够有效缓解灾难性遗忘,因为新数据可以只更新相关的专家,而保持其他专家的参数不变。比如deepseekR1的671B模型生成每个token激活 37B,通过多头潜在注意力模型,在更高层做了分块并发,并发性更强,推理和训练成本更低,为此还提供了无辅助负载均衡策略,因为并发就会有多任务协调问题,减少多任务协调带来效率下降问题。

从deepseekR上可以看到对于未来实现在线微调,MOE不仅仅通过并行训练和增量学习能降低成本,甚至可以通过增减专家网络来提高模型容量和表达能力,在不影响原来模型的基础上扩展模型能力。总而言之,虽然MOE的门控网络训练和专家网络负载均衡等方面还有很多问题需要解决,但它凭借其模块化、稀疏激活和动态路由等特性,为构建高效、稳定且可扩展的在线微调模型提供了一种非常好的技术方向。

二、先验知识注入:符号逻辑与思维链重构

在当前大模型中,虽然形成一些符号概念逻辑但其符号推理能力仍然存在不足,导致在处理复杂问题时容易陷入“幻觉”或答案不准确的困境。为弥补这一短板,我觉得可以探索将数学公理、物理定律等先验知识注入模型中,从而构建一个“思维校验层”。这一层主要通过将自然语言问题转换为符号逻辑表达,再利用诸如分配律、等式传递性等逻辑规则来构建思维链,实现类似于人类在解题过程中通过中间步骤推导答案的效果。

例如,在解决代数问题时,是基于预设的符号逻辑规则,逐步展开推理过程,形成清晰的逻辑链条,这样不仅提高了解题的准确率,也使得推理过程更加透明可解释。DeepSeek正是采用了这种思路,将数学、编程等结构化数据与自然语言输入相结合,通过神经网络先将原始数据映射到符号空间,再由符号引擎执行严格的逻辑推理,最终输出符合数学规范的答案。这样一来,模型在面对诸如“勾股定理证明”等复杂任务时,能通过显式的思维链为用户提供详细的推理过程。

此外,有先验知识逻辑打底,可以通过少量样本归纳通用规律,比如从三种动物特征中抽象出“哺乳类”的概念,模型可以学会分离数据中的因果变量(如疾病与症状之间的因果关系),而不是简单地拟合相关性。进一步提升了模型的泛化能力。

神经符号计算则是实现这一目标的重要技术路径。它将神经网络的模式识别能力与符号系统的逻辑严谨性结合起来,既利用神经网络将输入数据转化为符号表示,又借助符号推理模块对这些符号进行逻辑验证。通过符号逻辑校验确保模型生成的答案的逻辑一致性。

AI Agent的落地实践——Manus的启示

人工智能的进步一直致力于模拟和超越人类智能。然而,长期以来,大模型虽然在推理和生成方面表现出色,却受限于其“封闭”的数字环境,难以真正与现实世界互动,就如同一个从小到大只能待在一个黑屋子里人通过书本和别的人类老师学会了人类大部分知识。Manus的出现,标志着AI发展进入了一个新的阶段,它通过虚拟机赋予大模型“数字身体”,使其能够像人类一样利用工具、访问信息网络,并在人类数字世界进行复杂的交互,从而极大地扩展了AI的应用边界,这是大模型从“思考”到“行动”的范式转变开始。

全自主的AI Agent

传统的大模型,如同一个拥有强大大脑却缺乏肢体的思考者。它们擅长分析信息、生成文本,却无法执行实际操作,例如预订机票、填写表格、或者与客服沟通。Manus的核心突破在于,它为大模型提供了一个虚拟的“身体”——一台联网的电脑,通过虚拟机技术,大模型得以在受控环境中操作各种软件、访问互联网,从而实现与人类数字世界的有效交互。这就像为大模型配备了一双“手”和一个“触角”,使其能够远程操控、自动执行各种任务,部分弥补了其缺乏物理世界感知接口的缺陷。

Manus并非简单的自动化工具,而是一个全自主的AI Agent。它能够从接收用户需求开始,自主完成任务拆解、工具调用、自动执行,最终交付成果,形成一个端到端闭环的自动化流程。它不仅能生成文本,还能调用代码、操作网络、执行数据分析,处理复杂任务。例如,在招聘筛选场景中,Manus可以自动解压文件、浏览并分析多份简历,提取关键信息,生成详细的候选人评估报告,其效率和专业性堪比一位经验丰富的HR专家。在房地产调研中,Manus能够整合治安报告、学区信息、租金水平等多种数据源,自动撰写调研报告,为决策者提供精准建议。

与人类世界初步交互

这种“数字具身”带来的不仅仅是执行力的提升,更重要的是,它为大模型提供了与人类数字世界交互的沙盒环境。人类智能的体现很大程度上依赖于社会互动和工具的使用。Manus通过虚拟机,让大模型能够融入人类数字世界的工作流程,例如在政务系统中自动处理公文、解读政策,在企业内部作为智能客服或数据分析助手提供24小时不间断服务。这种交互的能力,使得AI能够更好地理解人类的需求,并提供更贴合实际的解决方案。

Manus的出现也引发了对大模型发展方向的深刻思考。仅仅追求大模型推理能力的提升是不够的,更重要的是构建一个完整的生态系统,让大模型能够与工具、平台和现实环境无缝对接,实现真正的“智能社会”。这意味着,未来的AI发展将更加注重工具链的整合、社会交互的虚拟化,以及AI与人类之间的协同合作。

挑战和未来方向

然而,Manus也面临着一些挑战。任务拆解中的错误传导,例如代码生成错误导致后续步骤崩溃,是需要解决的关键问题。此外,算力成本和商业可持续性也是需要考虑的因素。Manus单任务的成本高达2美元,需要通过优化多Agent协作效率来降低成本。

Manus的出现代表着AI发展的一个重要方向。它通过虚拟机赋予大模型“数字身体”,使其能够更好地与人类数字世界互动,并提升其交互智能水平。这不仅扩展了AI的应用边界,也为我们提供了未来的发展方向:构建一个完整的生态系统,让AI能够与工具、平台和现实环境无缝对接,最终实现真正的“智能社会”。

总结

当前AI竞争已从单纯的参数比拼转向生态协同。从基础技术、平台建设到实际应用,都需要形成一个闭环。正如Meta的Yann LeCun所言,DeepSeek的成功证明了“开源模型正在超越专有模型”。开放源代码不仅能促进技术进步,也有助于形成一个更加民主和透明的AI生态。

我们从智能本质——“压缩即智能”出发,探讨了人类大脑如何通过抽象和压缩信息形成知识;接着深入讨论了未来AI基座在在线微调、混合专家模型及符号推理上的技术方向;最后,通过Manus的实际应用案例,阐释了如何利用虚拟机赋能,使大模型实现与现实世界的高效交互。

随着技术的不断迭代,我们正迎来一个全新的AI时代——在这个时代,技术不仅会在底层实现突破,更会在应用层面改变我们的生活和工作方式。未来的AI将不再是“冰冷的算法”,而是具备高度社会性、动态学习和自我进化能力的智能体,为各行各业提供深层次变革的动力。

“我们仍处于功能机时代,智能机时代尚未到来。”这场变革中,技术开发者与行业应用者需共同探索,让AI真正成为普惠的生产力工具。我觉得这两年的AI关注点算力方面还是GPU和显存相关行业,大模型的基座方面MOE和数学类、多模态大模型和在线微调技术,行业大模型方面主要关注金融、法律、汽车、医疗健康和离线微调技术,当然智能制造、教育、电商零售、能源行业也会有不少机会。普通应用类关注Agent的虚拟机和游戏NPC方向和具身智能的机器人和模拟环境。 未来,AI不仅是工具,更是人类探索宇宙、理解自我的镜像。正如帕斯卡所言:“人是一根会思考的芦苇”,而AI将成为这根芦苇最坚韧的延伸。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。

大模型典型应用场景

AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。

这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。

大模型就业发展前景

根据脉脉发布的《2024年度人才迁徙报告》显示,AI相关岗位的需求在2024年就已经十分强劲,TOP20热招岗位中,有5个与AI相关。
在这里插入图片描述字节、阿里等多个头部公司AI人才紧缺,包括算法工程师、人工智能工程师、推荐算法、大模型算法以及自然语言处理等。
在这里插入图片描述
除了上述技术岗外,AI也催生除了一系列高薪非技术类岗位,如AI产品经理、产品主管等,平均月薪也达到了5-6万左右。
AI正在改变各行各业,行动力强的人,早已吃到了第一波红利。

最后

大模型很多技术干货,都可以共享给你们,如果你肯花时间沉下心去学习,它们一定能帮到你!

大模型全套学习资料领取

如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、LLM面试题

在这里插入图片描述
在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

六、deepseek部署包+技巧大全

在这里插入图片描述

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐