AI Repos

1、ReasonGraph
LLM推理路径可视化工具,它会把AI的思考过程变成可视化图表,支持实时更新和交互式分析,形成的图表可以一键式SVG导出。支持多种推理方法,顺序推理类方法(思维链等)、树形推理类方法(思维树等),还可以让模型自选合适的推理方式等。支持Anthropic、OpenAI、Google、TogetherAI 等50多个模型。
在这里插入图片描述

2、markpdfdown
基于多模态大语言模型的 PDF 转 Markdown 工具,它能通过 AI 理解文档结构,智能保留标题、列表、表格等复杂排版元素,轻松实现高质量的文档结构化转换。同时提供了 Docker 快速部署方式,不过需要配置 OpenAI API 密钥使用。主要功能:

  • 支持任意 PDF 文档的格式转换
  • 利用多模态 AI 技术理解文档结构和内容
  • 完整保留表格、公式等复杂排版元素
  • 支持自定义 AI 模型参数配置
  • 支持指定页码范围进行转换
    在这里插入图片描述

3、seed-vc
支持零样本语音转换、实时语音转换及歌声转换,无需训练,仅需1-30秒参考语音即可克隆声音。模型可通过最少1条自定义数据微调,每位说话人训练仅需100步(T4上2分钟),性能显著提升。实时语音转换延迟约400ms,适用于会议、游戏和直播。演示页面和评估结果展示其优于传统模型的效果。
在这里插入图片描述

AI News

1、Cohere 开源 Command A:企业级大模型,成本效益超越 GPT-4o 和 DeepSeek-V3
Command A 是 Cohere 开源的一款专为企业需求优化的大模型,显著降低了硬件成本。官方宣称,在与 GPT-4o 和 DeepSeek-V3 的对比中,Command A 在企业级任务中表现同样出色,效率更高。更重要的是,相较于使用 API,自部署访问成本降低了 50%。

2、阿里云“T项目”启动,聚焦下一代AI技术研发
阿里云推出“T项目”,加速下一代AI技术研发,聚焦AI引擎、大型语言模型及多模态技术,以满足市场智能化需求。该项目深化阿里云AI布局,通过“借调”方式吸纳人才,提升团队创新力。近年来,行业对AI解决方案需求激增,阿里云借此项目推动技术突破,为客户提供高效服务,巩固市场竞争优势。

3、WeShopAI:一个闭源的虚拟试穿
WeShopAI 是又一个虚拟试穿的在线演示,类似于可灵的虚拟试穿。同样,它只是调用了其 API,并没有开源。

4、搜狗输入法PC版AI助手接入腾讯元宝,智能体验升级
腾讯搜狗输入法PC版「AI助手」接入满血版「腾讯元宝」,融合腾讯混元和DeepSeek大模型,支持深度思考和联网搜索,提升办公学习效率。用户更新至最新版后,通过「汪仔」按钮或快捷键激活AI助手,新增「=号」搜索功能实现边聊边查,「AI划词」则支持搜索、翻译、总结等操作,无需切换应用。这一升级深化AI与输入法的融合,为用户带来智能便捷体验。

5、百川智能联合创始人焦可、陈炜鹏离职投身AI创业
百川智能联合创始人焦可已离职,投身AI语音创业并寻求融资,陈炜鹏也将离职,筹备AI Coding项目并接触投资人。百川智能由王小川2023年创立,两位创始人为早期核心成员。此次离职反映AI创业热潮,AI语音和AI Coding因技术突破备受关注。业内认为,他们的技术经验或助力新项目,但成功与否待观察。双方暂未回应。

6、Groundlight开源AI框架,突破复杂视觉推理难题
Groundlight团队开源全新AI框架,聚焦提升视觉语言模型(VLM)的复杂推理能力。针对VLM在理解图像逻辑关系上的不足,团队引入强化学习和GRPO技术,通过优化学习效率,使30亿参数模型在密码破译任务中达96%准确率。框架采用格式、解码和正确性奖励设计,结合选择性模型升级和预训练工具,平衡效率与精度。项目已开源,提供demo展示其潜力,或为视觉推理领域带来新突破。

7、李开复推出万智企业大模型平台,聚焦AI应用新竞争
零一万物发布万智企业大模型平台,预装昇腾GPU和DeepSeek模型,提供定制化AI解决方案。平台AI搜索准确率达88%,减少幻觉问题,提升检索效率。李开复强调,大模型竞争将从性能转向应用能力,2025年为AI爆发年,中小企业需轻量化模型提升生产力。零一万物转向商业化轻量模型开发,降低技术门槛,确保数据安全,助力产业转型。此举标志其在产业AI领域的重要布局。

8、钉钉AI客服助理上线,支持多平台自动接入
钉钉推出AI客服助理,可自动接入企业官网、公众号等平台,已有700多家企业使用。该助理通过多轮对话精准解答复杂问题,整合知识库和大模型能力,实现7×24小时秒级响应。企业可利用沉淀数据快速训练AI,支持多模型选择与工作流协同,一键部署至微信等平台。功能免费开放,降低开发门槛,帮助企业提升服务效率与客户体验。

9、腾讯混元3D开源日3月18日起直播开启
腾讯混元将于3月18-19日举办混元3D开源日活动,并于每日上午11点直播。活动内容未详,但继1月开源Hunyuan3D-2.0及一站式3D创作引擎后,此次或展示其高精度生成能力与技术趋势。对开发者而言,是学习前沿技术、交流合作的良机;对3D爱好者则是体验技术魅力的机会。腾讯此举旨在降低3D创作门槛,激发行业热情。

10、OpenAI剧透GPT-5年内推出,CPO称AI代码自动化将达99%
OpenAI首席产品官Kevin Weil透露,GPT-5“很快推出”,或整合GPT-4与O系列能力,并预测年内AI代码自动化达99%,远超预期,称AI已超越顶级程序员。他强调AI将普及软件开发,释放创新潜力,同时升级语音功能、个性化教育及Deep Research,接近AGI体验。Weil看好AI催生新职业,反驳“躺平”论,未来专注用户体验与教育应用。GPT-5与AI变革备受瞩目。

11、快手可灵AI接入DeepSeek-R1,灵感版助力创作升级
快手可灵AI全面接入DeepSeek-R1,增强视频与图片生成能力,用户可轻松将灵感转为专业提示词,降低创作门槛,提升效率。该平台持续迭代,模型效果领先行业。DeepSeek灵感版与“灵感词库”联动,支持文生视频中场景、镜头等细节控制,让普通用户也能打造精美专业内容。此次升级进一步巩固可灵AI在AI创意生产领域的优势地位。

12、Cursor更新暗示Anthropic新模型Claude3.7Sonnet Max将至
AI代码编辑器Cursor 0.47.5版更新日志透露,正为Anthropic未官宣的“Claude3.7Sonnet Max”模型做准备,引发热议。Anthropic近期API更新提升效率、减少token用量,似为新模型铺路。外界猜测“Claude3.7Sonnet Max”或带来性能突破和新功能,但官方尚未证实。Cursor提前适配,暗示发布临近,业内期待其在Claude3.7Sonnet基础上再创新高,静待Anthropic揭晓。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐