HEZYO加勒比久久爱综合:欧美激情一区二区三区四区-回顾DeepSeek“开源周”:越是开源,越能扩大生态

糖心vlog下载 房产 2025-03-01 1 0

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

2月最后一天,DeepSeek开源周正式收官。连续五天,这家公司刷新自己在大模型开源生态中的技术地位。

五天一共对应五个开源代码库,分别是FlashMLA,DeepEP,DeepGEMM,DualPipe和EPLB对应的优化并行策略,以及推进器3FS和轻量化数据处理工具Smallpond。在Github,这些项目累计获得星星数量接近2.8万颗。

首日的FlashMLA最为重磅。DeepSeek对其核心介绍是,这是一款面向Hopper GPU(英伟达第九代GPU架构)的高效MLA解码内核(MLA decoding kernel ),并针对可变长度序列的服务场景进行了优化。 

MLA——Multi-Head Latent Attention(多头潜在注意力机制)是DeepSeek在V2时期的重要创新,也是降本的关键。FlashMLA则是针对MLA在解码阶段的注意力加速器。

用户输入的自然语言数据序列往往长短不一,如果只按照传统注意力机制会造成算力资源浪费。FlashMLA可以针对不同token长度动态调配计算资源。总体上来说,这还是DeepSeek就H800持续压榨其硬件性能利用效率——这也是DeepSeek素来最擅长的能力之一。 

次日的DeepEP核心目的仍在于拉升GPU效能。这是一个专为专家混合(MoE)和专家并行(EP)量身定制的通信库。 

简单而言,它通过建立一个全对全的中间系统,高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾,并且支持FP8等低精度操作以降低计算资源消耗,最终大幅提升了大模型的训练和推理效率。 

第三天的DeepGEMM来自DeepSeek-V3,是一个可用于FP8精度的通用矩阵乘法(GEMM)加速库。

通用矩阵乘法是大模型提高训练效率的重要一环,但往往还是会造成巨大的计算量。DeepGEMM的目的是在降低消耗、提升速度的同时,还能保持计算的准确度。它先是利用FP8这一低精度但快速的方式完成计算,再利用英伟达的CUDA核心对其进行精加工。

事实上,英伟达基于CUDA架构打造的CUTLASS也是用于加速这类计算,但更适用于通用且强性能的矩阵加速库。而DeepGEMM不仅在性能上可以与专家调优的库相当,而且更加轻量化,仅用300行代码就实现,且安装时无需编译,通过轻量级JIT模块就可在运行时编译所有内核。

第四天是由DualPipe和EPLB构成的优化并行策略。

DualPipe是一种双向并行算法,简单而言,它以“双向”的调度方式,在参数翻倍的情况下,大幅减少了流水线并行过程中,因为不同“工序”进程快慢而产生浪费效率的“气泡”,也就是计算和通信阶段的等待时间。 

EPLB是一种“专家并行负载均衡器”,可对MoE架构中的高负载专家复制为“冗余专家”,以分担同类任务计算量,并利用“启发式分配算法”,将高负载专家分配到低负载显卡上,以优化GPU之间的负载均衡。它还会尽量将需要高度协同的专家放置在同一节点上,以提高通信效率。

最后一天是3FS(Fire-Flyer File System)以及数据处理框架Smallpond。

3FS是一个可实现高速数据访问,提高AI模型训练和推理效率的分布式文件系统。它相当于利用SSD(用于数据存储与加载、实现快速数据交换等)以及RDMA(支持分布式训练通信和高性能网络架构等)建立一个共享存储层,使模型对于资源调取和数据传输,都更为极速、自动化且高吞吐。

在此基础上,Smallpond可以进一步优化3FS的数据管理能力,能够处理PB级别(1PB 数据量大约可以存储20万部5GB大小的高清电影)的数据。

需要指出的是,DeepSeek开源周的所有内容,几乎都是“开箱即用”,团队均提供了相对完整细致的操作指南。

一名AI大模型行业人士对界面新闻记者表示,这五项开源内容的重要意义相当,都是针对训练效率的优化细节。不过他指出,DeepEP可能相对突出,因为对MoE的提升尤为明显。

另一名关注大模型行业技术进展的投资人同样表示,这些内容均可以视为DeepSeek在AI Infra层的优异表现。 

他认为,针对AI Infra的优化措施其实存在于任何一家AI大模型公司,而DeepSeek之所以选择开源,除了可以诉诸其技术理想外,一个核心目的还是在于让业界能够更好部署和使用其开源模型,建立其更大的开源生态。“从战略上来说,这也是一个很明确的先后步骤。” 

此外,对于DeepSeek开源周的动作,还有一种讨论声音是它看起来与英伟达的硬件生态绑定更深了。

但前述受访者认为这是一条合理路径。他指出,如果是针对国产硬件生态,DeepSeek还可以另起一套代码库来适配,两者不是非此即彼的关系。与此同时,当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。

事实上,在DeepSeek选择开源这一周,海内外大模型发布动作频繁且热闹,其中包括腾讯新一代快思考模型混元Turbo S,阿里通义千问推理模型QwQ-Max预览版,以及Anthropic的Claude 3.7 Sonnet,和OpenAI万众瞩目的GPT-4.5。 

出人意料的是,GPT-4.5并未激起巨大水花,甚至落下一众令人失望的评价。除了各方面基准测试超过4o,并在准确度和幻觉率上有了明显优化,GPT-4.5没有像从前新模型发布那样让人“震撼”的表现。

唯一的震撼或许在于定价。GPT-4.5每百万tokens输入为75美元,输出为150美元,价格分别达到了DeepSeek-V3的280倍及150倍。

OpenAI CEO Sam Altman在X平台上表示,GPT-4.5将是其最后一个非链式思维模型,未来发布的GPT-5将是一个包含o3在内的多种技术混合模型。这俨然让GPT-4.5的存在感降到更低。

回到DeepSeek的开源动作上,到目前为止,这家公司在绝大多数的算法和工程细节上都毫无保留。但它仍然将一些难以复制的核心能力牢牢掌握在自己手上,例如对于模型训练深层次的know how,以及训练数据方面的细节,这是达成DeepSeek式创新的核心秘密所在。

中国好声音第一季巅峰之夜

久久精品国产久精国产果冻传媒

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载国产福利美女福利视频免费看安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
99久久无码一区人妻A片蜜桃0 年轻的老师2中文视频1 国产亚洲精品久久久久久无亚洲2 用......用点力快到了视频3 国产中文字幕一区4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 欧美AAAA级A片又粗又硬
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,办公室的交易HD在线观看中字,断刀纪录片
二,国产亚洲精品久久久一区,最新黑料网 独家爆料正能量
三,好妈妈6韩剧在线观看高清,黑料正能量网站入口在线观看
四,543ev,边走边添花蒂高潮不断
五,国产亚洲精品久久久久久无码网站,体育男生吃武警大雕
六,avmemo,可口可乐小子字幕
七,海贼王娜米3,黑料 今日黑料 热门黑料

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
www.色av.com,婷婷激情综合色五月久久

厄夜三十2

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • BL清冷受喷汁红肿抽搐 4天前
    亚洲成AV人片一区二区不卡
  • 久久久久久久久久久96av 7天前
    亚洲欧美日韩中字视频三区
  • 动漫女禁处被爆桶漫画男男 7天前
    干净了吗PO
  • 国产精品大全国产精品 6天前
    中国梦想秀20130429
  • 黑料网 - 今日黑料 独家爆料 正能量 2天前
    国产探花在线精品一区二区
  • boss大人不要舔 4天前
    食为奴国语全集
  • 午夜影院顶级大片 5天前
    原味内衣qq
  • 亚洲 日韩经典 中文字幕 4天前
    亚洲精品久久久一二三区
  • 嗜血判官第六季 4天前
    女生迈开腿让男生打扑克二次元
  • 欧美成人国产一区二区 9天前
    疯狂的豆子