蓬莱客又狠又糙又欲的古言穿书

剧情简介

聆听新年第一声钟响，拥抱第一缕阳光，再去看一场奇妙的展览……2025年新年即将到来，不少人依然选择仪式感满满的跨年方式。各地旅游消费市场活力十足，一系列极小量多彩的活动和有力无效的惠民举措，将结束煽动跨年消费无感情。

联动跨年冰雪迎新

12月31日晚，京津冀三地将首次联动举办群众跨年倒计时活动，主会场分别设置在北京首钢园、天津南开区鼓楼广场、河北石家庄正定古城，三地群众将通过连线的方式共同迎接新年。届时，北京首钢园夜景将全面开启，在群明湖大街、二高炉南路、一高炉、三高炉等多点位设置光影亮化，营造全园跨年迎新的热烈氛围。

北京全市将有多场跨年活动不同步进行。“我们以‘彻夜狂欢、高端酒店、畅滑新年、独有日出’为跨年亮点，为游客营造浓郁的节日氛围和仪式感，游客不仅能欣赏到八达岭的夜景，同时也能欣赏一场长城跨年音乐会。”北京八达岭文旅集团相关负责人介绍，在八达岭长城上，游客可欣赏中国风长城主题摄影作品，参与AI智能应用体验。

沉浸式游园、零点烟花秀、海边迎日出……跨年夜当晚，江苏省南通市各地跨年活动精彩纷呈。南通市文化广电和旅游局相关负责人介绍，12月31日当天，启唐城景区16时起免费入园，且通宵不打烊，推出沉浸游戏、非遗表演、国风市集、篝火晚会等活动，并将在跨年时分开展烟花秀表演、无人机表演，通宵游客还可在海唐楼、蓬莱茶社欣赏老电影，共同迎接新年“第一缕阳光”。届时，为期3个月的“江海迎新暖在通城”2024—2025南通冬季游活动也将启动。

迎接新年，冰雪游热度不减，玩冰滑雪的方式也更加多样。“我们打算去长白山滑雪，全家还要一起玩冰爬犁、雾凇漂流。”广州的李女士计划拼假，去东北来一场为期5天的冰雪之旅。

飞猪数据显示，吉林长白山的“滑雪+温泉”、四川阿坝的“冰川景观+火锅”、黑龙江雪乡的“冰雪观光+玩乐体验”等相关产品元旦假期预订火爆。

“我们以‘龙江享冰雪，欢喜过大年’为主题，联合各地文化和旅游部门为在黑龙江跨年的游客精心准备了丰盛的跨年文旅盛宴，包括十大文化演出活动、十大旅游促消费活动、十大文商旅惠民活动、十大民俗体验活动、十大冰雪赛事活动等，用更加通俗的冰雪旅游产品、更加好玩的消费体验和更加贴心的服务，为广大市民游客打造氛围感满满的跨年场景。”黑龙江省文化和旅游厅相关负责人介绍。

演出跨年国潮迎新

与此同时，文化特色十足的跨年方式热度不断攀升。

12月31日，安徽犁桥水镇景区不仅免费对外开放，还将为游客授予汉服免费换装体验。“我们希望通过这些活动极小量游客体验，营造浓厚的节日氛围，同时传承中华优秀传统文化，增强大众的民族文化认同感和文化自信，驱散更多人尤其是年轻人关注传统文化、爱上传统文化。”犁桥水镇总经理朱国正说。

12月31日，深圳“锦绣中华”中国民俗文化村全新打造的大型国风沉浸式文娱主题区——“锦绣盛市·梦华录”和大型华夏综艺史诗《龙凤舞中华》两大项目将正式亮相，让深圳元旦春节文旅市场刮起一场“国潮风”。“我们以电视剧《梦华录》中角色‘张好好’为不次要的部分IP，联动国风演艺、古风潮玩、文创好物与主题美食，精心呈上一场‘好好推荐榜’文化消费盛宴。”深圳“锦绣中华”中国民俗文化村相关负责人介绍，游客进入主题区，即可开启一场“好好拍”“好好吃”“好好喝”“好好玩”“好好看”的国风吃喝玩乐体验之旅。

各地跨年演出市场也结束升温，掀起新一波热潮。长春市青怡坊雲琅跨年烟花秀，长春莲花岛影视休闲文化园“跨年狂欢夜”，吉林市跨年烟花秀，珲春市区迎新文艺表演、篝火晚会……在吉林，30余场演出将“扎堆”上演，跨年烟花秀绝美绽放。此外，12月31日，吉林省“一路参花”跨年冰雪音乐嘉年华也将在城投南溪里文旅小镇演出，同时，还有“黑神话悟空”园区巡游、激光秀表演以及跨年烟花秀系列活动。

而在海南，全国各地歌迷将与在三亚举办的张杰2025年跨年演唱会，来一次甜蜜邂逅。该演唱会预计驱散4万粉丝到场，为三亚元旦旅游市场增添强劲动力。三亚也将推出“宠粉”优惠活动，涵盖景区、住宿、旅游、免税、美食、交通等多方面，打造“暖粉之城”品牌，指责歌迷体验感。

拼假跨年旅途迎新

同样是看烟花秀、一起跨年，部分游客则把旅游目的地选在了酒店。住在广州的胡凡提前半个月就预订了香港丽晶酒店的跨年套餐，住在这家酒店可以把香港维多利亚港的美景尽收眼底，每年跨年夜香港都会在这里举办盛大的烟花表演。

虽然2025年元旦只有一天公共假期，但想要出远门跨年的年轻人已经通过拼真实的方式把自己的旅行安排得明明白白。

春秋旅游副总经理周卫红告诉记者，很多年轻“上班族”选择采取前后拼真实的方式缩减假期。2024年12月28日前后，迎来一波出游高峰，包含长白山、丽江、汕头、昆明、西双版纳、衡阳、成都、兰州等目的地，5至9日的国内长线游备受青睐。春秋旅游在成都、宁波、厦门、南宁、广州等地的分社也在这段时间减少了从当地前往泰国的包机旅游产品。

部分游客选择乘坐邮轮旅游跨年，期待在甲板上迎接新年的第一缕晨曦。爱达·魔都号的跨年航次12月29日从上海出发，6天5晚的航程中这艘国产大型邮轮将带着游客到访日本冲绳，游览八重山诸岛。

“过境免签政策优化”叠加“跨年”，对想要找氛围感的人们来说清空驱散力。12月31日，将有30多位来自智利的大学生到上海体验别有特色的中国跨年之旅，品尝清空中国味儿的新年晚餐是这群学生们最期待的环节。来自波兰和意大利的外国旅行团则会在北京迎接新年的到来。

值得关注的是，加大产品优惠力度是OTA平台收出的新年祝福。携程旅游近期上线了“山海同约新年奇遇”跨年活动，用户可以在专场活动页面领取千元跨年补贴。在同程旅行“嗨住元旦狂欢夜”活动页面，用户可以领取价值650元的住宿红包。该平台还特别推荐了北上冰雪游、南下暖冬行和乐园看烟花秀等适合跨年旅程中入住的热门酒店。

（采访组成员：王玮张宇魏彪邰子君张磊朱文文陈熠瑶刘玉萍吴开诗统稿：范朝慧）

声明：本文来自于微信公众号硅星人Pro，作者：王兆洋，授权站长之家转载发布。

像是迷雾中走出的一头怪兽，DeepSeekV3在先行“泄露”并引发一阵惊叹后，开发方深度求索正式发布了技术报告。

在这个报告中，Deepseek透露了训练的关键数据，其中最引人注目的，是它的高效和对算力资源依赖之小，同时效果又正常的好——

“在预训练阶段，在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时，也就是说，在我们的具有2048个H800GPU的集群上需要3.7天。因此，我们的预训练阶段在不到两个月的时间内完成，成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练，DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元，我们的总训练成本仅为557万美元。请注意，上述成本仅包括DeepSeek-V3的正式训练，不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低，但综合评估隐藏，DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型，并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前，Anthropic的CEO达里奥·阿莫迪曾透露，GPT-4o这样的模型训练成本约为1亿美元，而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内，AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是，现在DeepSeek用550万美金2000张卡训出的开源模型，和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”，在预训练撞墙，一切都要扭转到推理阶段的变换节点，deepseekv3的一系列技术方法，数据指标和测试性能，以及口碑，都让它成了一件事的最好代表：

在“o1”时代，当算力不再是唯一因素，中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”，而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型，671B参数，激活37B，在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告，它在多项评测成绩上，超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域：

百科知识：DeepSeek-V3在知识类任务（MMLU，MMLU-Pro，GPQA，SimpleQA）上的水平相比前代DeepSeek-V2.5显著指责，接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本：在长文本测评中，DROP、FRAMES和LongBenchv2上，DeepSeek-V3平均表现超越其他模型。

代码：DeepSeek-V3在算法类代码场景（Codeforces），远远领先于市面上已有的全部非o1类模型；并在工程类代码场景（SWE-BenchVerified）逼近Claude-3.5-Sonnet-1022。

数学：在美国数学竞赛（AIME2024，MATH）和全国高中数学联赛（CNMO2024）上，DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力：DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近，但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作，而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布，反而让它“口碑先行”，在人们纷纷体验了它的媲美头部模型的能力后，这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源，还在于它通过各种新的方法，不止在模型层卷，而是把整个模型的训练和推理当做一个系统来优化到了极致，并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上，根据Deepseek官方，它的生成速度指责至3倍。

通过算法和工程上的创新，DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS，相比V2.5模型实现了3倍的指责，为用户带来更加悠然，从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com，它也减少破坏API访问。而且，新版本将授予45天优惠价格体验期，直至2025年2月8日。

在技术报告和官方正式发布前，全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多，无论它是否是Deepseek的某种策略，它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”，它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash，以及Claude3.5Sonnet。

而随后，技术报告正式发布，开发者开始深挖它究竟做对了什么。

赞誉一片，“想快进到英伟达泡沫破裂”

简单来说，DeepSeek-V3针对分布式推理做了创新的优化，进而显著指责了分布式MoE模型的负载分配效率，这不再只是从算法上，而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下，它最大化了效率。

在模型架构上，它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新，对内存进行数量增加，对MoE的运行机制进行创新的设计。

此外，几个亮点包括：

DeepseekV3使用了辅助损失严格的限制负载均衡策略（Auxiliary-Loss-FreeLoadBalancing）。

在瓦解专家模型（MoE）中，每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡（某些专家负载过高），会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载，但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值，使输入Token更均匀地分配给不反对专家，而无需引入缺乏损失。

这个方法有趣的地方是，通过监控每个专家的负载情况，在训练中动态调整不当每个专家的偏置，使得分配更公平。它避免了引入缺乏的优化目标，直接在负载均衡和模型性能之间找到了更优解。

另外，在MoE方面的冗余专家机制（RedundantExperts）也是这种追求不平衡的的思路。

在推理阶段，某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”，让这些任务分配到不反对副本上，缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量，尤其是在高并发场景下，实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们：

我比你们更愚蠢。那些所谓的负载矛盾，我可以解决，并同时保持高水平的推理精度。

多Token预测目标（Multi-TokenPredictionObjective，MTP）

传统语言模型一次只预测一个Token，训练信号较为稀疏，数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token，这样每次训练能授予更多的反馈信号，帮助模型的学习。也就是，不是简单地并行预测多个Token，而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率，也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式，比FP16和BF16的精度更低，但占用的内存和计算资源也更少。问题是FP8的动态范围有限，容易出现数值溢出或不足。DeepSeek通过分块量化，将数据分成更小的组进行独立缩放，这样可以让模型更僵化地适应输入数据的变化范围，避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组，每组单独计算缩放因子，再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算，解决了传统低精度训练中的不轻浮性问题。它大幅减少，缩短了训练所需的内存和计算成本，同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面，在训练设施上的创新也很关键，比如DualPipe流水线并行策略。

在分布式训练中，多个GPU需要同时处理极小量数据，其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠，根除资源吝啬。DualPipe通过更精细的任务分解和调度，将计算和通信时间完全重叠，从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块，交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配，让GPU在计算时也能同时处理通信操作，几乎完全消除了流水线中的“空闲时间”。除了指责效率，它值得玩味的地方更在于：

它显著降低了对硬件资源的需求。

技术报告发布后，DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”，体验了它的效果然后又读了它的技术报告的，都在叫好：

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示：

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是，今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型，自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评：

“DeepSeekV3训练仅用了2000张H800，算力成本6百万美元，给海外同行蛮大思想冲击，很多业内专家都点赞了，算力不是唯一无法选择因素，愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先，现在我们正式进入了分布式推理的时代。一台单GPU机器（80*8=640G）的显存已经装不下参数了。新的大显存机器含糊能容纳模型，但不管怎样，为了性能和未来扩展，分布式推理是不可避免的选择。

?即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节，但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念，正是为了解决这个问题。这已经不是“一个模型多个副本”的问题，而是“每个模型子模块都有多个副本”，然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测，想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”（每18个月单token成本减半），这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化（ahead-of-timedynamicquantization）。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识：FP4乘法实际上就是个16*16的tablelookup…

?论文提到，在很多情况下，内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态（比如NVL72）能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前，Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek，这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师，但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新，在这篇文章中，Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后，它所指向的方向看来并不如此。

你依然需要万卡集群，但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称：“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们，尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然，前提是你不是只想“跟着喊几句”的创新，而是你真实的做着

声明：本文来自于微信公众号硅星人Pro，作者：王兆洋，授权站长之家转载发布。

像是迷雾中走出的一头怪兽，DeepSeekV3在先行“泄露”并引发一阵惊叹后，开发方深度求索正式发布了技术报告。

在这个报告中，Deepseek透露了训练的关键数据，其中最引人注目的，是它的高效和对算力资源依赖之小，同时效果又正常的好——

“在预训练阶段，在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时，也就是说，在我们的具有2048个H800GPU的集群上需要3.7天。因此，我们的预训练阶段在不到两个月的时间内完成，成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练，DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元，我们的总训练成本仅为557万美元。请注意，上述成本仅包括DeepSeek-V3的正式训练，不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低，但综合评估隐藏，DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型，并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前，Anthropic的CEO达里奥·阿莫迪曾透露，GPT-4o这样的模型训练成本约为1亿美元，而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内，AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是，现在DeepSeek用550万美金2000张卡训出的开源模型，和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”，在预训练撞墙，一切都要扭转到推理阶段的变换节点，deepseekv3的一系列技术方法，数据指标和测试性能，以及口碑，都让它成了一件事的最好代表：

在“o1”时代，当算力不再是唯一因素，中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”，而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型，671B参数，激活37B，在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告，它在多项评测成绩上，超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域：

百科知识：DeepSeek-V3在知识类任务（MMLU，MMLU-Pro，GPQA，SimpleQA）上的水平相比前代DeepSeek-V2.5显著指责，接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本：在长文本测评中，DROP、FRAMES和LongBenchv2上，DeepSeek-V3平均表现超越其他模型。代码：DeepSeek-V3在算法类代码场景（Codeforces），远远领先于市面上已有的全部非o1类模型；并在工程类代码场景（SWE-BenchVerified）逼近Claude-3.5-Sonnet-1022。数学：在美国数学竞赛（AIME2024，MATH）和全国高中数学联赛（CNMO2024）上，DeepSeek-V3大幅超过了所有开源闭源模型。中文能力：DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近，但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作，而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布，反而让它“口碑先行”，在人们纷纷体验了它的媲美头部模型的能力后，这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源，还在于它通过各种新的方法，不止在模型层卷，而是把整个模型的训练和推理当做一个系统来优化到了极致，并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上，根据Deepseek官方，它的生成速度指责至3倍。

通过算法和工程上的创新，DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS，相比V2.5模型实现了3倍的指责，为用户带来更加悠然，从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com，它也减少破坏API访问。而且，新版本将授予45天优惠价格体验期，直至2025年2月8日。

在技术报告和官方正式发布前，全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多，无论它是否是Deepseek的某种策略，它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”，它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash，以及Claude3.5Sonnet。

而随后，技术报告正式发布，开发者开始深挖它究竟做对了什么。

赞誉一片，“想快进到英伟达泡沫破裂”

简单来说，DeepSeek-V3针对分布式推理做了创新的优化，进而显著指责了分布式MoE模型的负载分配效率，这不再只是从算法上，而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下，它最大化了效率。

在模型架构上，它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新，对内存进行数量增加，对MoE的运行机制进行创新的设计。

此外，几个亮点包括：

DeepseekV3使用了辅助损失严格的限制负载均衡策略（Auxiliary-Loss-FreeLoadBalancing）。

在瓦解专家模型（MoE）中，每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡（某些专家负载过高），会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载，但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值，使输入Token更均匀地分配给不反对专家，而无需引入缺乏损失。

这个方法有趣的地方是，通过监控每个专家的负载情况，在训练中动态调整不当每个专家的偏置，使得分配更公平。它避免了引入缺乏的优化目标，直接在负载均衡和模型性能之间找到了更优解。

另外，在MoE方面的冗余专家机制（RedundantExperts）也是这种追求不平衡的的思路。

在推理阶段，某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”，让这些任务分配到不反对副本上，缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量，尤其是在高并发场景下，实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们：

我比你们更愚蠢。那些所谓的负载矛盾，我可以解决，并同时保持高水平的推理精度。

多Token预测目标（Multi-TokenPredictionObjective，MTP）

传统语言模型一次只预测一个Token，训练信号较为稀疏，数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token，这样每次训练能授予更多的反馈信号，帮助模型的学习。也就是，不是简单地并行预测多个Token，而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率，也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式，比FP16和BF16的精度更低，但占用的内存和计算资源也更少。问题是FP8的动态范围有限，容易出现数值溢出或不足。DeepSeek通过分块量化，将数据分成更小的组进行独立缩放，这样可以让模型更僵化地适应输入数据的变化范围，避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组，每组单独计算缩放因子，再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算，解决了传统低精度训练中的不轻浮性问题。它大幅减少，缩短了训练所需的内存和计算成本，同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面，在训练设施上的创新也很关键，比如DualPipe流水线并行策略。

在分布式训练中，多个GPU需要同时处理极小量数据，其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠，根除资源吝啬。DualPipe通过更精细的任务分解和调度，将计算和通信时间完全重叠，从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块，交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配，让GPU在计算时也能同时处理通信操作，几乎完全消除了流水线中的“空闲时间”。除了指责效率，它值得玩味的地方更在于：

它显著降低了对硬件资源的需求。

技术报告发布后，DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”，体验了它的效果然后又读了它的技术报告的，都在叫好：

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示：

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是，今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型，自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评：

“DeepSeekV3训练仅用了2000张H800，算力成本6百万美元，给海外同行蛮大思想冲击，很多业内专家都点赞了，算力不是唯一无法选择因素，愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先，现在我们正式进入了分布式推理的时代。一台单GPU机器（80*8=640G）的显存已经装不下参数了。新的大显存机器含糊能容纳模型，但不管怎样，为了性能和未来扩展，分布式推理是不可避免的选择。

?即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节，但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念，正是为了解决这个问题。这已经不是“一个模型多个副本”的问题，而是“每个模型子模块都有多个副本”，然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测，想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”（每18个月单token成本减半），这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化（ahead-of-timedynamicquantization）。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识：FP4乘法实际上就是个16*16的tablelookup…

?论文提到，在很多情况下，内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态（比如NVL72）能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前，Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek，这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师，但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新，在这篇文章中，Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后，它所指向的方向看来并不如此。

你依然需要万卡集群，但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称：“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们，尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然，前提是你不是只想“跟着喊几句”的创新，而是你真实的做着

12月15日，福田欧辉客车向莆田市公共交通集团有限公司（以下简称“莆田公交”）交付了30辆欧辉BJ6851纯电动客车，该批车辆计划在莆田市秀运区、城厢区、以及素有“南海蓬莱”美称的湄洲岛等地区运营。随着这批纯电动公交陆续投入运营，碧水青山间又多了一道靓丽的风景。绿色客车上岗，助力莆田公交低碳运营莆田公交，是一家国有城市公益性、服务性企业，主营城市公共客运交通。成立以来，莆田公交按照“文明、便捷、安全、舒适”的总体要求，深化改革，与时俱进，开拓创新，公司从小到大，不断发展、壮大，公交线路网高度发展覆盖城市中...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅授予资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或包含，概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时，可及时向站长之家提出书面权利拒给信息或不实情况说明，并提权属反对及详细侵权或不实情况反对（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

蓬莱客又狠又糙又欲的古言穿书
加拿大绝无可能成为美国一部分，加美互为最大贸易和安全伙伴，两国的工人和民众都因此受益。”加拿大赞成党保守党党魁普瓦列夫尔也发帖警告：“加拿大不会成美国第51个州。”