DeepSeek-V3是由中国AI初创公司
杭州深度求索人工智能基础技术研究有限公司发布的LLM模型,于2024年12月26日发布。
发展历程
2024年12月26日晚间,杭州深度求索人工智能基础技术研究有限公司宣布,全新系列模型DeepSeek-V3首个版本上线并同步开源。2025年1月27日,DeepSeek-V3登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。DeepSeek-V3在所有模型中排名第七,在开源模型排第一。而且,DeepSeek-V3是全球前十中性价比最高的模型。DeepSeek-V3发布后,英伟达股价下跌了2%。
2025年2月3日,百度智能云千帆平台已正式上架DeepSeek-V3模型。2月3日,
阿里云计算有限公司发文官宣,阿里云PAI Model Gallery 支持云上一键部署DeepSeek-V3、DeepSeek-R1。2月4日,DeepSeek-V3正式上线昇腾社区。2月5日,京东云已正式上线DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式,供用户按需部署,快速调用。2月,金山云在公有云场景和国资云/政务云场景已支持DeepSeek-R1/V3。2月8日,商汤科技宣布,即日起,企业客户和开发者可在商汤大装置万象平台中,快速部署DeepSeek-V3、DeepSeek-R1等模型,可享受3个月内1000万tokens免费使用权益。2月10日,讯飞开放平台上线第807项AI能力——由杭州深度求索带来的DeepSeek全系列模型。DeepSeek-V3、DeepSeek-R1均已上线,支持公有云API调用、一键部署专属模型。2月10日,中国电子发布消息称,其所属中国电子云CECSTACK智算云平台正式上线MoE架构的671B全量DeepSeek-R1/V3模型,以及DeepSeek-R1的蒸馏系列Qwen/Llama模型,并提供私有化部署方案。2月,无问芯穹已打通DeepSeek-R1、V3在壁仞、海光、摩尔线程等七个硬件平台的适配优化,开发者已可通过Infini-AI异构云平台获取DeepSeek系列模型与多元异构国产算力服务。2月13日,阿里巴巴旗下“通义灵码”宣布全新上线模型选择功能,支持基于百炼的 DeepSeek-V3 和 DeepSeek-R1 满血版 671B 模型。2月,广州市政务服务和数据管理局在政务外网正式部署上线DeepSeek-R1、V3 671B大模型,通过融合海量政务数据要素,大模型将丰富政务服务场景应用,推动人工智能大模型在民生政策解读系统、12345热线工单分派等政务领域应用。
2025年2月,据浙江大学消息,深度融合智能体“浙大先生”于2月14日正式发布,本地化部署 DeepSeek V3、R1 模型,基于 CARSI 资源共享平台,覆盖教学、科研、生活等全场景;“浙大先生”将面向全国 829 所 CARSI 联盟高校开放共享,师生只需通过校园账号登录即可免费使用满血版 DeepSeek,2月20日起,该入口将正式开放。2月20日,超图软件在投资者互动平台表示,公司对于DeepSeek-V3大模型已经完成对接和适配。2月,《杭州新闻联播》AI主播“零失误上岗”刷屏,主播现场揭秘自己AI分身:第一时间接入DeepSeek-V3,所以相比之前,AI分身变得更“聪明”了。
2025年2月21日,京东云宣布DeepSeek一体机再升级,京东云 vGPU 智算一体机单台即可运行满血版 DeepSeek V3 / R1。2025年3月,安徽师范大学已正式启动智能AI应用平台与Deepseek大模型的系统对接,进入多场景试运行阶段,学校官网首页新增“校园百事通”入口,依托DeepseekV3模型实现信息秒级检索。3月13日,北京大学计算中心发布通知,北大本地化部署的DeepSeek满血版R1和V3,已深度适配教学应用场景,向校内多项人工智能应用北大问学、AIMD、化小北、金融AI助教提供服务。3月24日,DeepSeek V3模型已完成小版本升级,API接口和使用方式保持不变。3月26日,腾讯混元宣布,DeepSeek V3最新版已上线元宝。3月27日,硅基流动宣布,硅基流动SiliconCloud平台的Pro版与普通版DeepSeek-V3均已完成升级。4月1日,DeepSeek-V3-0324在大模型竞技场排名中,打败了自己的DeepSeek-R1,成为开源AI至尊。4月2日消息,全球最大的AI开源社区Hugging Face更新了大模型榜单,阿里通义千问近期开源的端到端全模态大模型Qwen2.5-Omni登上总榜榜首,DeepSeek-V3-0324和群核的SpatialLM-Llama-1B紧随其后,杭州公司霸榜全球开源模型榜单前三。
技术特点
DeepSeek-V3 是一个混合专家(MoE)语言模型,具有总计6710亿个参数,每个 token 激活 370亿个参数。该模型在14.8万亿个多样且高质量的tokens上进行了预训练,并通过监督微调和强化学习阶段进一步优化。
训练成本
DeepSeek V3的训练成本仅使用了2048个H800GPU,总训练GPU卡时为2788千小时(其中预训练为2664千小时),平均到每个GPU上仅为1361小时,约合56.7天。
相关参数
DeepSeek v3具有 Mixture-of-Experts 架构,总参数达 671B。DeepSeek v3经过14.8万亿个不同代币的训练,并结合了多代币预测等先进技术,为AI语言建模树立了新标准。 该模型支持128K上下文窗口,提供与领先的闭源模型相当的性能,同时保持高效的推理能力。相比V2.5版本,DeepSeek-V3的生成速度提升至3倍,每秒吞吐量高达60 token。
DeepSeek V3技术文档提及了使用模型生成训练数据等,因此数据质量或有较大幅度提升。GPT-4 MoE使用了13万亿(1300B)token,而DeepSeek V3使用的token数量约为14.8万亿(1480B),数据量相差不大。
基准测试
在多项基准测试中,DeepSeek-V3的成绩超越了Qwen2.5-72 B和Llama-3.1-405 B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
在数学能力方面,以2024年美国数学竞赛和全国高中数学联赛题库进行测试,DeepSeek-V3大幅超过了所有开源闭源模型。
DeepSeek V3在长文本处理、代码生成和数学推理等多个领域都展示了顶尖的性能。特别是在中文任务和数学基准测试中,DeepSeek V3的表现尤为突出,展现了其深刻的理解和处理能力。通过算法和工程上的优化,DeepSeek V3在生成速度上实现了三倍提升,从20 TPS提高到60 TPS,极大改善了用户的交互体验和模型响应速度。
应用场景
聊天和编码场景:为开发者设计,能够理解和生成代码,提高编程效率。
多语言自动翻译:支持多达20种语言的实时翻译和语音识别,适合需要处理多种语言内容的企业用户。
图像生成和AI绘画:整合视觉理解技术,允许用户通过简单的文本描述生成高质量图像,丰富应用场景和用户创意表达的自由度。
产品定价
DeepSeek-V3的模型API服务定价为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。2024年12月26日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。
2025年2月26日下午,DeepSeek在其API(接口)平台上发布提醒信息称,北京时间每日00:30-08:30为错峰时段,API调用价格大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1降至25%,在该时段调用享受更经济更流畅的服务体验。
模型对比
百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022。
中文能力:DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
相关评价
DeepSeek-V3是中国科技界带给美国的苦涩教训。当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。(AI数据服务公司Scale AI创始人Alexander Wang评)
“从斯坦福到麻省理工,DeepSeek-R1几乎一夜之间成为美国顶尖大学研究人员的首选模型。”(A16z合伙人、Mistral AI董事会成员Anjney Midha评)
DeepSeek-R1是一款令人印象深刻的模型,尤其是考虑到它能够以这个价格提供(这样的产品),有这样的新竞争对手确实令人振奋。(美国开放人工智能研究中心(OpenAI)首席执行官萨姆·奥尔特曼 评)
DeepSeek-V3模型有可能彻底改变训练和推理领域的游戏规则。(Noah's Arc资本管理公司评)
资源限制是一件美妙的事情。在竞争激烈的人工智能领域中,生存本能是推动突破的主要动力。本人一直在关注DeepSeek。去年他们拥有最好的开源编码模型之一。卓越的开源模型给前沿的大语言模型商业公司带来了巨大的压力,迫使他们加快步伐。本人非常期待看到DeepSeek在开源平台LM Arena上的ELO评分!(英伟达高级科学家范麟熙(Jim Fan)评)
FP8预训练、混合专家模型(MoE)、在极其有限的预算下表现出色,以及通过CoT(Chain of Thought)进行蒸馏引导以实现自举……这真是了不起的工作。(Meta AI(FAIR)的研究科学家和高级经理田远东(Yuandong Tian)评)
美国的芯片出口管制并未达到预期效果。中国的DeepSeek V3模型表现非常强大,其训练成本远低于预期。(硅谷风险投资公司Conviction创始人莎拉·郭(Sarah Guo)评)
对于Sonnet级别而言,550万美元的投资确实是一项值得夸耀的成就,他们对此感到自豪是情理之中的事,尽管这不免给人一种炫耀之感。1亿美元的运算成本,405B模型耗费了3084万H100 GPU小时,是吗?西方的拙劣尝试者们的硅资源被白白浪费了,思路甚至无法减少自己模型的损失。”(麻省理工学院博士生朴英孝(Younghyo Park)评)
在当前的讨论中,DeepSeek模型被频繁地与‘中国’联系在一起,并且隐含地与中美关系或GPU能力联系起来。但在我看来,DeepSeek的成功与这些因素关系不大。这仅仅是智慧和实用主义的体现:在有限的计算资源和人力条件下,通过聪明的研究产生最好的结果。就像当年阿历克斯·克里兹赫夫斯基(Alex Krizhevsky)需要用仅有的2个GPU创造奇迹一样,而不是依赖一个超级计算集群。(Lepton AI的创始人、首席执行官贾扬清评)
模型事件
2025年1月24号,一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称,现在Meta内部因为DeepSeek的模型,已经进入恐慌模式。工程师们正在争分夺秒地分析DeepSeek,试图复制其中的一切可能技术。