DeepSeek-V3与DeepSeek-R1的中心差别客岁12月26日,DeepSeek AI正式宣布了其最新的年夜型言语模子DeepSeek-V3。这款开源模子采取了高达6710亿参数的MoE架构,每秒可能处置60个token,比V2快了3倍。一经宣布,就在 AI 范畴惹起了轩然年夜波。时隔缺乏一个月,在往年1月20日,深度求索又正式宣布推理年夜模子DeepSeek-R1。DeepSeek-R1的宣布,再次震动业界!1月27日,DeepSeek利用登顶苹果中国区跟美国区利用市肆收费App下载排行榜。1月31日,英伟达、亚马逊跟微软这三家美国科技巨子,在统一天发布接入DeepSeek-R1。对于DeepSeek-V3与DeepSeek-R1-Distill 蒸馏模子的差别:DeepSeek-V3 合适庞杂义务处置跟高精度场景,如长文档剖析、多模态推理、科研盘算等。 支撑千卡级练习,满意超年夜范围集群散布式练习需要。 DeepSeek-R1-Distill 蒸馏模子 合适轻量级安排跟资本受限场景,如边沿装备推理、中小企业疾速验证 AI 利用。 在显存跟算力请求上更为机动,适配入门级硬件。 起源:Gitee AI克日,硅谷顶尖危险投资家、a16Z结合开创人Marc Andreessen发文援用SensorTower数据:现在DeepSeek日活用户数曾经到达了ChatGPT的23%,而且利用逐日下载量濒临500万。2月5日,京东云发布正式上线DeepSeek-R1跟DeepSeek-V3模子,支撑私有云在线安排、专混私有化实例安排两种形式。前多少日,阿里云、百度智能云、华为云、腾讯云、火山引擎、天翼云已接入了DeepSeek模子。海内的亚马逊AWS、微软Azure等云巨子同样官宣支撑。那么,DeepSeek毕竟是以何种奇特魅力,博得了宽大用户的青眼与爱好呢?DeepSeek的两年夜上风 开展全文
市场热捧的产物,每每有个明显个性:能帮用户降本增效。这,同样是 DeepSeek 的上风地点。
起首在低本钱与高效力方面,DeepSeek-V3的练习本钱仅为557.6万美元(约为GPT-4的二非常之一),却能在逻辑推理、代码天生等义务中到达与GPT-4o、Claude-3.5-Sonnet邻近的机能,乃至超出局部开源模子(如Llama-3.1-405B)。其技巧中心在于算法优化(如MoE架构、静态进修率调理器)跟数据效力晋升,而非依附算力重叠。
作为对照,GPT-5一次为期6个月的练习仅盘算本钱就高达约5亿美元。
其次,开源与机动安排也是DeepSeek的凸起上风之一。DeepSeek抉择将模子权重开源,并公然练习细节,这为寰球的AI研讨者翻开了一扇通往模子外部的年夜门,让他们可能深刻懂得模子的练习进程、所采取的算法以及碰到的成绩跟处理计划。
360团体开创人周鸿祎指出,DeepSeek真正践行了开放的精力。与OpenAI等封闭形式平台比拟,DeepSeek容许开辟者应用其开源模子停止技巧发掘跟翻新,这是对技巧共享理念的无力支撑。OpenAI固然以“开源”自居,但跟着贸易化的推动,越来越多地抉择关闭式战略,这与其创建初志南辕北辙。
别的,周鸿祎特殊提到DeepSeek的模子蒸馏技巧,他以为这是一种极具前瞻性的实际。在他看来,DeepSeek对模子蒸馏的开放立场,展现了其自负与忘我。相较之下,OpenAI对用户蒸馏其模子的限度,表现出其对竞争敌手的排挤跟对本身上风的保护。
DeepSeek所需的GPU,重要起源于英伟达
晚期对AI技巧跟硬件基本设备的策略投资,为DeepSeek的胜利奠基了基本。
据SemiAnalysis评价,DeepSeek领有大概50,000个Hopper架构的GPU,此中包含10,000个H800跟10,000个H100型号。别的,他们还订购了大批的H20型号GPU,这些GPU专为中国市场计划。只管H800与H100存在雷同的盘算才能,但其收集带宽较低。H20是以后独一对中国模子供给商可用的型号。这些GPU不只用于DeepSeek,也效劳于High-Flyer,地舆上疏散安排,支撑买卖、推理、练习跟研讨等多种义务。
至于DeepSeek怎样取得如斯少数量的Hopper GPU。
早在2021年High-Flyer就看好AI的开展潜力并武断投资购置了10,000个A100 GPU,用于年夜范围模子练习试验。这项策略决议厥后被证实长短常胜利的,为公司带来了明显的竞争上风。
在1月25日新年前,AMD就官宣将DeepSeek-V3模子集成到了Instinct MI300X GPU上。
随后在1月31日,AI芯片龙头英伟达也官宣其NVIDIA NIM微效劳预览版对DeepSeek-R1模子的支撑。NIM微效劳基于HGX H200体系,每秒可能处置3872个tokens。开辟者们能够挪用API停止测试跟实验,该API后续会作为英伟达AI企业软件平台的一局部供给。
同日,英特尔发布DeepSeek可能在搭载酷睿处置器的AI PC上离线应用。在酷睿Ultra 200H(Arrow Lake H)平台上,DeepSeek-R1-1.5B模子可能当地离线运转,做翻译、做集会纪要、停止文档撰写等义务。
要晓得DeepSeek 在算力芯片受限的倒霉要素下,到达OpenAI等顶级模子的程度,是海内AI生态级的冲破。现在,跟着 DeepSeek 这类模子的开展,对 GPU 需要连续攀升。国产 GPU 厂商也灵敏捕获到这一机会,正在踊跃停止适配任务。他们深知,适配胜利不只能助力 DeepSeek 等模子更好地开展,也能为本身翻开更辽阔的市场空间,晋升国产 GPU 在 AI 范畴的影响力。
11年夜国产AI芯片公司,发布适配DeepSeek
仅在2月1日至2月7日这短短7天内,就有11家国产AI芯片公司发布实现对 DeepSeek 的适配 。
DeepSeek系列新模子正式上线昇腾社区
2月1日,华为云发布与硅基活动结合首发并上线基于华为云昇腾云效劳的DeepSeek R1/V3推理效劳。得益于自研推理减速引擎加持,该效劳支撑安排的DeepSeek模子可取得持平寰球高端GPU安排模子的后果。
2月5日,华为发布,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro于2月4日正式上线昇腾社区,支撑一键获取DeepSeek系列模子,支撑昇腾硬件平台上开箱即用,推理疾速安排,带来更快、更高效、更便捷的AI开辟跟利用休会。
摩尔线程实现对DeepSeek蒸馏模子推理效劳的高效安排
2月4日,摩尔线程发文称已疾速实现对DeepSeek蒸馏模子推理效劳的高效安排,旨在赋能更多开辟者基于摩尔线程全功效GPU停止AI利用翻新。
别的,用户也能够基于MTT S80跟MTT S4000停止DeepSeek-R1蒸馏模子的推理安排。
经由过程DeepSeek供给的蒸馏模子,可能将年夜范围模子的才能迁徙至更小、更高效的版本,在国产GPU上实现高机能推理。摩尔线程基于自研全功效GPU,经由过程开源与自研双引擎计划,疾速实现了对DeepSeek蒸馏模子的推理效劳安排,为用户跟社区供给高品质效劳。
DeepSeek V3跟R1模子实现海光DCU适配并正式上线
2月4日晚间,海光信息发布公司技巧团队胜利实现DeepSeek V3跟R1模子与海光DCU(深度盘算单位)的适配,并正式上线。
DeepSeek V3跟R1模子采取了Multi-Head Latent Attention(MLA)、DeepSeekMoE、多令牌猜测、FP8混杂精度练习等翻新技巧,明显晋升了模子的练习效力跟推感性能。
DCU是海光信息推出的高机能GPGPU架构AI减速卡,努力于为行业客户供给自立可控的全精度通用AI减速盘算处理计划。凭仗出色的算力机能跟齐备的软件生态,DCU已在科教、金融、医疗、政务、智算核心等多个范畴实现范围化利用。
跟着海光等专一于 GPU 研发的公司纷纭表现已实现对 DeepSeek V3 的适配。从这一景象来看,DeepSeek 模子在业界或者正逐步取得较高的承认度与通用性。
那么,海光 DCU 的哪些硬件特征跟架构计划使得它可能很好地支撑 DeepSeek V3 跟 R1 模子的高效运转?
有业内子士表现,海光DCU采取了GPGPU架构,从而保障在面临新型利用的时间具有极好的兼容性与适配性;同时DCU配套的软件栈也经由了多年的积聚,响应软件生态成熟丰盛,在与新模子、利用适配的时间具有齐备的软件支持才能。以上独特保证了对DeepSeek V3/R1为代表的新模子可能供给高效的兼容与支持才能。
值得留神的是,海光本次适配并不用到额定的旁边层东西,依靠现有DCU软件栈就能够实现疾速的支持。这重要得益于DCU的GPGPU架构通用性跟本身对主流生态的精良兼容,从而年夜幅晋升了年夜模子等人工智能利用的安排效力。
天数智芯结合Gitee AI正式上线DeepSeek R1模子效劳
2月4日,天数智芯与 Gitee AI 结合宣布新闻,在两边的高效合作下,仅用时一天,便胜利实现了与 DeepSeek R1 的适配任务,而且已正式上线多款年夜模子效劳,此中包含 DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B等。
Gitee AI与沐曦联袂首发DeepSeek R1系列千问蒸馏模子
2月2日,Gitee AI 正式推出了四个轻量级版本的 DeepSeek 模子,分辨为
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B 跟 DeepSeek-R1-Distill-Qwen-32B。尤为惹人注视的是,这些模子均安排在国产沐曦曦云 GPU 上。
上文曾提到,与全尺寸 DeepSeek 模子比拟,较小尺寸的 DeepSeek 蒸馏版本模子更合适企业外部实行安排,能够下降落地本钱。
同时,此次Deepseek R1 模子 + 沐曦曦云 GPU + Gitee AI 平台,更是实现了从芯片到平台,从算力到模子天下产研发。
随后在2月5日 Gitee AI发布再次将DeepSeek-V3满血版(671B)上线到平台上(满血版现在仅供各人休会用处)。这也是 Gitee AI 继全套千问蒸馏模子上线沐曦 GPU 卡之后的又一年夜的更新。
壁仞AI算力平台上线DeepSeek R1蒸馏模子推理效劳,支撑云端休会
2月5日,壁仞科技发布,凭仗自立研发的壁砺系列GPU产物杰出的兼容机能,只用数个小时,就实现对DeepSeek R1全系列蒸馏模子的支撑,涵盖从1.5B到70B各品级参数版本,包含LLaMA蒸馏模子跟千问蒸馏模子。
现在,壁仞科技已构建起从底层硬件到模子效劳的完全AI技巧栈,可为中小企业跟研讨机构供给“芯片+模子”的端到端处理计划。
云天励飞DeepEdge10已实现DeepSeek R1系列模子适配
2月5日,云天励飞发布,其芯片团队实现 DeepEdge10 “算力积木”芯片平台与
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B年夜模子的适配,能够交付客户应用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B年夜模子、DeepSeek V3/R1 671B MoE年夜模子也在有序适配中。适配实现后,DeepEdge10芯片平台将在端、边、云片面支撑DeepSeek全系列模子。
DeepEdge10系列芯片是专门针对年夜模子时期打造的芯片,支撑包含 Transformer 模子、BEV 模子、CV 年夜模子、LLM 年夜模子等各种差别架构的主流模子;基于自立可控的进步国产工艺打造,采取奇特的“算力积木”架构,可机动满意差别场景对算力的需要,为年夜模子推理供给强盛能源。
基于太始T100减速卡2小时适配DeepSeek-R1系列模子
2月5日,太始元碁Tecorigin表现,基于通用的异构众核芯片架构跟深沉的软件生态积聚,在太始T100减速卡上仅用2小时便实现DeepSeek-R1系列模子的适配任务,疾速上线包含
DeepSeek-R1-Distill-Qwen-7B在内的多款年夜模子效劳,为人工智能利用的翻新开展供给了强无力的技巧支持跟主动可控的算力设备保证。
现在,太始元碁正踊跃联袂京算、是石科技、神威数智、龙芯中科等配合搭档,尽力打造DeepSeek系列模子的云端推理平台。企业用户只要经由过程简略的操纵,即可在云端疾速获取太始T100减速卡的强盛推理才能,轻松实现智能化转型,晋升出产效力跟翻新才能,以在剧烈的市场竞争中怀才不遇。同时,太始元碁也结合龙芯中科供给面向政务信创的国密云端推理平台,以满意信创刚需。
燧原科技实现天下各地智算核心DeepSeek的全量推理效劳安排
2月6日,燧原科技发布实现对DeepSeek全量模子的高效适配,包含DeepSeek-R1/V3 671B原生模子、
DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模子。全部适配过程中,燧原AI减速卡的盘算才能失掉充足应用,可能疾速处置海量数据,同时其稳固性为模子的连续优化跟年夜范围安排供给了坚固的基本。
现在,DeepSeek的全量模子已在庆阳、无锡、成都等智算核心实现了数万卡的疾速安排,将为客户及配合搭档供给高机能盘算资本,晋升模子推理效力,同时下降应用门槛,年夜幅节俭硬件本钱。
昆仑芯片面适配DeepSeek
2月6日,昆仑芯科技发布,在DeepSeek-V3/R1上线未几,昆仑芯便率先实现全版本模子适配,这此中包含DeepSeek MoE 模子及其蒸馏的Llama/Qwen等小范围dense模子。
昆仑芯P800能够较好的支持DeepSeek系列MoE模子年夜范围练习义务,片面支撑MLA、多专家并行等特征,仅需32台即可支撑模子全参练习,高效实现模子连续练习跟微调。
P800显存规格优于同类主流GPU20%-50%,对MoE架构愈加友爱,且率先支撑8bit推理,单机8卡即可运转 671B 模子。正因如斯,昆仑芯相较同类产物愈加易于安排,同时可明显下降运转本钱,轻松实现DeepSeek-V3/R1全版本推理义务。
龙芯处置器胜利运转DeepSeek年夜模子
2月7日,龙芯中科发布,日前,龙芯结合太始元碁等工业搭档,仅用2小时即在太始T100减速卡上实现DeepSeek-R1系列模子的适配任务,疾速上线包括
DeepSeek-R1-Distill-Qwen-7B在内的多款年夜模子效劳。
别的,采取龙芯3A6000处置器的诚迈信创电脑跟望龙电脑已实现当地安排DeepSeek,安排后无需依附云端效劳器,防止了因收集稳定或效劳器过载招致的效劳中止,可高效实现文档处置、数据剖析、内容创作等多项任务,明显晋升任务效力。
DeepSeek给国产芯片公司,带来新契机
DeepSeek 的横空降生好像一颗投入安静湖面的石子,外行业中激发层层荡漾,为国产芯片公司带来新的开展契机。
起首,跟着年夜模子利用的各处着花,对芯片的需要也水涨船高。无论是模子练习时所需的强盛算力,仍是推理进程中对低耽误、高效力的寻求,都为国产芯片公司翻开了新的市场空间。以往,因为昂扬的年夜模子应用本钱,很多潜伏的利用场景被克制,现在 DeepSeek 攻破了这一僵局,国产芯片公司得以凭仗本身产物在新兴的细分市场中锋芒毕露,满意差别行业对年夜模子运算的芯片需要。
其次,DeepSeek 年夜模子与国产 AI 芯片适配的逐渐成熟,是另一个要害契机。此前,国产 AI 芯片在开展进程中,常面对与主流年夜模子适配度欠安的成绩,这限度了其市场推广与利用拓展。而 DeepSeek 的呈现转变了这一局势,它为国产 AI 芯片供给了一个更为符合的适配平台。
当国产 AI 芯片可能与 DeepSeek 年夜模子精良适配后,能够放慢国产 AI 芯片在海内年夜模子练习端跟推理真个利用,使得国产芯片在外乡市场中取得更多实际机遇,经由过程一直优化跟改良,晋升产物机能。
最后,跟着 DeepSeek 与国产芯片的适配,将与其余国产软硬件厂商构成协同效应,构建起完全的生态闭环,这将推进国产芯片在人工智能范畴的利用,减速国产芯片生态系统的建立。前往搜狐,检查更多