梁文峰接受记者采访

许大文

<p class="ql-block"><b>豆包好!梁文峰接受记者采访谈话全部内容?</b></p><p class="ql-block"><b>以下是记者对DeepSeek创始人梁文峰的采访内容,涉及大模型价格战、公司发展方向、创新理念、团队建设等多个方面的讨论。</b></p><p class="ql-block"><b> 关于大模型价格战</b></p><p class="ql-block"><b> 记者安勇(以下简称“安”):DeepSeek V2模型发布后,迅速引发了大模型行业的激烈价格战。有人认为你们是市场的颠覆者。</b></p><p class="ql-block"><b>梁文峰(以下简称“梁”):我们从未想过要成为颠覆者,这一切只是意外发生的。</b></p><p class="ql-block"><b>安:这个结果让你意外吗?</b></p><p class="ql-block"><b>梁:非常意外。我们没想到定价会是如此敏感的问题。我们只是按照自己的节奏,计算成本后合理定价。我们的原则是不亏本销售,也不追求过高利润。目前的定价仅在成本之上保留了一定的利润空间。</b></p><p class="ql-block"><b>安:五天后,智谱AI跟进降价,随后字节跳动、阿里巴巴、百度和腾讯也加入了这场价格战。</b></p><p class="ql-block"><b>梁:智谱AI只是降低了入门级产品的价格,而他们的旗舰模型仍然很贵。真正匹配我们旗舰产品价格的是字节跳动,这对其他公司形成了压力。由于大公司的大模型成本远高于我们,我们从未想过有人会愿意亏本运营。但最终,市场竟然回到了互联网时代的补贴竞争逻辑。</b></p><p class="ql-block"><b>安:站在外部观察,降价似乎是一种典型的互联网时代竞争策略,目的是抢占用户。</b></p><p class="ql-block"><b>梁:抢用户并不是我们的主要目标。我们降价的原因有两个:首先,在探索下一代模型架构的过程中,我们的成本下降了;其次,我们认为AI和API服务应该是人人都能负担得起、随时可用的。</b></p><p class="ql-block"><b> 关于专注模型结构研究</b></p><p class="ql-block"><b> 安:在此之前,大多数中国公司只是复制Llama的模型架构来开发应用。为什么你们选择专注于模型结构本身?</b></p><p class="ql-block"><b>梁:如果目标是做应用,采用Llama的架构快速上线产品是合理的选择。但我们的目标是AGI(通用人工智能),这要求我们探索新的模型架构,以在有限的资源下实现更强的能力。这是规模化发展的基础性研究。除了架构,我们还深入研究了数据筛选和类人推理能力,这些都在我们的模型中有所体现。而且,Llama的训练效率和推理成本相比全球最前沿的标准,至少落后两代。</b></p><p class="ql-block"><b>安:这两代的差距主要体现在哪里?</b></p><p class="ql-block"><b>梁:首先是训练效率的差距。我们估算,中国目前最好的模型,在算力相同的情况下,可能需要两倍的计算资源才能达到全球顶尖模型的水平。这是由于架构和训练策略的差距。其次是数据利用效率,中国的模型大约只有全球最优水平的一半,也就是说,同样的结果需要两倍的数据和计算量。两者叠加,意味着整体资源消耗是四倍。我们的目标是不断缩小这个差距。</b></p><p class="ql-block"><b>安:大多数中国公司都会同时布局模型和应用,为什么DeepSeek只专注于研究?</b></p><p class="ql-block"><b>梁:因为我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。这一次,我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。</b></p><p class="ql-block"><b> 关于中美技术创新差异</b></p><p class="ql-block"><b> 安:互联网和移动互联网时代的普遍共识是,美国擅长创新,而中国擅长应用落地。</b></p><p class="ql-block"><b>梁:我们认为,随着经济的发展,中国必须逐步从技术的受益者转变为贡献者,而不是一直依赖别人的成果。在过去30年的IT革命中,我们几乎没有真正参与核心技术创新。我们习惯了摩尔定律“从天而降”——只需等上18个月,就能获得更先进的硬件和软件。同样,我们对大模型的“规模定律”也是如此。但事实上,这些技术进步是西方科技社区几代人持续努力的结果。由于我们长期未能深度参与这一进程,反而渐渐忽视了其真正的价值。真正的差距在于原创性,而不仅仅是时间。</b></p><p class="ql-block"><b> 关于DeepSeek让硅谷惊讶的原因</b></p><p class="ql-block"><b> 安:为什么DeepSeek V2会让硅谷许多人感到意外?</b></p><p class="ql-block"><b>梁:在美国,每天都有各种创新出现,从这个角度看,我们的突破并不算特别。但他们惊讶的是,一家中国公司不仅仅是跟随者,而是以创新者的身份加入了他们的竞争。这与大多数中国企业习惯的模式完全不同。</b></p><p class="ql-block"><b> 关于中国创新面临的问题</b></p><p class="ql-block"><b> 安:但在中国的现实环境下,单纯追求创新似乎是一种奢侈。大模型研发本身极其烧钱,不是每家公司都能在商业化之前只专注于研究。</b></p><p class="ql-block"><b>梁:创新当然成本高昂,而过去我们倾向于采用现成技术,主要是因为中国的发展阶段所限。但今天,中国的经济规模以及字节跳动、腾讯等巨头的盈利能力,已经具有全球影响力。我们真正缺乏的不是资金,而是信心,以及组织高水平人才进行有效创新的能力。</b></p><p class="ql-block"><b>安:为什么即使是资金充足的中国科技巨头,也往往更重视快速商业化?</b></p><p class="ql-block"><b>梁:过去30年,我们更关注利润,而不是创新。但创新不仅仅是商业驱动的,它需要好奇心和创造的野心。我们被过去的习惯束缚住了,但这只是一个阶段。</b></p><p class="ql-block"><b> 关于公司的护城河</b></p><p class="ql-block"><b> 安:但DeepSeek毕竟是一家企业,而不是非营利的研究机构。如果你们进行创新,并且像5月发布的MLA架构那样开源突破性成果,竞争对手岂不是很快就能复制?你们的护城河在哪里?</b></p><p class="ql-block"><b>梁:在颠覆性技术领域,封闭式的护城河并不持久。即便是OpenAI的闭源模式,也无法阻止其他公司迎头赶上。因此,我们真正的护城河在于团队的成长——积累技术Know-how,培养创新文化。开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。开源不仅仅是商业策略,更是一种文化。回馈社区是一种荣誉,同时也能吸引更多优秀人才。</b></p><p class="ql-block"><b> 关于对市场派观点的看法</b></p><p class="ql-block"><b> 安:你怎么看待市场派的观点,比如朱啸虎的立场(他主张AI公司应优先商业化,而不是进行基础研究,并认为AGI是不切实际的)?</b></p><p class="ql-block"><b>梁:朱啸虎的逻辑适用于短期盈利项目,但美国最赚钱的公司,往往是那些依靠长期研发建立技术壁垒的科技巨头。</b></p><p class="ql-block"><b> 关于DeepSeek的长远押注</b></p><p class="ql-block"><b> 安:但在AI领域,单纯的技术领先还不够。DeepSeek在更长远的层面上,究竟押注的是什么?</b></p><p class="ql-block"><b>梁:我们认为,中国的AI不能永远做跟随者。人们常说,中国AI比美国落后一到两年,但真正的差距在于“原创”与“模仿”。如果不改变这一点,中国永远只能追赶别人,而不是引领方向。有些探索是无法回避的。英伟达的成功并不仅仅是自身努力的结果,而是西方科技生态系统长期合作,共同规划下一代技术路线的成果。中国也需要类似的生态体系。国内许多芯片失败,不是因为资金不足,而是因为缺乏支撑性技术社区,仅依赖二手信息。必须有人走在前沿。</b></p><p class="ql-block"><b> 关于公司的开源策略</b></p><p class="ql-block"><b> 安:DeepSeek现在给人的感觉很像OpenAI早期的理想主义阶段,而且你们坚持开源。未来会像OpenAI或Mistral那样,转向闭源吗?</b></p><p class="ql-block"><b>梁:我们不会闭源。我们认为,建立一个强大的技术生态,比封闭式的商业模式更重要。</b></p><p class="ql-block"><b> 关于融资计划</b></p><p class="ql-block"><b> 安:有没有融资计划?有媒体报道,焕放【1】计划将DeepSeek拆分上市。硅谷的AI初创公司最终都会与大公司结盟,你们会跟随这种趋势吗?</b></p><p class="ql-block"><b>梁:目前没有短期融资计划。我们真正的挑战从来不是资金,而是高端芯片的出口禁令。</b></p><p class="ql-block"><b> 关于AGI发展的观点</b></p><p class="ql-block"><b> 安:许多人认为,AGI的发展需要高调的合作和行业影响力,而不像量化投资那样适合低调运作。你认同这种观点吗?</b></p><p class="ql-block"><b>梁:更多的投资并不一定能带来更多的创新。如果资本堆砌就能推动技术突破,那大公司早就垄断了所有领域。</b></p><p class="ql-block"><b> 关于团队构成与管理</b></p><p class="ql-block"><b> 安:海外认为DeepSeek雇佣了一批高深莫测的奇才,那做出deepseek的是怎样一群人?</b></p><p class="ql-block"><b>梁:并没有什么高深莫测的奇才,都是一些top高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。</b></p><p class="ql-block"><b>安:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?</b></p><p class="ql-block"><b>梁:不要默信没有海外回来的人,虽然本土的前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。</b></p><p class="ql-block"><b>安:听说你们很擅长从细节招人,让一些非传统评价指标里优秀的人被选出来。</b></p><p class="ql-block"><b>梁:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思,很多人对做研究的渴望远超对钱的在意。</b></p><p class="ql-block"><b>安:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系,但AGI这种充满不确定性的前沿探索是否多了管理动作创新?</b></p><p class="ql-block"><b>梁:DeepSeek也全是自下而上,而且我们一般不前制分工,而是自然分工,每个人有自己独特的成长经历,都是自带想法的,不需要push他,探索过程中他遇到问题自己就会拉人讨论,不过当一个idea显示出潜力,我们也会自上而下的去调配资源。</b></p><p class="ql-block"><b> 关于创新的看法</b></p><p class="ql-block"><b> 安:创新很大程度也是一种偶然吗?</b></p><p class="ql-block"><b>梁:我觉得创新首先是一个信念问题,为什么硅谷那么有创新精神,首先是敢,chatGPT出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂都觉得差距太大了,还是做应用吧。但创新首先需要自信,这种信心通常在年轻人身上更明显。</b></p><p class="ql-block"><b> 关于经济下行对创新的影响</b></p><p class="ql-block"><b> 安:现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?</b></p><p class="ql-block"><b>梁:我倒觉得未必,中国产业结构的调整会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。</b></p><p class="ql-block"><b> 关于技术拉开差距的观点</b></p><p class="ql-block"><b> 安:技术真的可以拉开差距吗?你也说过,并不存在绝对的技术秘密。</b></p><p class="ql-block"><b>梁:技术没有秘密,但重置需要时间和成本。英伟达的显卡理论上没有任何技术秘密,很容易复制。但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。</b></p><p class="ql-block"><b> 关于对国内原始创新的态度</b></p><p class="ql-block"><b> 安:你对国内原始创新也是乐观的嘛?</b></p><p class="ql-block"><b>梁:我是80年代在广东一个五线城市长大的,我的父亲是小学老师。90年代广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用,但现在回去看,观念都变了,因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了,以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被实施教育,当这个社会让硬核创新的人功成名就,群体性想法就会改变,我们只是还需要一堆事实和一个过程。</b></p>