圈内人长文解秘，毫不意外的梁文锋

城府

圈内人长文解秘，毫不意外的梁文锋 日子很难，生活不容易，每个人都有自己的苦，有苦说不出的感觉，受苦的人最懂。 和吃苦相比，有苦难言，无人问津，可能比苦本身还难受。重生之后，叶檀老师变了很多，变得能吃苦，吃自己的苦，吃别人的苦。她说，有苦我们一起分担。每周六，叶檀老师都会亲自回复，并在公众号上发出，有苦难言的朋友，如果你也想和叶檀老师倾诉，把你的故事，发送到邮箱yetanbusiness@163.com，叶檀老师看到，一定会回复。记住，这世界还有人，关心你，在乎你，理解你。文/马贤亮为什么一家AI量化公司引爆了AI大模型？很多人好奇、很多人在追问，为什么创造这个奇迹的不是美国的或中国的其他互联网大厂？我是量化模型总设计师，经营着自己的对冲基金技术公司。这篇文章以量化投资圈内人的视角探寻DeepSeek魔幻奇迹背后的缘由。我与幻方的老大梁文锋总不认识、无交往；通过幻方的徐总一位浙大竺可桢班同学，在微信上有交流，算是间接认识。他们的创业过程、技术路线和产品表现等，多年来随时关注。在量化技术路线上，我们主要对标英国Winton(元胜)公司和杭州幻方公司，他们是我们学习和比较的对象；我们和他们的技术路线可能很接近，都是用机器学习的方式来构造复合的、多维综合的因子模型，都不依赖个人主观做交易、也不依赖某个策略研究员；都是机器生产因子，机器检验因子；区别在于，幻方在股票权益市场，我们在期货衍生品市场。别轻易指责互联网大厂。在看到DeepSeek展示的魔幻奇迹之后，大部分国人为之欢呼雀跃。也有人在知乎上追问：为何腾讯、阿里、华为、百度等大厂没有推出DeepSeek这样的颠覆性产品？切勿轻易指责互联网大厂AI部门的组织能力或创新能力。大厂AI研发部门的核心人员，大多是参加高中数学物理竞赛的顶尖学霸，或者是顶级名校中的佼佼者。达不到这个层次的人，可能在大厂AI部门只能从事一些辅助性的工作。这些大厂核心人员，每个都是天生自带马达、自我驱动的性格，怎么会被“组织僵化”束缚住呢？一定是事情太难、创新太难，没做出来而已。幻方率先突破，有三个原因为何是幻方率先突破？我先说三点结论。第1点，技术和经验相通。AI量化和AI大模型, 背后的技术和经验是相通的。第2点，历练和经验更多。股票市场的金融数据，信噪比(S/N)极低；AI量化公司长期与这样的数据做斗争；幻方从2008年开始做量化研究，过去十几年，他们将数理统计方法应用到金融量化模型、应用到交易实战，这一过程的痛苦和历练，可能比互联网大厂的工程师们多很多很多年；痛苦更多则历练更多；历练更多则经验更多。第3点，梁文锋本人。幻方和DeepSeek的人都相当聪明，但不能说显著超出OpenAI、Meta、Grok、Microsoft、和Google的人才。幻方实现AI大模型领域的魔幻创新，我以为最最核心的理由是，梁文锋本人16年来一直在量化模型的第一线，他的痛苦最多，历练最多。痛苦、历练、经验，加上工程创新的雄心，成就了DeepSeek奇迹。梁文锋是个多方位的“一线老板”从数学难易程度上讲，数理统计不如代数几何那般复杂和抽象，但也不是计算数学那般简单。人工智能中要使用许多种数理统计工具(算法)；按照贝叶斯认知论，从了解、到理解、到领悟、到灵活运用、到娴熟驾驭，不是能轻易能够跨越的，需要反复尝试、足够的时间和足够的经验。在初高中阶段，大家学习初等数学和基础物理，这些基础知识似乎能一通百通。所以，普通人很可能以初高中的视角来分析AI大模型领域的创新，以为只要辛苦一点、勤奋一点，就能做出创新成功；如果没有创新成功，就简单归因到大厂组织僵化或创新无能。断非如此。我来举个例子。比如，CVPR是(IEEE)计算机视觉领域的“学术奥斯卡”，在2024年收到的论文投稿量为11875篇，最终只录用了2719篇，论文接收率仅为23%；并且，2024年CVPR官方认证的杰出/优秀论文总共只有10篇，是年投稿量的1‰。可见，创新研究很难，有大价值的创新更是难上加难，怎么可能是一通百通呢？再谈谈梁文锋的经验。梁文锋在接受暗涌Wave主笔于丽丽的专访时说，2012年伊尔亚（Ilya）提出AlexNet，使沉寂多年的人工智能技术研究重新苏醒，而幻方从2014年就开始同步跟踪，准备将AI应用到量化交易中。他们的思想准备很早，行动也很早。更重要的是，按于丽丽在文中的描述，梁文锋总是一个“每天看论文，写代码，参与小组讨论”、“兼具强大的infra工程构架能力和模型研究能力、既可从高处做精准判断，又可在细节上强过一线研究员、拥有令人恐怖的学习能力、能调动资源、完全不像一般意义上的老板”。梁文锋说，“外部（外人）看到的是幻方2015年后（光彩绚丽）的部分，但其实我们做了16年（从2008年开始）。我们经历了一个漫长的积累过程（不都是坦途）。幻方有很强的技术和创新基因，幻方的成功在某种程度上增强了我们对技术驱动型（大）创新的信心。”我听朋友说过，幻方的团队早期也经历过毕业就创业、创业创业没钱了；没钱了就解散、后来有点钱了，再聚在一起再创业的过程。没有笃定、没有爱和痴迷，是不可能这么做的。当然，DeepSeek的成功，一定是这个聪明团队整体的成功。但梁文锋作为领军统帅，有16年漫长的积累过程，在长期处理复杂问题、长期学习实践中沉淀出的经验，包括组织高密度人才实现有效创新的经验，才是DeepSeek可以组队不到2年、就拿到大结果的第一原因。在DeepSeek_V2, _V3, _R1, 和Janus Pro等公开的论文中，我看到了几处金融量化模型常见的处理手法。比如，DeepSeek_V2创新提出的细颗粒度MoE混合专家模型，通过提高专家专业化程度，减少了知识冗余、降低了训练成本、减少了推理计算量；这个技术思路，就可类比于在量化因子模型中，不是用某个因子（专家）来解释整体A股5300支股票的大截面，而是用特定的因子来解释特定二级行业的股票子截面，这样的因子就是细颗粒度因子。（MoE混合专家模型并不是DeepSeek首先提出来的。谷歌的GShard_MoE 将分布式切片训练框架（GSha rd，Google Sha rding）与混合专家模型（MoE）做结合。但DeepSeek“聪明地、灵巧地”提出了细颗粒度MoE方法，产生了显著的效果提升；又如，DeepSeek在Janus中创新引入统一的自回归架构，我看到了金融时间序列中ARMA、ARIMA、GARCH等自回归模型的影子；再比如，Engle（诺贝尔经济学奖2003得主）在 2002 年提出了多标的动态条件相关系数模型 DCC-GARCH(2002)，将多标的时间序列的波动性特征，纳入统一的多变量波动率模型，这是将不同标的的特征做时间序列上的对齐(Alignment)或同步(Synchronization)的(建模)方法。而Janus中引入的统一自回归架构，也是以时序生成为范式（也就是时序对齐，比如将眼神、面部表情、口型、声音、肢体动作等多模态做时序对齐），这就突破了传统多模态模型在生成连贯性上的瓶颈、在模态交互深度上的瓶颈、和在任务泛化性上的瓶颈。Janus的这种架构创新，提升了现有任务性能，为统一的多模态生成模型提供了全新的技术路线。上述这两个不同领域的模型，我认为思想方法是类通的。跨领域可以找到灵感，有时候，在A领域很常见的数理方法或思路，B领域的研究人员很难想到，即便灵光一现想到了，多半将信将疑，未必敢投入精力做工程验证。如何恺明（ResNet创造者）在香港中文大学的一次讲座中提到的，“科研（创新）中95%的时间是令人沮丧的”。他的原话是，“研究总是充满了挫折、情绪和沮丧，它与你能想到的所有负面词语有关。这就是现实（真实情况）。如果你没有经历过这些，说明你没有做出最好的研究。我的生活就是这样：我可能95%的时间都很沮丧，而剩下的5%时间（是在想法完成后）花在完成论文上。然后进入下一个（沮丧）周期。”我本人做量化策略研究的感觉大致如此，很多次有新的策略想法，想到的时候热血澎湃，设计的时候理顺复杂逻辑的过程让人煎熬，看到结果也就是最后搞明白的时候，却非常沮丧：“哦，原来是这样啊、我怎么这么蠢、没事先想到这一层呢。”分析一个创新，可能全球研究者想到了一万条路径；而有经验的领军统帅，能快速pass掉其中的9900条，只在剩余的100条路径上寻找宝藏。这就是经验的价值。统计学中的各种算法工具，可以类比为数学兵器，兵器可能有999件，但每一类兵器适用于什么场景、解决什么问题，这个太需要历练、太需要经验、太需要直觉了。我敢断言，整个幻方量化和DeepSeek的模型团队，身体力行的梁文锋经历的沮丧和痛苦最多，所以他的经验和直觉最多。他本科阶段在浙江大学学习电子信息工程，研究生阶段学习信息通信和人工智能，毕业后长期做量化金融模型，从2014年就开始follow人工智能领域的论文，可能在多个领域有深入思辨、有长期经验。在研究中，找出新方法的人最值得称颂。比如，在DeepSeek-V3中，他们公开的多头潜注意力机制MLA(Multi-head Latent Attention) 方法，是由高华佐（Huazuo Gao）和曾旺丁（Wangding Zeng）这两位年轻人想出来的。但也要认识到，在研究中提出问题的人、对探索方向拍板的人同样重要。DeepSeek的这组论文，每篇文章都多个创新点。这么高密度的创新，才会让美国AI圈感叹DeepSeek有一群神秘莫测的高人、做出了真正的创新。梁文锋是否刷过2000-3000篇顶刊论文？回头看互联网大厂的研究探索，过去12年（2013∼2025），他们处理的复杂问题我想到了3类：第1类，社交网络或电商的智能推荐系统，推荐系统存在明确的“y - x”关系；第2类，近几年的语言大模型和多模态模型；第3类，汽车自动驾驶。第1类问题在10年前还比较有挑战性，但总体并不太难；第2类问题，互联网大厂的研究员也可能才干了3-4年，综合经验当然不如梁文锋；第3类问题当然也很难，特斯拉、华为、小米、地平线、百度等公司在做；可能等道路数据Token积累到100万亿(100T)，就可实现端到端L3或L4智驾，这是未来3-5年就可达到的。我认为金融量化模型比端到端自动驾驶更难，这里不展开。即使中国或美国的互联网大厂有很多的顶尖人才，面对世界上难度级别最高的工程问题，缺少像梁文锋这样跨领域、有经验的统帅；没能率先做出DeepSeek这样颠覆性的产品，是可以理解的。