圈内人长文解秘,毫不意外的梁文锋

城府

<p class="ql-block"><b style="color:rgb(22, 126, 251);">圈内人长文解秘,毫不意外的梁文锋</b></p><p class="ql-block"><b style="color:rgb(57, 181, 74);"> 日子很难,生活不容易,每个人都有自己的苦,有苦说不出的感觉,受苦的人最懂。</b></p><p class="ql-block"><b style="color:rgb(255, 138, 0);"> 和吃苦相比,有苦难言,无人问津,可能比苦本身还难受。</b></p><p class="ql-block">重生之后,叶檀老师变了很多,变得能吃苦,吃自己的苦,吃别人的苦。</p><p class="ql-block">她说,有苦我们一起分担。</p><p class="ql-block">每周六,叶檀老师都会亲自回复,并在公众号上发出,有苦难言的朋友,如果你也想和叶檀老师倾诉,把你的故事,发送到邮箱yetanbusiness@163.com,叶檀老师看到,一定会回复。</p><p class="ql-block">记住,这世界还有人,关心你,在乎你,理解你。</p><p class="ql-block">文/马贤亮</p><p class="ql-block">为什么一家AI量化公司引爆了AI大模型?很多人好奇、很多人在追问,为什么创造这个奇迹的不是美国的或中国的其他互联网大厂?</p><p class="ql-block">我是量化模型总设计师,经营着自己的对冲基金技术公司。这篇文章以量化投资圈内人的视角探寻DeepSeek魔幻奇迹背后的缘由。</p><p class="ql-block">我与幻方的老大梁文锋总不认识、无交往;通过幻方的徐总一位浙大竺可桢班同学,在微信上有交流,算是间接认识。他们的创业过程、技术路线和产品表现等,多年来随时关注。</p><p class="ql-block">在量化技术路线上,我们主要对标英国Winton(元胜)公司和杭州幻方公司,他们是我们学习和比较的对象;我们和他们的技术路线可能很接近,都是用机器学习的方式来构造复合的、多维综合的因子模型,都不依赖个人主观做交易、也不依赖某个策略研究员;都是机器生产因子,机器检验因子;区别在于,幻方在股票权益市场,我们在期货衍生品市场。</p><p class="ql-block">别轻易指责互联网大厂。</p><p class="ql-block">在看到DeepSeek展示的魔幻奇迹之后,大部分国人为之欢呼雀跃。也有人在知乎上追问:为何腾讯、阿里、华为、百度等大厂没有推出DeepSeek这样的颠覆性产品?</p><p class="ql-block">切勿轻易指责互联网大厂AI部门的组织能力或创新能力。大厂AI研发部门的核心人员,大多是参加高中数学物理竞赛的顶尖学霸,或者是顶级名校中的佼佼者。达不到这个层次的人,可能在大厂AI部门只能从事一些辅助性的工作。</p><p class="ql-block">这些大厂核心人员,每个都是天生自带马达、自我驱动的性格,怎么会被“组织僵化”束缚住呢?一定是事情太难、创新太难,没做出来而已。</p><p class="ql-block">幻方率先突破,有三个原因</p><p class="ql-block">为何是幻方率先突破?我先说三点结论。</p><p class="ql-block">第1点,技术和经验相通。AI量化和AI大模型, 背后的技术和经验是相通的。</p><p class="ql-block">第2点,历练和经验更多。</p><p class="ql-block">股票市场的金融数据,信噪比(S/N)极低;AI量化公司长期与这样的数据做斗争;幻方从2008年开始做量化研究,过去十几年,他们将数理统计方法应用到金融量化模型、应用到交易实战,这一过程的痛苦和历练,可能比互联网大厂的工程师们多很多很多年;痛苦更多则历练更多;历练更多则经验更多。</p><p class="ql-block">第3点,梁文锋本人。</p><p class="ql-block">幻方和DeepSeek的人都相当聪明,但不能说显著超出OpenAI、Meta、Grok、Microsoft、和Google的人才。幻方实现AI大模型领域的魔幻创新,我以为最最核心的理由是,梁文锋本人16年来一直在量化模型的第一线,他的痛苦最多,历练最多。痛苦、历练、经验,加上工程创新的雄心,成就了DeepSeek奇迹。</p><p class="ql-block">梁文锋是个多方位的“一线老板”</p><p class="ql-block">从数学难易程度上讲,数理统计不如代数几何那般复杂和抽象,但也不是计算数学那般简单。</p><p class="ql-block">人工智能中要使用许多种数理统计工具(算法);按照贝叶斯认知论,从了解、到理解、到领悟、到灵活运用、到娴熟驾驭,不是能轻易能够跨越的,需要反复尝试、足够的时间和足够的经验。</p><p class="ql-block">在初高中阶段,大家学习初等数学和基础物理,这些基础知识似乎能一通百通。所以,普通人很可能以初高中的视角来分析AI大模型领域的创新,以为只要辛苦一点、勤奋一点,就能做出创新成功;如果没有创新成功,就简单归因到大厂组织僵化或创新无能。</p><p class="ql-block">断非如此。</p><p class="ql-block">我来举个例子。比如,CVPR是(IEEE)计算机视觉领域的“学术奥斯卡”,在2024年收到的论文投稿量为11875篇,最终只录用了2719篇,论文接收率仅为23%;并且,2024年CVPR官方认证的杰出/优秀论文总共只有10篇,是年投稿量的1‰。可见,创新研究很难,有大价值的创新更是难上加难,怎么可能是一通百通呢?</p><p class="ql-block">再谈谈梁文锋的经验。</p><p class="ql-block">梁文锋在接受暗涌Wave主笔于丽丽的专访时说,2012年伊尔亚(Ilya)提出AlexNet,使沉寂多年的人工智能技术研究重新苏醒,而幻方从2014年就开始同步跟踪,准备将AI应用到量化交易中。</p><p class="ql-block">他们的思想准备很早,行动也很早。</p><p class="ql-block">更重要的是,按于丽丽在文中的描述,梁文锋总是一个“每天看论文,写代码,参与小组讨论”、“兼具强大的infra工程构架能力和模型研究能力、既可从高处做精准判断,又可在细节上强过一线研究员、拥有令人恐怖的学习能力、能调动资源、完全不像一般意义上的老板”。</p><p class="ql-block">梁文锋说,“外部(外人)看到的是幻方2015年后(光彩绚丽)的部分,但其实我们做了16年(从2008年开始)。我们经历了一个漫长的积累过程(不都是坦途)。幻方有很强的技术和创新基因,幻方的成功在某种程度上增强了我们对技术驱动型(大)创新的信心。”</p><p class="ql-block">我听朋友说过,幻方的团队早期也经历过毕业就创业、创业创业没钱了;没钱了就解散、后来有点钱了,再聚在一起再创业的过程。没有笃定、没有爱和痴迷,是不可能这么做的。</p><p class="ql-block">当然,DeepSeek的成功,一定是这个聪明团队整体的成功。但梁文锋作为领军统帅,有16年漫长的积累过程,在长期处理复杂问题、长期学习实践中沉淀出的经验,包括组织高密度人才实现有效创新的经验,才是DeepSeek可以组队不到2年、就拿到大结果的第一原因。</p><p class="ql-block">在DeepSeek_V2, _V3, _R1, 和Janus Pro等公开的论文中,我看到了几处金融量化模型常见的处理手法。</p><p class="ql-block">比如,DeepSeek_V2创新提出的细颗粒度MoE混合专家模型,通过提高专家专业化程度,减少了知识冗余、降低了训练成本、减少了推理计算量;这个技术思路,就可类比于在量化因子模型中,不是用某个因子(专家)来解释整体A股5300支股票的大截面,而是用特定的因子来解释特定二级行业的股票子截面,这样的因子就是细颗粒度因子。</p><p class="ql-block">(MoE混合专家模型并不是DeepSeek首先提出来的。谷歌的GShard_MoE 将分布式切片训练框架(GSha rd,Google Sha rding)与混合专家模型(MoE)做结合。但DeepSeek“聪明地、灵巧地”提出了细颗粒度MoE方法,产生了显著的效果提升;</p><p class="ql-block">又如,DeepSeek在Janus中创新引入统一的自回归架构,我看到了金融时间序列中ARMA、ARIMA、GARCH等自回归模型的影子;</p><p class="ql-block">再比如,Engle(诺贝尔经济学奖2003得主)在 2002 年提出了多标的动态条件相关系数模型 DCC-GARCH(2002),将多标的时间序列的波动性特征,纳入统一的多变量波动率模型,这是将不同标的的特征做时间序列上的对齐(Alignment)或同步(Synchronization)的(建模)方法。</p><p class="ql-block">而Janus中引入的统一自回归架构,也是以时序生成为范式(也就是时序对齐,比如将眼神、面部表情、口型、声音、肢体动作等多模态做时序对齐),这就突破了传统多模态模型在生成连贯性上的瓶颈、在模态交互深度上的瓶颈、和在任务泛化性上的瓶颈。</p><p class="ql-block">Janus的这种架构创新,提升了现有任务性能,为统一的多模态生成模型提供了全新的技术路线。</p><p class="ql-block">上述这两个不同领域的模型,我认为思想方法是类通的。</p><p class="ql-block">跨领域可以找到灵感,有时候,在A领域很常见的数理方法或思路,B领域的研究人员很难想到,即便灵光一现想到了,多半将信将疑,未必敢投入精力做工程验证。</p><p class="ql-block">如何恺明(ResNet创造者)在香港中文大学的一次讲座中提到的,“科研(创新)中95%的时间是令人沮丧的”。他的原话是,“研究总是充满了挫折、情绪和沮丧,它与你能想到的所有负面词语有关。这就是现实(真实情况)。如果你没有经历过这些,说明你没有做出最好的研究。我的生活就是这样:我可能95%的时间都很沮丧,而剩下的5%时间(是在想法完成后)花在完成论文上。然后进入下一个(沮丧)周期。”</p><p class="ql-block">我本人做量化策略研究的感觉大致如此,很多次有新的策略想法,想到的时候热血澎湃,设计的时候理顺复杂逻辑的过程让人煎熬,看到结果也就是最后搞明白的时候,却非常沮丧:“哦,原来是这样啊、我怎么这么蠢、没事先想到这一层呢。”</p><p class="ql-block">分析一个创新,可能全球研究者想到了一万条路径;而有经验的领军统帅,能快速pass掉其中的9900条,只在剩余的100条路径上寻找宝藏。这就是经验的价值。</p><p class="ql-block">统计学中的各种算法工具,可以类比为数学兵器,兵器可能有999件,但每一类兵器适用于什么场景、解决什么问题,这个太需要历练、太需要经验、太需要直觉了。</p><p class="ql-block">我敢断言,整个幻方量化和DeepSeek的模型团队,身体力行的梁文锋经历的沮丧和痛苦最多,所以他的经验和直觉最多。</p><p class="ql-block">他本科阶段在浙江大学学习电子信息工程,研究生阶段学习信息通信和人工智能,毕业后长期做量化金融模型,从2014年就开始follow人工智能领域的论文,可能在多个领域有深入思辨、有长期经验。</p><p class="ql-block">在研究中,找出新方法的人最值得称颂。比如,在DeepSeek-V3中,他们公开的多头潜注意力机制MLA(Multi-head Latent Attention) 方法,是由高华佐(Huazuo Gao)和曾旺丁(Wangding Zeng)这两位年轻人想出来的。</p><p class="ql-block">但也要认识到,在研究中提出问题的人、对探索方向拍板的人同样重要。DeepSeek的这组论文,每篇文章都多个创新点。这么高密度的创新,才会让美国AI圈感叹DeepSeek有一群神秘莫测的高人、做出了真正的创新。梁文锋是否刷过2000-3000篇顶刊论文?</p><p class="ql-block">回头看互联网大厂的研究探索,过去12年(2013∼2025),他们处理的复杂问题我想到了3类:</p><p class="ql-block">第1类,社交网络或电商的智能推荐系统,推荐系统存在明确的“y - x”关系;</p><p class="ql-block">第2类,近几年的语言大模型和多模态模型;</p><p class="ql-block">第3类,汽车自动驾驶。</p><p class="ql-block">第1类问题在10年前还比较有挑战性,但总体并不太难;第2类问题,互联网大厂的研究员也可能才干了3-4年,综合经验当然不如梁文锋;第3类问题当然也很难,特斯拉、华为、小米、地平线、百度等公司在做;可能等道路数据Token积累到100万亿(100T),就可实现端到端L3或L4智驾,这是未来3-5年就可达到的。我认为金融量化模型比端到端自动驾驶更难,这里不展开。</p><p class="ql-block">即使中国或美国的互联网大厂有很多的顶尖人才,面对世界上难度级别最高的工程问题,缺少像梁文锋这样跨领域、有经验的统帅;没能率先做出DeepSeek这样颠覆性的产品,是可以理解的。</p>