杂谈302 罗福莉是文理成功结合的典范

邸继征

杂谈302 罗福莉是文理成功结合的典范 老邸 2025年初，几乎是同时知道了DeepSeek、梁文锋和“天才少女”罗福莉。 罗福莉1995年出生于四川宜宾农村，父亲为电工，母亲为教师。她高中被选入宜宾一中“清北班”，高考分数没有达到清华北大的录取分数线，而被北京师范大学电子专业录取，入学后转到计算机专业。‌‌ 北京师范大学是985、211高校中排名靠前的著名学府，电子专业是热门专业，所以罗福莉的高考成绩相当高。 这里说一下关于学生能力的观点：高中师生都知道，考上清华、北大的学生，平时成绩处于第一梯队不假，但在许多方面，他们和别的同学并不一定存在阶梯式差距，他们、考到985高校的学生、以及思维能力超群但严重偏科的学生，智力在同一层次。在中专也没有考上的学生中间，有脑子不输任何清北学生的怪才。除了偏科，运气决定去向，不是能力之差。 罗福莉在北师大学习计算机期间，一定发现了利用计算机工具发掘语言特殊功能的有利机巧。大学三年级时，她通过自荐信进入北大外国语学院实验室实习，主要研究自然语言处理。这是她开启文理精彩交融生涯的起点。仅三个月后，她自学了Python，一种由荷兰数学与计算机科学家吉多·范罗苏姆于1990年代初设计、ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。 实习期间，罗福莉发表了一篇顶级文章（非第一作者）‌，籍此和别的优秀表现，她经保研进入北京大学计算语言学研究所，继续她的计算语言学研究‌‌。 ‌在北大攻读硕士学位期间，罗福莉主要从事预训练语言模型的相关研究。硕士毕业后，她到杭州加入阿里达摩院，从事语言模型的预训练工作‌‌。随后，罗福莉加盟了后来为DeepSeek的发起人梁文锋创立的幻方量化，负责深度神经网络的战略建模及算法开发‌‌。2023年，罗福莉加入DeepSeek团队。 以下是由AI工具整理的内容，展示罗福莉在DeepSeek开发中的具体贡献： 1. DeepSeek-V2中的创新 混合专家模型（MoE）架构设计：罗福莉深度参与了MoE架构的设计与实现。这种架构允许模型在面对不同任务时，根据需求智能地选择相应的“专家”进行处理，从而显著提升了模型的效率和性能。 多语言文本处理能力提升：她引入创新性算法，显著提升了DeepSeek-V2在多语言文本处理方面的能力，使其在语义理解和语法分析上能够精准把握复杂结构，为用户提供了更加流畅、精确且自然的语言交互体验。 高性价比的模型开发：罗福莉在DeepSeek-V2的开发中，助力大模型以极低的成本实现强大的效果。她曾表示，DeepSeek-V2的中文水平处于国内外闭源模型的第一梯队，且价格仅为GPT-4的1/100。 2. DeepSeek-V3中的创新 DeepSeek-V3参数量高达671B（B=10^9，10亿），激活参数为37B，预训练token（词元）量达到14.8万亿。该模型不仅在性能上超越了主流开源模型，还以极低的训练成本被誉为“AI界拼多多”。 FP8混合精度训练框架的应用：DeepSeek-V3在V2的基础上采用了FP8混合精度训练框架，这有助于进一步提升模型的训练效率和性能。 多令牌预测（MTP）方法的引入：通过采用多令牌预测方法，DeepSeek-V3在推理速度和长文本处理能力上得到了显著增强。 持续优化模型性能：罗福莉在DeepSeek-V3的开发中，继续优化模型的架构和训练方法，使其在多项基准测试中超越了主流开源模型，并且保持了极低的训练成本。 3. 其他贡献 罗福莉在自然语言处理（NLP）领域的贡献也得到了学术界的高度认可。她在国际顶级人工智能会议ACL上发表了多篇论文，展示了她在NLP领域的深入研究。她的研究成果为全球NLP技术的发展注入了新的视角。 ‌DeepSeek‌的训练成本显著低于ChatGPT。以DeepSeek-V3为例，仅需266.4万H800 GPU小时即可完成千亿参数模型预训练，而ChatGPT-4的训练成本是其10倍‌。DeepSeek的这种低成本训练方式使其在垂直领域的应用中更具优势。方式的来源需两方面结合：计算方法和信息特色，前者需要计算机和数学知识，后者需了解语言特别是中文的组词、字形和语音各方面的规律。罗福莉是文理成功结合的典范。