<p class="ql-block">杂谈302 罗福莉是文理成功结合的典范</p><p class="ql-block"><br></p><p class="ql-block">老邸</p><p class="ql-block"><br></p><p class="ql-block">2025年初,几乎是同时知道了DeepSeek、梁文锋和“天才少女”罗福莉。</p><p class="ql-block"><br></p><p class="ql-block">罗福莉1995年出生于四川宜宾农村,父亲为电工,母亲为教师。她高中被选入宜宾一中“清北班”,高考分数没有达到清华北大的录取分数线,而被北京师范大学电子专业录取,入学后转到计算机专业。</p><p class="ql-block"><br></p><p class="ql-block">北京师范大学是985、211高校中排名靠前的著名学府,电子专业是热门专业,所以罗福莉的高考成绩相当高。</p><p class="ql-block"><br></p><p class="ql-block">这里说一下关于学生能力的观点:高中师生都知道,考上清华、北大的学生,平时成绩处于第一梯队不假,但在许多方面,他们和别的同学并不一定存在阶梯式差距,他们、考到985高校的学生、以及思维能力超群但严重偏科的学生,智力在同一层次。在中专也没有考上的学生中间,有脑子不输任何清北学生的怪才。除了偏科,运气决定去向,不是能力之差。</p><p class="ql-block"><br></p><p class="ql-block">罗福莉在北师大学习计算机期间,一定发现了利用计算机工具发掘语言特殊功能的有利机巧。大学三年级时,她通过自荐信进入北大外国语学院实验室实习,主要研究自然语言处理。这是她开启文理精彩交融生涯的起点。仅三个月后,她自学了Python,一种由荷兰数学与计算机科学家吉多·范罗苏姆于1990年代初设计、ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。</p><p class="ql-block"><br></p><p class="ql-block">实习期间,罗福莉发表了一篇顶级文章(非第一作者),籍此和别的优秀表现,她经保研进入北京大学计算语言学研究所,继续她的计算语言学研究。</p><p class="ql-block"><br></p><p class="ql-block">在北大攻读硕士学位期间,罗福莉主要从事预训练语言模型的相关研究。硕士毕业后,她到杭州加入阿里达摩院,从事语言模型的预训练工作。随后,罗福莉加盟了后来为DeepSeek的发起人梁文锋创立的幻方量化,负责深度神经网络的战略建模及算法开发。2023年,罗福莉加入DeepSeek团队。</p><p class="ql-block"><br></p><p class="ql-block">以下是由AI工具整理的内容,展示罗福莉在DeepSeek开发中的具体贡献:</p><p class="ql-block"><br></p><p class="ql-block">1. DeepSeek-V2中的创新</p><p class="ql-block"><br></p><p class="ql-block">混合专家模型(MoE)架构设计:罗福莉深度参与了MoE架构的设计与实现。这种架构允许模型在面对不同任务时,根据需求智能地选择相应的“专家”进行处理,从而显著提升了模型的效率和性能。</p><p class="ql-block"><br></p><p class="ql-block">多语言文本处理能力提升:她引入创新性算法,显著提升了DeepSeek-V2在多语言文本处理方面的能力,使其在语义理解和语法分析上能够精准把握复杂结构,为用户提供了更加流畅、精确且自然的语言交互体验。</p><p class="ql-block"><br></p><p class="ql-block">高性价比的模型开发:罗福莉在DeepSeek-V2的开发中,助力大模型以极低的成本实现强大的效果。她曾表示,DeepSeek-V2的中文水平处于国内外闭源模型的第一梯队,且价格仅为GPT-4的1/100。</p><p class="ql-block"><br></p><p class="ql-block">2. DeepSeek-V3中的创新</p><p class="ql-block"><br></p><p class="ql-block">DeepSeek-V3参数量高达671B(B=10^9,10亿),激活参数为37B,预训练token(词元)量达到14.8万亿。该模型不仅在性能上超越了主流开源模型,还以极低的训练成本被誉为“AI界拼多多”。</p><p class="ql-block"><br></p><p class="ql-block">FP8混合精度训练框架的应用:DeepSeek-V3在V2的基础上采用了FP8混合精度训练框架,这有助于进一步提升模型的训练效率和性能。</p><p class="ql-block"><br></p><p class="ql-block">多令牌预测(MTP)方法的引入:通过采用多令牌预测方法,DeepSeek-V3在推理速度和长文本处理能力上得到了显著增强。</p><p class="ql-block"><br></p><p class="ql-block">持续优化模型性能:罗福莉在DeepSeek-V3的开发中,继续优化模型的架构和训练方法,使其在多项基准测试中超越了主流开源模型,并且保持了极低的训练成本。</p><p class="ql-block"><br></p><p class="ql-block">3. 其他贡献</p><p class="ql-block"><br></p><p class="ql-block">罗福莉在自然语言处理(NLP)领域的贡献也得到了学术界的高度认可。她在国际顶级人工智能会议ACL上发表了多篇论文,展示了她在NLP领域的深入研究。她的研究成果为全球NLP技术的发展注入了新的视角。</p><p class="ql-block"><br></p><p class="ql-block">DeepSeek的训练成本显著低于ChatGPT。以DeepSeek-V3为例,仅需266.4万H800 GPU小时即可完成千亿参数模型预训练,而ChatGPT-4的训练成本是其10倍。DeepSeek的这种低成本训练方式使其在垂直领域的应用中更具优势。方式的来源需两方面结合:计算方法和信息特色,前者需要计算机和数学知识,后者需了解语言特别是中文的组词、字形和语音各方面的规律。罗福莉是文理成功结合的典范。</p>