乐学与思系列(7)：知识蒸馏

cxb

DeepSeek凭借其在技术上的突破和创新，不仅让自身声名鹊起，也将知识蒸馏这一概念带入了公众的视野。知识蒸馏由图灵奖、诺贝尔奖得主杰弗里·辛顿（Geof-freyHinton）正式提出，成为人工智能领域最重要的基础算法之一。 作为一种强大的模型压缩技术，知识蒸馏是人类社会中教师与学生关系在人工智能领域的延伸：在人类社会中，知识储备较少、学习能力较弱的学生可以向知识储备丰富、学习能力更强的教师学习以获取知识，以此获得比自学更高的学习效率。类比到人工智能领域，研究人员发现可以将一个参数量较小、学习能力较弱的模型作为“学生模型”，将一个参数量较大、学习能力较强的模型作为“教师模型”，通过让学生模型学习教师模型，获得比学生模型直接从数据中学习更高的效率。这一种模仿人类学习行为的算法在人工智能领域被称为“知识蒸馏”。 知识蒸馏最早被用于减少模型的参数量，以此降低人工智能模型的存储成本和计算成本。当前的人工智能模型参数量大，其计算速度慢、存储成本高，在实际应用中存在诸多不便。例如，在自动驾驶中，人工智能模型计算速度慢会导致自动驾驶汽车无法快速地感知周围环境，容易造成交通事故；在手机应用上，人工智能存储成本过高会导致其占用大量手机存储空间，导致手机卡顿，影响用户体验。早期的知识蒸馏让参数量小、性能不佳的学生模型学习参数量大、性能好的教师模型。理想情况下，如果学习成功，小的学生模型掌握了与教师模型相同的知识，那么就可以在继承教师模型优良性能的同时维持参数量小的优势，实现“又小又好”。研究人员将这一过程与物理学中的“蒸馏”联系起来，意在通过此种方式将模型中无用的参数“蒸发”，将重要的知识保留，因此称为知识蒸馏。 在大模型时代，知识蒸馏受到了更加广泛的关注。一方面，大模型的参数量与传统模型相比有了百倍、千倍乃至万倍的增长，模型的参数成本和计算成本被进一步放大，因此对于它们的压缩和加速需求也就更加显著。例如，DeepSeek V3模型有6710亿参数，是传统人工智能模型BERT的2000多倍，这意味其计算耗时和存储成本也增长了千倍以上。为了将类似DeepSeek的大模型在个人电脑、手机等小设备上部署，就需要进一步探索和利用知识蒸馏技术，将DeepSeek的知识提取出来，存到小的模型上。 另一方面，大模型时代的知识蒸馏不仅体现了参数上知识的传递，也体现了数据上知识的传递。具体来说，如果一个人类教师是学习过“数理化政史地”全科知识的教师，那么在授课过程中，即使他仅向学生教授单个科目的内容，也有可能潜在地向学生传递他所具备的其他领域知识。类似地，在人工智能中，如果教师模型学习了更加广泛领域上的知识，那么，在知识蒸馏的过程中，学生模型也可以间接地学习这些领域上的信息。例如，如果教师模型学习过中文和英文的数据，而学生模型仅学习过中文的数据。那么，通过让学生模型向教师模型学习，学生模型即可间接地学习到英文数据中的知识，实现能力的进一步提升。 当然我们也应该看到：知识蒸馏引发了许多知识产权的顾虑。 如果教师模型的知识是具备独特知识产权的内容，那么学生模型向教师模型学习的过程是否意味着对于知识产权的侵犯？尤其是用于商业开发与应用的模型，对于这一问题，各界尚未达成一致的认知。从技术角度上看，判断一个模型是否以其他模型为教师模型进行过知识蒸馏训练也是非常困难的。 在人工智能时代，保护知识产权就是保护创新。人工智能是创新主导的新兴产业，推动人工智能高质量发展，需要准确把握人工智能与知识产权之间共生演进、相互促进、互为支撑的紧密联系。