压缩即智能一一从知识到智慧的实现（20260524）

G.HUANG9605

压缩即智能一一从知识到智慧的实现黄国营 压缩即智能。 学习即压缩，理解即压缩，认知即压缩，语言即压缩。 压缩，本质是以简驭繁地构建模式，并实现有效的模式迁移。 我们用10篇左右系列文章来讨论“压缩”和“解压”，从AI构建的视角，重新审视人类认知形成、运作、发展的全过程。 我们传统和现行教育的基本操作主流，就是教师在课堂上向学生传授知识，老师讲，学生记。学习优劣的考核，就是看你记住了多少。人们已经初步认识到，这种“灌输-记忆型”的模式，除了在学生脑子里堆砌大量虚假和无用的知识，结果往往是缺乏智慧，缺乏行动力，缺乏创新能力。 教育是什么？爱因斯坦说：“当学生把学校教给他的所有东西都忘掉以后，剩下的就是教育。”这是爱因斯坦引用心理学家斯金纳在《新科学家》杂志上发表的说法。这些“剩下的”，会是些什么东西呢？这些东西又是“怎样剩下”的呢？ 爱因斯坦还曾说：“我从来不记书上已经有的东西，我的记忆是用来记书本上还没有的东西。”那么，“书本上没有的东西”又是些什么呢？ 知识长期不用是会忘记的，但是能力却可以沉淀下来；灌输想法是很容易忘记的，但是教育的熏陶却可以长久沉淀下来。我们剩下的内容越多，那么就说明教育是越有效果的，如果什么都没有剩下的话，那么这种教育就是无效的教育。 即便是某些“学富五车”的学者教授，也可能被人们称为只是“会行走的书柜”。 知识和智慧不是一回事，那么它们是什么关系，如何实现跃升呢？ 近年AI爆发，人们通过对AI的构建和使用，窥测其黑箱运作过程，深受启发，领悟到很重要的一点：“压缩即智能”。 压缩即智能。理解即压缩，学习即压缩，压缩即建模，压缩才能实现知识迁移……AI科技人员越来越多谈论到“大语言模型”从知识到智慧的湧现。 Google DeepMind 明确提出"压缩即智能"的理念。这一概念建立在算法信息论基础上，从香农信息熵到柯尔莫哥洛夫复杂度，再到Hutter的压缩竞赛形成了完整的理论链条。 最近，香港科技大学与腾讯联合团队发表论文《Compression Represents Intelligence Linearly》，通过实证研究证明压缩效率与智能之间的线性关系。 用最少的符号解释最多的现象，用最短的程序还原全部信息，用最少的参数做最好的预测。这就是"压缩即智能"的数学实质。 智能的本质就是压缩和预测。更好的压缩代表更深层的理解，更大的预测能力是压缩的自然结果。真正的"压缩"指的是用最短的程序描述世界，这是智能的必要条件之一，但不是充分条件。 学习就是压缩——从数据中提取规律，就是找到数据的最短描述。 草蛇灰线，伏脉千里： 1949年Claude Shannon的“信息熵——最小编码比特数即信息量”； 1960年代的Kolmogorov / Solomonoff / Chaitin的“算法信息论——最短程序长度即复杂度”； 2006年Marcus Hutter的“压缩维基百科竞赛——压缩率越高越智能”； 2023年DeepMind的"Language Modeling Is Compression——语言建模与数据压缩数学等价”； 到2024年Ilya Sutskever的“压缩实现无监督学习是 OpenAI 两大 founding ideas 之一”； 这条线几十年的收敛点是：最小化描述长度 = 最大化预测能力 = 最大化泛化能力。 “最大泛化能力”，即孔子所说的“举一反三”。孔子在《论语·述而》中说：“举一隅，不以三隅反，则不复也”。孔子给学生讲了一个墙角（一隅）的情况，如果学生不能灵活推想到另外三个墙角（三隅），孔子就不愿再教了。这体现了孔子的启发式教学，强调学生要主动思考，不能死记硬背，老师只点拨关键点，剩下的靠学生自己领悟，由此及彼，由表及里。‌‌这种“自己领悟”，就是从已知到未知的类推迁移。 “举一反三”，就是联想、类推，人类的认知就是通过隐喻而形成展开的链网，中间就是无数跳跃式的迁移，触类而旁通，所以无论艺术家还是科学家，都要能富于想象力，能天马行空，实行跨跃式的跃迁。想象力比逻辑力更重要。 知识迁移的前提，是要有无数的起始模式。世界无限广大而深邃，人脑无法全数把握。人们自身的感知器官种类和性能都是有限的，但即便如此，却与其他生命不同，有较强的能力将无限的、连续的外部世界，经过压缩，成为有限的、离散的模型，并以此为基础，认知和把握世界，对环境作出适配反馈。 你以为你每天面对的是纷繁复杂的世界本身，其实不是。你面对的，是大脑已经替你处理过的一份“压缩版世界”，它删掉了大部分细节，过滤了大部分噪音，只留下少数你来得及、有能力注意、感知、记住、处理的信息。 你每时每刻眼、耳、鼻、身等感知器官接受到外部世界的信号多得吓人，但你大脑这口锅无法有足够的空间和时间容纳加工，只有通过标签化、组块化、叙事化三种操作使之大大简化。这三种简化操作都是建立某种关系，实际上是一种关联化的折叠，因而也是一种理解。的谓“理解”，就是把世界压缩到自己能处理的程度。这种认知的预处理和处理，就是一种压缩。 标签化就是把无数相似的事物进行概括抽象，分类归类，加以标签，简化以便于大脑运算加工。原始人住房旁边的每一棵树、每一座山都是个别的，都有各自的名称。树有无数，山有很多，对认知这显然是不经济的负荷，难以把握。于是在进化中人们概括出“树”和“山”的概念及相应词语，以大大简化纷繁的世界。 组块化是把大量零件组成更大的部件，这种组合在经验中逐步固化，成为进一步认知压缩的便捷的备用材料。使用时不必再从零件层层组装，而是沉淀有大量已经组装好的备用部件，可以顺手拈来一步到位，这种折叠大大降低了认知的复杂度，提升了认知的效率。 叙事化是对已有认知材料根据因果关系进行系联，沉淀固化成许多事件的原型。世上有无数男人与女人相爱的故事，有无数战争与和平的故事，都可根据其关键要素之间的关系和变化，压缩为最简单的模板，而这些模式在不同情况中又可演化为千变万化的故事，与我们的真实世界相匹配。叙事化正是无尽物态变化和世情变化的压缩。 把无限的世界，压缩为有限的概念和判断，把浩如烟海的天量语言、图像、视频数据压缩为有限的知识模式，再把庞大的知识库压缩为认知的更高级的模板。其间有无层级和侧面，反映了我们认知的深度和广度。 压缩后的稳定结构叫“图式”，“图式”是长期记忆中对一类对象、情境或关系的结构化知识组织。“图式”是一套可重复调用的认知模板。“图式”把高频出现的复杂关系直接打包。以后遇到类似情境，不必从零开始，而是直接调用现成模板。 上面说的“启发式”、“举一反三”，就是就是相近图式的快速调用。固化的经验在认知过程中快速的调用是低成本的方式。效率由此产生，跨域亦由此实现。 这些不同层级不同类型的模板的构建和折叠，就是压缩。压缩就是一个抓住关键特征数据，舍弃大量低相关度的数据，形成特定模式的过程。傅立叶变换便是最常用而强大的数学工具。 总之，所谓“智能”，无论是人类智能还是机器智能，都是指这样一种能力，可从大量数据中，概括抽象出某些简单模式，能有效地迁移适用于类似的对象和情景；这种概括抽象过程，就是一个建模过程，同时略去大量无关效用的数据。这个压缩过程，在大规模减缩数据的同时，保留了原来信息的有效结构与功能，而有效性的判断，与压缩的目标及接受端有关。