压缩即智能一一从知识到智慧的实现(20260524)

G.HUANG9605

<p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><b style="color:rgb(237, 35, 8); font-size:22px;">压缩即智能</b></p><p class="ql-block"><b style="color:rgb(237, 35, 8); font-size:22px;">一一从知识到智慧的实现</b></p><p class="ql-block"><i>黄国营</i></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"> <b style="color:rgb(57, 181, 74);">压缩即智能。</b></p><p class="ql-block"><b style="color:rgb(57, 181, 74);"> 学习即压缩,理解即压缩,认知即压缩,语言即压缩。</b></p><p class="ql-block"><b style="color:rgb(57, 181, 74);"> 压缩,本质是以简驭繁地构建模式,并实现有效的模式迁移。</b></p><p class="ql-block"><br></p><p class="ql-block"> 我们用10篇左右系列文章来讨论“压缩”和“解压”,从AI构建的视角,重新审视人类认知形成、运作、发展的全过程。</p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"> 我们<b>传统和现行教育</b>的基本操作主流,就是教师在课堂上向学生传授知识,老师讲,学生记。学习优劣的考核,就是看你记住了多少。人们已经初步认识到,这种“<b>灌输-记忆型”</b>的模式,除了在学生脑子里堆砌大量虚假和无用的知识,结果往往是缺乏<b>智慧</b>,缺乏<b>行动力</b>,缺乏<b>创新能力</b>。</p><p class="ql-block"><br></p><p class="ql-block"> 教育是什么?爱因斯坦说:“<b>当学生把学校教给他的所有东西都忘掉以后,剩下的就是教育。</b>”<span style="font-size:18px;">这是爱因斯坦引用心理学家斯金纳在《新科学家》杂志上发表的说法。这些“</span><b style="font-size:18px;">剩下的</b><span style="font-size:18px;">”,会是些</span><b style="font-size:18px;">什么东西</b><span style="font-size:18px;">呢?这些东西又是“</span><b style="font-size:18px;">怎样剩下”</b><span style="font-size:18px;">的呢?</span></p><p class="ql-block"><br></p><p class="ql-block"> 爱因斯坦还曾说:“我从来不记书上已经有的东西,我的记忆是用来记书本上还没有的东西。”那么,“<b>书本上没有的东西</b>”又是些什么呢?</p><p class="ql-block"><br></p><p class="ql-block"> <b>知识</b>长期不用是会忘记的,但是<b>能力</b>却可以沉淀下来;灌输想法是很容易忘记的,但是教育的熏陶却可以长久沉淀下来。我们<b>剩下</b>的内容越多,那么就说明教育是越<b>有效果</b>的,如果什么都没有剩下的话,那么这种教育就是<b>无效</b>的教育。</p><p class="ql-block"><br></p><p class="ql-block"> 即便是某些“<b>学富五车</b>”的学者教授,也可能被人们称为只是“<b>会行走的书柜</b>”。</p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:18px;"> </span><b style="font-size:18px;">知识</b><span style="font-size:18px;">和</span><b style="font-size:18px;">智慧</b><span style="font-size:18px;">不是一回事,那么它们是什么关系,如何实现</span><b style="font-size:18px;">跃升</b><span style="font-size:18px;">呢?</span></p><p class="ql-block"><br></p><p class="ql-block"> 近年AI爆发,人们通过对<b>AI的构建和使用</b>,窥测其黑箱运作过程,深受启发,领悟到很重要的一点:“<b>压缩即智能</b>”。</p><p class="ql-block"><br></p><p class="ql-block"> <b>压缩</b>即<b>智能</b>。<b>理解</b>即压缩,<b>学习</b>即压缩,压缩即<b>建模</b>,压缩才能实现<b>知识迁移</b>……AI科技人员越来越多谈论到“大语言模型”从知识到智慧的<b>湧现</b>。</p><p class="ql-block"><br></p><p class="ql-block"> Google DeepMind 明确提出"<b>压缩即智能</b>"的理念。这一概念建立在<b>算法信息论</b>基础上,从香农<b>信息熵</b>到 柯尔莫哥洛夫<b>复杂度</b>,再到Hutter的<b>压缩竞赛</b>形成了完整的理论链条。</p><p class="ql-block"><br></p><p class="ql-block"> 最近,香港科技大学与腾讯联合团队发表论文《Compression Represents Intelligence Linearly》,通过实证研究证明<b>压缩效率与智能之间的线性关系</b>。</p><p class="ql-block"><br></p><p class="ql-block"> 用<b>最少的符号</b>解释<b>最多的现象</b>,用<b>最短的程序</b>还原<b>全部信息</b>,用<b>最少的参数</b>做<b>最好的预测</b>。 这就是"压缩即智能"的<b>数学实质</b>。</p><p class="ql-block"><br></p><p class="ql-block"> <b>智能</b>的本质就是<b>压缩</b>和<b>预测</b>。更好的压缩代表<b>更深层的理解</b>,<b>更大的预测能力</b>是压缩的自然结果。真正的"压缩"指的是<b>用最短的程序描述世界</b>,这是智能的必要条件之一,但不是充分条件。</p><p class="ql-block"><br></p><p class="ql-block"> <b>学习</b>就是压缩——从数据中提取规律,就是找到数据的<b>最短描述</b>。</p><p class="ql-block"><br></p><p class="ql-block"><b> 草蛇灰线</b>,伏脉千里:</p><p class="ql-block"> 1949年Claude Shannon的“<b>信息熵</b>——<b>最小编码比特数即信息量</b>”;</p><p class="ql-block"> 1960年代的Kolmogorov / Solomonoff / Chaitin的“<b>算法信息论</b>——<b>最短程序长度即复杂度</b>”;</p><p class="ql-block"> 2006年Marcus Hutter的“<b>压缩维基百科竞赛</b>——<b>压缩率越高越智能</b>”;</p><p class="ql-block"> 2023年DeepMind的<b>"Language Modeling Is Compression</b>——<b>语言建模与数据压缩数学等价</b>”;</p><p class="ql-block"> 到2024年Ilya Sutskever的“<b>压缩实现无监督学习</b>是 <b>OpenAI 两大 founding ideas 之一</b>”;</p><p class="ql-block"> 这条线几十年的收敛点是:<b>最小化描述长度 = 最大化预测能力 = 最大化泛化能力。</b></p><p class="ql-block"><br></p><p class="ql-block"> “<b>最大泛化能力</b>”,即孔子所说的“<b>举一反三</b>”。孔子在《论语·述而》中说:“举一隅,不以三隅反,则不复也”。孔子给学生讲了一个墙角(一隅)的情况,如果学生不能灵活推想到另外三个墙角(三隅),孔子就不愿再教了 。这体现了孔子的启发式教学,强调学生要主动思考,不能死记硬背,老师只点拨关键点,剩下的靠学生自己领悟 ,由此及彼,由表及里。‌‌这种“自己领悟”,就是从已知到未知的<b>类推迁移</b>。</p><p class="ql-block"><br></p><p class="ql-block"> “<b>举一反三</b>”,就是<b>联想</b>、<b>类推</b>,<b>人类的认知</b>就是通过<b>隐喻</b>而形成展开的<b>链网,</b>中间就是无数<b>跳跃式</b>的<b>迁移</b>,<b>触类而旁通</b>,所以无论艺术家还是科学家,都要能富于<b>想象力</b>,能<b>天马行空</b>,实行<b>跨跃式的跃迁</b>。想象力比逻辑力更重要。</p><p class="ql-block"><br></p><p class="ql-block"> <b>知识迁移</b>的前提,是要有无数的<b>起始模式</b>。世界无限广大而深邃,人脑无法全数把握。人们自身的<b>感知器官</b>种类和性能都是有限的,但即便如此,却与其他生命不同,有较强的能力将<b>无限的</b>、<b>连续的</b>外部世界,经过<b>压缩</b>,成为<b>有限的</b>、<b>离散的模型</b>,并以此为基础,认知和把握世界,对环境作出<b>适配反馈</b>。</p><p class="ql-block"><br></p><p class="ql-block"> 你以为你每天面对的是纷繁复杂的<b>世界本身</b>,其实不是。你面对的,是大脑已经替你处理过的一份“<b>压缩版世界</b>”,它删掉了大部分细节,过滤了大部分噪音,只留下少数你来得及、有能力注意、感知、记住、处理的信息。</p><p class="ql-block"><br></p><p class="ql-block"> 你每时每刻眼、耳、鼻、身等<b>感知器官</b>接受到外部世界的<b>信号</b>多得吓人,但你大脑这口锅无法有足够的空间和时间容纳<b>加工</b>,只有通过<b>标签化</b>、<b>组块化</b>、<b>叙事化</b>三种操作使之大大简化。这三种简化操作都是建立某种关系,实际上是一种关联化的<b>折叠</b>,因而也是一种<b>理解</b>。的谓“理解”,就是把世界压缩到自己能处理的程度。这种认知的预处理和处理,就是一种<b>压缩</b>。</p><p class="ql-block"><br></p><p class="ql-block"> <b>标签化</b>就是把无数相似的事物进行概括抽象,分类归类,加以标签,简化以便于大脑运算加工。原始人住房旁边的每一棵树、每一座山都是个别的,都有各自的名称。树有无数,山有很多,对认知这显然是不经济的负荷,难以把握。于是在进化中人们概括出“树”和“山”<span style="font-size:18px;">的概念及相应词语,以大大</span><b style="font-size:18px;">简化</b><span style="font-size:18px;">纷繁的世界。</span></p><p class="ql-block"><br></p><p class="ql-block"> <b>组块化</b>是把大量<b>零件</b>组成更大的<b>部件</b>,这种组合在经验中<b>逐步固化</b>,成为进一步认知压缩的便捷的<b>备用</b>材料。使用时不必再从零件层层组装,而是沉淀有大量已经组装好的备用部件,可以顺手拈来一步到位,这种折叠大大降低了认知的<b>复杂度</b>,提升了认知的<b>效率</b>。</p><p class="ql-block"><br></p><p class="ql-block"> <b>叙事化</b>是对已有认知材料根据<b>因果关系</b>进行系联,沉淀固化成许多<b>事件</b>的<b>原型</b>。世上有无数男人与女人相爱的故事,有无数战争与和平的故事,都可根据其关键要素之间的<b>关系和变化</b>,压缩为最简单的模板,而这些模式在不同情况中又可演化为千变万化的故事,与我们的真实世界相匹配。叙事化正是无尽物态变化和世情变化的<b>压缩</b>。</p><p class="ql-block"><br></p><p class="ql-block"> 把<b>无限</b>的世界,压缩为<b>有限</b>的概念和判断,把浩如烟海的天量语言、图像、视频数据压缩为有限的<b>知识模式</b>,再把庞大的知识库压缩为认知的更高级的模板。其间有无层级和侧面,反映了我们认知的深度和广度。</p><p class="ql-block"><br></p><p class="ql-block"> 压缩后的稳定结构叫“<b>图式</b>”,“图式”是长期记忆中对一类对象、情境或关系的<b>结构化知识组织</b>。“图式”是一套可重复调用的认知模板。“图式”把高频出现的复杂关系直接<b>打包</b>。以后遇到类似情境,不必从零开始,而是直接调用<b>现成模板</b>。</p><p class="ql-block"><br></p><p class="ql-block"> 上面说的“启发式”、“<b>举一反三</b>”,就是就是相近<b>图式</b>的<b>快速调用</b>。<b>固化的经验</b>在认知过程中快速的调用是<b>低成本</b>的方式。<b>效率</b>由此产生,<b>跨域</b>亦由此实现。</p><p class="ql-block"><br></p><p class="ql-block"> 这些不同层级不同类型的模板的构建和折叠,就是<b>压缩</b>。压缩就是一个抓住<b>关键特征数据</b>,舍弃大量低相关度的数据,形成特定<b>模式</b>的过程。<b>傅立叶变换</b>便是最常用而强大的数学工具。</p><p class="ql-block"><br></p><p class="ql-block"><b> 总之,所谓“智能”,无论是人类智能还是机器智能,都是指这样一种能力,可从大量数据中,概括抽象出某些简单模式,能有效地迁移适用于类似的对象和情景;这种概括抽象过程,就是一个建模过程,同时略去大量无关效用的数据。这个压缩过程,在大规模减缩数据的同时,保留了原来信息的有效结构与功能,而有效性的判断,与压缩的目标及接受端有关。</b></p><p class="ql-block"><br></p><p class="ql-block"><br></p>