人工智能学习笔记（二）： AI中的大模型是什么

老殷

听北京航天航空大学副教授何静讲座的笔记<br> 接下来我们来看看大模型是什么？我们前面讲道了AIGC，那AIGC有哪些类型呢。比如文生文、文生图、文生音乐、文生视频等等，而每一个分类都有对应的大约模型。例如，<b>文生模型、图生模型、音乐模型、视频模型等等。这些大约模型就是深层式AI的子集。</b><div> 这里我们用做菜的例子来解释一下吧。<b>生成式AI，它就等于是整个厨房，</b>它能做各种各样的菜系。比如川菜、苏菜、粤菜、鲁菜，它们分别对应生成文字、生成图片、生成音乐、生成视频等。<b>大约模型就是专门做某种菜的师傅。</b>包括我们刚才讲的，川菜师傅就是文字大厨，苏菜的师傅就是绘画大厨，粤菜师傅就是音乐大厨，鲁菜厨师就是视频大厨。其中呢，像DEEPSEEK中的chat GPT就是属于川菜厨师，是否擅长去写出这道菜。像Midjourney呢，Slable Diffusion呢就是苏菜大师，擅长的事画出这道菜。像Suno AI 、Udie AI,它们就是粤菜厨师，擅于谱出这道菜。像即梦、可灵，它就是属于鲁菜大师，擅长拍出这道菜。</div> 下面，让我们来看看大模型的原理是什么，是怎样工作的。大模型其实就是一个超级的学霸。这位学霸的学习和思考的过程主要是分三步。 <b> 第一步，是海量读书，也就是俗称的“训练”</b>。它阅读了互联网上几乎所有的图书、文章、网页，但是它读书的目的不是为了记住原文，而是为了找出人的语言中的一些模式和规律。比如说，它看到中国的首都是什么的时候，文字后面跟着“北京”的概率是最高的。它又发猫喜欢吃什么的时候，后面经常跟着的事鱼或老鼠。这个过程其实就是训练。训练完了这个学霸的大脑里面就形成了一个非常复杂的概率网络，也就是神经网络。尽管它猫是什么，但是它知道猫这个词和那些词一起出现。好，讲了第一步。接下来讲第二步。<b>第二步叫“接到问题”，就是我们用户去输入。</b>当用户用它去提问的时候，比如问为什么天是蓝色的？它会讲你的问题分解为认识的小碎片，这些小碎片就是我们经常说到的<b>Token</b>（中文名叫：词元），可以理解为词或者字，然后将这些碎片送到那个庞大概率网络的大脑里面。 <i>AI大模型，类似人类的神经网络</i> 那么第三步是什么呢？<b>第三步叫“预测下一个字”，也就是“生成”。这一步就非常神奇了。它不会从数据库里面去找到答案，而是像疯狂的填词的游戏那样一个字一个字地去猜出最合理的回答。</b>它思考的过程是这样的，它会去想为什么天空是蓝色的。网络计算出最可能开头的词是“因为”，有了因为，再结合问题，它计算出下一个最可能的词是“太阳”。然后呢就是“光进入”，然后呢再“到大气层”，再到后是“再发生”，再到“散射”。就这样啊，它不断地预测下一个概率最高的字词，同时也会参考真个句子的逻辑和顺序，知道生成一个完整的回答：“因为太阳光进入大气层后发生了瑞利散射”。 <b> 总结一下，大模型其实是一个根据输入预测下一个最可能出现的词的一个超级机器。</b>但是有时候它也会出错。出错是什么意思呢？就是猜错词，或者也会编造一些信息。因为它本质的目的是让句子更加合理，而不是百分之百地正确。就像学霸一样有时间凭感觉去答错题一样。<div><br></div><div> 待续</div><div> 2026年6月15日</div>