2025 人工智能 - 数学与大语言模型 (1)

东立

<p class="ql-block">英语是世界语言。尽管全球八十亿人中的大部分人不说英语,但他们都知道好几个英语词汇是什么意思,如可口可乐 Coca-Cola,麦唐老 McDonald's,肯塔基 Kentucky,老天爷 God,等。近两三年来,再加上一个词,叫 ChatGPT,即网上聊天机器人,代表人工智能。很多人每天使用ChatGPT和其他类似的 chatbots,说明人工智能已经来到我们中间而且深入我们生活的方方面面。然而不少人不知道 chatbots 之所以会与人对话是因为背后有大语言模型的支持,大语言模型在巨型计算机系统上运行模拟人的语言,不只是英语,还能模拟其他一百四十多种语言。除了语言,大语言模型还能识别和处理图像,视频,音乐和语音。大语言模型是纯粹的数学模型。作为数学模型,大语言模型如何做到这一点对很多人来说是一个大谜团。为了帮助大家解析这个谜团,@TheTuringApp制作了这个视频,清晰流畅地描绘了数学,大语言模型,和人工智能的发展,理论,和技术。为了帮助大家看懂这个全英文的视频,DCL 数据通讯实验室 Data Communications Lab 用人工智能记录下视频中的英语讲解,在视频中加入英文字幕,再将英文翻译成中文,编入美篇方便各位观看。我们把视频分为六段,这是第一段,希望对你有帮助。如有问题,请微信联系 tonydshen2003,我们会尽力解答。</p> <p class="ql-block">想象一下,教给一个孩子所有书籍中的每个单词,然后让他们预测句子中的下一个单词。由此产生的不仅仅是重复信息的能力,而是产生类似思考的东西。这本质上是大型语言模型(LLM)的成果。它们是人工智能的数学奇才,像诗人运用隐喻一样运用概率。</p><p class="ql-block">大型语言模型已经迅速融入我们生活的方方面面,从建议短信中的下一个短语到协助医疗诊断和为客户服务聊天机器人提供支持。它们无处不在。这些模型可以编写电子邮件、编写软件、创作艺术作品,甚至作曲。它们的影响力延伸到教育、研究和娱乐领域,从根本上重塑了人机交互的方式。然而,尽管LLM无处不在,它们的工作原理对大多数人来说仍然是个谜。那么,它们是如何实现这一非凡成就的呢?数学是这些思考机器的隐形支柱。</p> <p class="ql-block">凭借根植于线性代数、概率和微积分的技术,LLMS 能够解释、生成甚至推理语言。它们不仅学会了编码词语的结构,还学会了编码其含义、关系和细微之处。这一成就弥合了语法和语义之间的鸿沟。然而,LLMS 在很大程度上仍然是一个黑匣子。它们的决策常常显得神秘莫测,但理解这些模型背后的数学原理有助于阐明它们的内部工作原理。通过剖析驱动它们的算法和方程式,我们可以更好地掌握它们的能力和局限性,从而更接近揭开其运作的神秘面纱。然而,尽管 LLM 如此卓越,他们却并非真正理解。他们并非凭借认知而出类拔萃,而是凭借庞大的计算能力。他们的天才之处在于算法,他们的故事展现了人类的智慧,利用数字的力量来模拟人类最深刻的事物——语言本身。在本节目中,我们将带您踏上一段迷人的旅程,探索大型语言模型的幕后,揭示其发展背后的数学基础、创新突破和道德考虑。</p> <p class="ql-block">从理解概率和分词,到探索Transformer和微调的复杂性,我们将深入探讨大语言模型(LLM)的数学设计。在此过程中,我们将探讨这些模型提出的关于智力、创造力以及技术在塑造我们未来中所扮演角色的更深层次的问题。大语言模型的故事始于几十年前,当时的计算技术远不发达。1948年,贝尔实验室的数学家克劳德·香农提出了一个革命性的概念——信息论。香农认为,语言可以看作一系列概率事件,其中每个词都依赖于前一个词。他甚至概述了使用随机过程模拟文本的方法,这让我们得以一窥现代语言模型概率核心的惊人之处。香农的思想为计算语言学奠定了基础,而计算语言学是一个致力于从数学角度理解人类语言的领域。</p> <p class="ql-block">几十年后,像约瑟夫·魏森鲍姆这样的研究人员扩展了这些想法,发明了像 ELISA 这样的系统。ELISA 是 20 世纪 60 年代的聊天机器人,通过简单的模式匹配模仿人类对话。然而,Elisa 缺乏一些基本的东西,即对语境的理解。它可以回答问题,但无法预测接下来会发生什么。然而,如今的语言模型已经彻底解决了这个问题。比如像 “太阳落在点,点,点”这样的句子,语言模型可能不是通过直觉来预测西方 West,而是通过基于数十亿个先前的例子计算统计可能性。</p> <p class="ql-block">这种统计舞蹈由一种突破性的架构——Transformer——驱动。Transformer于2017年推出,彻底改变了这一领域,使机器能够以前所未有的规模掌握语境。</p><p class="ql-block">你是否曾在手机上输入信息,看着它提示你可能想用的下一个词?也许它会在日程安排之后预测会议,或者在快乐之后预测生日。这仅仅是一个自动完成的简单动作。</p><p class="ql-block">这体现了人工智能领域最深刻的创新之一——预测下一步的能力。这项功能如此无缝衔接,以至于我们几乎察觉不到。然而,它建立在数学概率的基石之上,而数学概率曾重塑了计算机处理人类语言的方式。</p> <p class="ql-block">想象一下,尝试将口语单词转录成文本。早期的系统依靠概率来猜测说话者最有可能想要说出的单词序列。这在当时是开创性的,但也暴露了固定概率的局限性。单词被视为孤立的片段,当对话上下文跨越多个单词时,模型就会陷入困境。其核心是一个 N-gram 模型。</p> <p class="ql-block">不少群友对人工智能感兴趣,人工智能实践群由此建立。此群群友大都在美国,东南西北都有,在德州,加州,华盛顿州西雅图,还有纽约。本群也包括国内的群友,还有数家国内机器人制造厂商的代表参加。如果你有兴趣,请微信联系群主 tonydshen2003 参加即可。参加此群没有任何前提条件。</p> <p class="ql-block">本群的目的在于提供一个交流场地,互相交流人工智能应用实践的方法和经验。群友们中有初学的,有中级水平的,也有高水平的人士。还有的群友不为自己而为他们的孩子们而来,希望他们的孩子们能早日接触人工智能这一新兴领域,或高中,或大学,或毕业后正在找工作等,帮助他们的发展。</p> <p class="ql-block">本群注重动手实践,通过做人工智能的应用学习人工智能,熟悉人工智能,真正了解人工智能到底是怎么回事。见 <a href="https://www.meipian.cn/5fqng2em" target="_blank" style="font-size:18px; background-color:rgb(255, 255, 255);">2025 人工智能 - 人工智能实践微信群 (1)</a> 和 <a href="https://www.meipian.cn/5g186vat" target="_blank" style="background-color:rgb(255, 255, 255); font-size:18px;">2025 人工智能 - 人工智能实践微信群 (2)</a></p> <p class="ql-block">如果你已经在从事人工智能的研发和商业应用,愿意分享你的经验和认知,找到新的发展机遇,欢迎你联系群主 tonydshen2003 参加人工智能实践群。</p><p class="ql-block">2025年9月13日于美国休斯顿</p><p class="ql-block"><a href="https://www.meipian.cn/5fqng2em" target="_blank">2025 人工智能 - 人工智能实践微信群 (1)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5g186vat" target="_blank">2025 人工智能 - 人工智能实践微信群 (2)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5g2801cv" target="_blank">2025 人工智能 - 人工智能生态环境浅谈 (1)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5g28h5ty" target="_blank">2025 人工智能 - 人工智能生态环境浅谈 (2)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5g291czy" target="_blank">2025 人工智能 - 人工智能生态环境浅谈 (3)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5fh79a4f" target="_blank">2025 AI - 英伟达创始人兼总裁黄仁勋在北京 (1)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5fhfn9o2" target="_blank">2025 AI - 英伟达创始人兼总裁黄仁勋在北京 (2)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5fi9o2os" target="_blank">2025 AI - 英伟达创始人兼总裁黄仁勋在北京 (3)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5fixv59z" target="_blank">2025 AI - 英伟达创始人兼总裁黄仁勋在北京 (4)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5dzcx20w" target="_blank">2025 如何组装含有英伟达GPU芯片的简易智能小车JetBot (1)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5cxyldnq" target="_blank">2025 英伟达技术浅谈 - 计算统一设备架构 (CUDA)</a></p><p class="ql-block"><a href="https://www.meipian.cn/5etekspd" target="_blank">2025 谷歌人工智能大语言模型杰马3 Google Gemma3</a></p>