《AI万金油》｜刘雪峰解读

林先生

你好，欢迎每天听本书。我是刘雪峰。今天我要给你解读的书叫作《AI万金油：商业幻想与科技狂潮》。 这本书的两位作者都来自普林斯顿大学。第一作者是阿尔文德·纳拉亚南，他是普林斯顿大学的计算机科学教授，也是信息技术政策中心的主任，常年研究AI等数字技术对社会的影响。另一位是萨亚什·卡普尔，是该中心的博士研究生。 书名《AI万金油》里的“万金油”，是引自19世纪末20世纪初在美国非常猖獗的一种“蛇油”（Snake Oil）骗局。当时，许多江湖游医向人们兜售一种号称能包治百病的“神奇药油”。大肆宣传，但实际上，这些药油几乎不含任何有效成分，甚至可能有害健康。 作者借用这个概念，就是想指出，今天许多被吹得神乎其神的AI技术，其实就像当年的“蛇油”一样，名声在外，但实际效果与宣传相去甚远，甚至潜藏着风险。 我们都知道，自从2022年ChatGPT横空出世以来，在全球范围内掀起了一股科技狂潮。在当今的互联网上，似乎AI无所不能，不仅帮我们写代码、做设计，还能分析市场、预测未来，甚至还有很多人鼓吹AI演化出了自我意识，将来会取代人类等等。 但是，AI真的无所不能吗？ 清醒地认识AI的能力边界和缺点，在这个时代会显得尤为重要。只有真正知道AI能做什么、不能做什么，我们才能在最大化其潜力的同时，有效规避风险。 所以，这本书就像在当今AI掀起的滔天巨浪之下，为我们配备了一部“声呐探测仪”，帮助我们探测并规避那些潜藏在浪潮之下的暗礁与危机。 书里分别聚焦于当前两种主流的AI——预测式AI和生成式AI，深入剖析了它们各自存在的问题及深层原因，最后探讨了在未来的AI时代，我们该何去何从。 在具体讲解开始之前，我们需要先明确刚才提到的两个概念：预测式AI和生成式AI。 预测式AI的核心任务是“做判断”。例如人脸识别（判断眼前这张脸是谁）、垃圾邮件过滤（判断一封邮件是垃圾邮件还是正常邮件）、医疗影像诊断（判断一张X光片所显示的结节是良性还是恶性）等等。我们可以看出，这里的“预测”，不是限于我们经常理解的“预知未来”，而是一个更广泛的概念，指的是做判断、下结论。 第二类AI叫作生成式AI：它的核心任务不是“做判断”，而是“搞创作”，输出我们人类能理解和欣赏的文字、图片、视频等等。我们最熟悉的ChatGPT、豆包，以及各种文生图、文生视频的应用，都是生成式AI的代表。 我们先来说预测式AI，看看这么一个问题——为什么有的预测式AI总是训练不好。 可预见的局限：为什么有的预测式AI总是训练不好 在很多领域，预测式AI的性能已经超过了人类。拿计算机视觉来说，早在2015年，ResNet模型在图像识别上的错误率就已降至3.57%，超越人类约5.1%的基准。 AI之所以能力这么强的核心原因在于训练。拿图片分类举例。它的任务是输入一张图片，模型要给出这张图片中包含物体的类别。 为了训练这个模型，我们往往需要准备一个训练数据集（Training Set），这个数据集包含了很多“训练样本”。每个训练样本，都包含一张图片，以及一个由人手动标上的“标签”。现在我们开始训练模型。模型包含很多需要调整的参数。训练模型，就是不断调整模型的参数，让模型看到数据集中的每张照片做出的类别预测，尽可能和它的真实标签一致。 训练完成以后，我们要看看这个模型的训练效果，我们会用这个模型，来测试一下它之前没有见过的图片。例如，测试集中包含200张图像，模型正确识别了其中的180张图片，我们就可以说这个AI模型的精度（accuracy）就是90%。 然而，有很多研究人员会发现，自己的预测式AI模型似乎不管怎么训练，模型的性能总是上不去。 比如，2015年，普林斯顿大学进行了一项著名研究——“脆弱家庭挑战”。研究追踪了2000年前后出生的4000多名儿童，在其出生、1岁、3岁、5岁、9岁和15岁时进行全方面调查。 研究者组织预测竞赛，向全球参赛者提供孩子从出生到9岁的所有数据，要求创建AI模型预测孩子15岁时的表现，包括GPA、住房稳定性、家庭物质状况等6项指标。 160个团队参赛，但结果令人失望：没有任何模型表现出色，即使最好的模型也仅比随机猜测略强。 那么，为什么AI在判断这个问题上表现不佳呢？ 许多人的第一直觉是：训练数据量不够大。毕竟在AI领域有一条“常识”——训练数据量越大，模型性能就越好。这在很多领域已经得到验证，例如前面提到的图像识别领域。 然而，后面证明，并不是这个原因。 研究人员拜访预测误差最大的家庭发现，一个原本成绩较差的孩子突然表现出色，原因是邻居的关键支持——辅导作业、提供食物等。然而，数据中并未记录这些来自家庭外的支持信息。 直接解决方案似乎是收集更多维度数据，但这在现实中几乎不可行。“脆弱家庭挑战”已为每个孩子收集了约1万个特征维度，预测效果依然不佳。要实现精准预测，可能需要记录孩子的一举一动，甚至每个念头，这在伦理、法律和实践层面都不可接受。 因此，“足够的数据”本身就是一个无法达到的理想目标，这构成了预测性AI在社会领域面临的第一重困境：数据维度的天然缺失。 有人可能会好奇，为什么之前用来进行图片分类的AI不会出现这个问题呢？ 因为模型判断所需的所有信息，已经完整地包含在输入的图片中了。图片本身就是“完整的数据”，不存在关键信息的遗漏，算法只需在其中寻找模式即可。 预测式AI之所以不准的第二个重要原因，和问题本身有关。很多预测问题，尤其是和人、社会等相关的问题本身具有内在复杂性，这让预测变得极其困难。 这里所说的“预测问题的复杂性”，首先体现在规律的易变性。 AI依赖从历史数据中挖掘规律来预测未来，这在物理世界有效，因为物理定律稳定不变。但社会现象没有永恒模式，某个时代的成功因素在另一个场景可能完全失效。例如，20年前的商业成功法则，放到今天可能就是失败的“秘诀”。社会持续演变，仅靠分析过去无法完全预测动态变化的未来，用历史数据训练的模型本质上就成了“刻舟求剑”的工具。 “预测问题的复杂性”，还体现在其内部包含的随机性。很多问题充满了各种随机因素，而随机因素是不可预测的。而且很多领域会存在蝴蝶效应，将这种偶然性放大。比如：一本书的早期好评带动后续销量、一条帖子被大V转发，在职业生涯中遇到一位贵人导致最后的成功等等。这让这类问题的预测从本质上变得几乎不可能。 “预测问题的复杂性”，还体现在很多这类的问题存在预测的“互动性”难题（The Strategic Feedback Loop）。它指的是许多预测任务涉及决策，而决策会反过来影响预测，这使预测变得更加复杂。因为即使预测的规律准确，人们会根据预测的结果做出行动，这个又会反过来导致规律无效。 一个我们自己可能更熟悉的例子是节假日期间的高速公路拥堵。基于往年经验，大量驾驶者会形成一个普遍预测：“节假日第一天上午，高速公路将出现严重拥堵”。为了规避这个预期的拥堵，许多人会做出相同的理性决策——提前至凌晨出发。然而，当足够多的人根据同一预测采取相同行动时，他们的集体行为反而创造了一个新的、未被预料到的拥堵高峰，即凌晨时段的严重拥堵。原始的“上午拥堵”预测或许部分正确，但系统的实际状态已被预测行为彻底改变。 在这种循环中，预测行为本身成了系统的一部分，它会改变系统未来的走向，从而让建立在历史数据上的任何规律都变得不稳定。 最后，我们要强调的是，尽管预测式AI在这些问题上表现不佳，但是这一点对有经验的AI设计人员，是在把自己的模型进行实际部署之前就能知道的。这就是所谓“可预见的局限”。这其实不是一件坏事。 但是，在实际中还会经常出现这样一个问题：明明自己训练的AI模型在测试集上表现优异，但是当你信心满满地把它放在实际中部署，会发现它表现很差。 这就是“一学就会，一用就废”。这是预测式AI更加隐蔽的问题。 为什么会出现这种现象呢？ 隐蔽的陷阱：为什么有的AI“一学就会，一用就废” 其中一个原因是“数据泄露”。也就是最后测试模型的时候，测试集中的样例是模型在训练时候见过的。就好比考试的卷子中，出现了你在练习过程中见过的完全一样的题目。你在这张卷子上的成绩很高，但是这个分数不能反映你真正理解内容的水平。 还有另外一个导致模型在实际部署中性能变差的原因在于：预测式AI经常容易把相关性（Correlation）当作因果性（Causation）。 AI模型在训练的过程中，会从输入中寻找一切能够帮助其更好地预测输出的特征，但是到底这些特征和输出是否为因果关系，AI模型是无法分辨的。 这导致的结果，就让AI模型在训练过程中表现出一种被称为“走捷径”的行为。这些“捷径”往往是基于非因果的虚假关联，而非我们所期望的、具有泛化能力的真实因果逻辑。 书中一个典型的例子，和新冠肺炎（COVID-19）的影像学诊断有关。之前有大量研究声称能通过胸部X光片高精度区分新冠患者和普通肺炎患者。然而，一项针对400多篇相关论文的系统审查发现，这些研究因严重方法论缺陷几乎不具备临床应用价值。 其中一个致命缺陷和数据集有关。在多个研究的训练数据中，几乎所有新冠肺炎影像来自成人，而所有未患病影像来自儿童。AI精准捕捉到了这个统计规律：“成人→可能患新冠；儿童→可能只是普通感冒”。 这个模式让AI在原数据集上取得极高准确率，但逻辑是错误的。模型并非识别磨玻璃影、白肺等真正的新冠影像特征，而是在判断图像是否来自成人。 但是值得我们注意的是，AI模型的设计者在部署之前，并不容易发现这个问题。 我们来回顾一下AI模型的设计者在部署之前是如何测试自己的模型的：他们总是把采集到的数据集分成“训练集”和“测试集”，然后用测试集来测试模型的性能。由于“训练集”和“测试集”来自同一批数据，只是人为把这批数据分成了两个集，因此“测试集”中，上面的统计规律“如果病人是成人，那么他很可能患有新冠；如果病人是儿童，则他很可能只是普通感冒”仍然成立。所以模型在这个测试集上的表现仍然很好，但是到现实中就不行了。这就是因为把相关性当作因果性导致的预测错误。 值得注意的是，当前的许多AI模型本质上是“黑箱”，其决策依据并非以显式的逻辑规则呈现，而是隐含在数以万计的复杂参数中。这种固有的不透明性，导致我们通常无法直接审视模型做出具体判断的内在机理。因此，当模型依赖虚假关联而非真实的因果特征做出判断时，这类错误将变得极为隐蔽，难以在标准测试中被发现。 如何打开AI的“黑箱”，实现模型的可解释性，已成为人工智能领域至关重要的前沿方向。 致命的偏差：当“优化目标”成为问题的根源 刚才我们已经说了预测式AI在实际应用中表现不佳的两个层次的原因，分别是，“可预测的局限”和“隐藏的陷阱”。第三个层次的错误，可以称为“致命的偏差”：这是最值得警惕的一类问题，因为它直接源于AI优化目标的设定。这是很多人都不知道的一个点，值得你仔细听听。 AI模型训练的核心，是首先要人为设定一个明确的优化目标。这个目标的确立，是整个训练过程的“指挥棒”。目标设定完，就可以开始启动模型的训练。模型的训练，就是一个不断调整模型内部参数、以求最优化该目标的过程。 举个图像分类的例子：我们的目标可以是在平均意义上，让模型的预测结果与真实标签之间的差距越小越好。那么，参数调整的全部意义，就在于如何让这个差距不断缩小，直至最优。 然而，关键在于，这个优化目标是由AI的设计者——“人”——来定义的。这意味着，如果最初设定的目标本身存在偏差或不够全面，那么无论模型训练得多么“完美”，最终也无法达到我们预期的理想效果，甚至会产生严重的问题。 与优化目标相关的一个错误，被称为代理指标的谬误（The Proxy Problem）。 这个问题的本质是：我们希望AI去优化一个至关重要的“真实指标”，但由于现实的限制，开发者选择了一个更容易量化的“代理指标”（Proxy）来作为替代。 问题在于，许多“代理指标”虽然表面看似合理，但当AI将其作为唯一的优化目标时，模型的最终表现往往会与我们的初衷背道而驰，甚至引发严重问题 书中一个例子是关于AI如何预测谁应获得更优先的医疗护理。自2010年《平价医疗法案》在美国推行以来，医院为了控制成本，普遍采用AI技术来识别“高风险”患者，并为他们提供预防性护理，以避免未来产生更昂贵的治疗费用。数十种AI模型因此诞生，其中就包括了Optum公司的Impact Pro模型。 然而，一项针对该模型的研究揭示了一个惊人的结论：在健康状况完全相同的情况下，该模型系统性地认为，白人患者比黑人患者具有更高的患病风险。 这是一个极其反常的现象。从医生的专业判断来看，高风险病人通常是那些病情危重、合并症多、需要更密切治疗和干预的个体，这完全取决于其生理和病理状况，而绝非肤色。 这意味着，Optum的AI模型会使白人比同等健康状况的黑人更容易被纳入优先护理项目，从而享有本不应有的资源倾斜。 那么，这个旨在预测健康风险的AI，为何会得出如此带有偏见的结论呢？ Optum的设计者在训练这个AI模型的时候，要准备数据集。这个数据集中的每一个样本，应该包括某个患者的所有信息，以及该患者的“真实健康风险”。 但研究者很快发现，“真实健康风险”这个标签很难收集。我们如何知道一个病人的真实健康风险呢？是死亡率？是住院时间？还是康复所需的时间？可能都不准，这需要临床专家的复杂评估、患者的主观反馈以及长期的健康跟踪。这个数据收集成本极高且难以标准化。 为此，该AI的设计者找到了一个看似巧妙的代理指标：患者入院期间总的医疗费用。 这个逻辑表面上颇具说服力：一个病人的医疗花费越高，其病情更严重，入院时的风险也越高，而且“医疗花费”这个量化数据唾手可得。 然而，正是这个代理指标，成了问题的根源。因为，一个病人的医疗花费高，不一定是其健康风险大，很可能是因为他有钱或者有保险。在美国，这一部分人是白人的比例更高。 当AI被指令去优化“医疗花费”这个代理指标时，它就会从输入的病人信息中，寻找一切能够帮助其更好地预测“医疗花费”的相关信号，于是它发现了“肤色”这个特征：如果一个人是白人，那么其医疗花费更高；如果是黑人，那么其医疗花费更低。 所以出现的结果是，那些在过去已经享受到更多医疗资源的白人患者，由于历史花费更高，被AI标记为“更高风险”，从而在未来分配到更多的预防性护理资源。而那些未能获得足够医疗资源的人（通常是黑人患者），因为历史花费更低，被AI标记为“更低风险”，从而在未来进一步被剥夺了本应属于他们的资源。 这完美地诠释了代理指标的谬误：AI被要求去预测一个重要但难以衡量的真实目标（“真实的医疗需求”），开发者却选择了一个容易衡量但存在根本性缺陷的代理指标（“实际的医疗花费”）作为替代，却未能充分考虑到代理指标与真实目标之间的差距。AI精准地优化了错误的目标，最终导致了系统性的不公。 可能有人会想，如果AI的设计者不把“肤色”作为模型的输入，是否就能避免这种偏见呢？答案是否定的。即使模型的输入数据中完全不包含肤色或种族这类敏感信息，由于这个“医疗花费”代理指标的设定，模型依然会“学会”这种偏见，只不过更加隐晦。比如，AI会发现，像邮政编码、保险类型等看似中立的特征，都是预测“高花费”的绝佳线索。而这些特征，在美国社会中，恰恰又与种族分布高度相关。 除了“代理指标谬误”这种无意的偏差，还存在一种更值得警惕的情形：设计者为了自身利益，有意将目标函数设定为服务于特定目的，即便这会牺牲用户或社会的公平性。 更关键的是，绝大多数模型的开发者并不会公开其目标函数的具体设计。这种不透明性制造了一个危险的漏洞：开发者可以利用复杂的算法和海量数据作为掩护，让AI悄无声息地为其谋利。 我们所熟知的“大数据杀熟”，正是这种意图的体现。 书中提到了这样一个例子。2013年，好事达保险公司尝试使用预测式AI来调整汽车保险费率。其明确设定的目标函数是：在不流失过多客户的前提下，最大化利润。 为达成此目标，模型需要解决的实质问题是：如何识别哪些客户对价格上涨不敏感？ 模型被输入大量客户数据，包括年龄、住址、驾驶记录、信用评分等，经过训练后输出每位客户的价格敏感度。 于是模型生成了一份“可榨取客户名单”，其中62岁以上老年人的比例异常之高。模型发现，老年人更少货比三家，更换保险公司的倾向更低。因此，该人群被系统性地给予更少的折扣和更高的保费涨幅。 这种操作的本质是歧视。虽然保险公司并未主观宣称“要歧视老年人”，但其设定的“利润最大化”目标函数与数据的结合，必然导向了这一歧视性结果。 更值得警惕的是，开发者常以“算法复杂性”为挡箭牌，声称歧视性结果是“数据驱动的客观最优解”，以此规避道德和法律责任。当AI被应用于金融、医疗、司法等攸关民生的领域时，这种对目标函数的隐蔽操控，足以使其沦为高效、精准且冷酷的剥削工具。 所以我们最需要警惕的，或许并非科幻作品中耸人听闻的“机器人觉醒”，而是那些隐藏在冰冷数据和“客观”算法之下的、由错误的代理指标和商业利益所驱动的、无声无息却影响深远的系统性偏见与歧视。 所以，对于刚才我们说过的，预测式AI的这些问题，我用一句话来总结：技术之上应有理性，理性之上应有良知。 生成式AI的两个问题：“幻觉”与“单一的基准测试” 我们刚才介绍了预测式AI的问题，下面重点谈谈生成式AI的问题。 生成式AI的核心任务不再是“预测”，而是“创造”。生成式AI的代表，就是像ChatGPT、DeepSeek这样的大语言模型。 虽然大语言模型和人交流能力非常强，但也很容易“一本正经地胡说八道”。也就是说，它生成的文本语言流畅、逻辑自洽、充满自信，但其核心内容却可能是完全虚假的。这种现象在学术界被称为“幻觉”（Hallucination）。 为什么大模型会产生“幻觉”？ 这源于其根本的技术原理。与能够精确检索信息的数据库不同，大型语言模型是一个概率性的文本生成器。它通过在数万亿词元（Token）的庞大语料库上进行训练，学习词语与词语之间的统计关系。它的任务是预测“下一个最有可能出现的词是什么”，从而生成一段在语言模式上“看似合理”的文本，而非确保其内容的真实性。事实准确性，从来不是其核心设计目标。 面对生成式AI的“幻觉”问题，学术界和工业界正在探索多种解决方案。这已远非简单的模型调优，而是一项复杂的系统性工程。 下面，我们来思考一个基本的问题：我们究竟该如何衡量AI的能力？ 当前，整个AI领域都陷入了一场围绕基准测试（Benchmark）的激烈竞赛。各大公司和研究机构轮番登场，发布者在各项标准化测试中不断刷分。 但是，基准测试的根本问题在于，它将复杂、多维的现实世界，简化为了单一、刻板的评分标准。 具体来说，绝大多数基准测试只关注模型在特定任务上的表现。例如，主流的自然语言基准测试，注重的主要是自然语言推理、文本蕴含、情感分析、问答和语义相似度判断等核心语言理解能力，但它们却完全没有评估那些在现实世界中更重要、更关乎伦理的维度。例如，模型的输出是否固化了文化偏见？它输出的内容是否会对社会稳定造成风险？这些在基准测试中统统是“隐形”的。 此外，当所有开发者都以基准分数为唯一目标时，他们会有意或无意地“为测试而优化”。这就像一个只为应试而学习的学生，他能熟练掌握所有考点和解题技巧，但在真实世界中解决复杂问题的能力却不堪一击。AI模型也一样，它们变得越来越擅长在基准测试中“看起来很美”，但在实际应用中表现不佳。 另外一个值得关注的问题是，许多模型可能已经在其海量的训练数据中，不知不觉地“见过”了基准测试的题目和答案。这种数据泄露问题让测试结果变得不再可信，因为模型不是在“推理”，而是在“背诵”。 所以，书中的结论是：我们不应该对基准测试寄予太多希望。衡量一项技术真实价值的唯一标准，是它在真实世界中的表现。我们应该关注那些真正尝试在专业环境中使用这些AI系统的人，他们从大模型中获得的真实感受和助益，才是我们衡量大模型的金标准。 AI会产生自我意识，从而威胁人类吗？ 下面我们再来看一个问题。AI会产生自我意识，从而威胁人类吗？ 从《终结者》中试图灭绝人类的“天网”，到《碟中谍7》中无所不能的“智体”，科幻作品一直在为我们描绘一种最深刻的恐惧：一个拥有自我意识，并最终背叛人类的超级人工智能。这样的未来真的会出现吗？ 本书的作者给出了否定的观点。作者认为，即使在理论上有可能性，但对人类的最大威胁不是来自AI自主背叛，而是来自人类对AI的滥用。 然而，作者并没有说明为什么AI不会诞生自主意识。 借着解读这本书的机会，我谈谈我的观点。我认为：AI不会诞生自主意识，因为其所有行为都受限于一个由人类设定的、外在的目标函数。 要理解这一点，我们必须明确AI是如何“学习”的。无论是监督学习、无监督学习，还是强化学习，所有AI模型的训练过程，本质上都是一个数学上的优化过程。这个过程的核心，就是目标函数，它是一个由人类工程师预先定义的、精确的数学公式。AI训练的全部意义，就是通过调整其内部数以万亿计的参数，来找到能使这个目标函数分数最优的模型参数。 从这个角度来说，AI没有“内在驱动力”：AI的一切“行为”，从生成一段文本到驾驶一辆汽车，都只是为了优化其目标函数的外部表现。它没有好奇心，没有求知欲，也没有生存本能。它不会因为“想”理解世界而去学习，而只是因为“被设定”要去拟合训练数据集中的统计模式。 因此，AI的整个“存在”，都被这个由人类设定的数学目标所禁锢。它是一个极其强大的“目标执行者”，但它永远无法成为“目标设定者”。 而自主意识的核心，在于能够自主设定目标。一个有意识的生命体，其行为受到一系列内在、分层的目标驱动：从最底层的生存、繁衍，到更高层的社会归属、自我实现。这些目标并非由外部工程师编码，而是由亿万年的生物进化“写入”基因和神经网络之中的。 那么，我们该如何解释AI有时表现出的、看似具有自主意识的行为呢？例如，ChatGPT在对话中表现出的情感、创造力甚至是“自我反思”，这是不是意识的萌芽？ 答案是否定的。这些只是基于目标函数的优化，而产生的看起来像是意识的行为罢了。 当AI产生“幻觉”，凭空捏造事实时，它并非在进行有意识的“创造”或“撒谎”。只是找到了一个它觉得最符合目标函数的词语组合。当AI对你表达“同情”时，它并未真正“感受”到你的情绪，只是学习到了在特定情境下，生成“表示同情的文本”能够最大化其目标函数。 所以，我同意作者的观点：我们应该关注的重点，不是去防范一个遥远的、几乎不可能发生的“AI叛变”，而是要防范AI这样一个没有意识、没有道德，但能力极其强大的工具，被别有用心的人用于牟利、诈骗、制造谎言、实施监控甚至发动战争。 用AI来作恶，我们在之前的“致命的偏差”这一小节的内容中，已经介绍过了一些用预测式AI来“作恶”的案例。书中也有很多这方面例子。早在2019年，一名英国公司高管就接到了一通电话，这通电话完美伪造了他德国母公司CEO的声音、口音和语调，并以“紧急业务”为由，成功骗取了22万欧元的汇款。在当时，这种攻击还需要专业的技术和不菲的成本。而今天，仅需一个几秒钟的真实录音片段，任何人都可以利用开源工具生成以假乱真的语音，语音诈骗的门槛被前所未有地拉低。 要如何解决这个问题呢？作者的解决之道是必须双管齐下：既要发展技术盾牌，也要建立能够约束AI滥用的法律框架。 在技术方面，就是“以AI对抗AI”。当前，深度伪造检测（Deepfake Detection）是一个很热门的研究方向，通过训练AI模型识别AI生成内容的细微痕迹。此外，数字内容溯源（Content Provenance）的思路是在内容生成时就为其打上“烙印”。记录了内容的创作者、创作工具（是否使用AI）、创作时间以及后续的每一次修改历史。 此外，如何制定法律来监管AI的使用，也是一个重要的手段。目前，全球范围内对深度伪造的法律规制仍处于起步阶段，且零散不一。在美国有少数几个州出台了针对“深度伪造”的法律，但覆盖面极为有限。欧盟通过了《人工智能法案》（AI Act），要求所有使用AI生成或篡改的内容必须明确向用户声明。在中国，《生成式人工智能服务管理暂行办法》则要求服务提供者对生成内容进行明确标识，并建立了算法备案和安全评估制度。 未来的两个世界 现在我们来说说这本书的最后一章，也是我最喜欢的章节。 作者设想了两个出生在大模型时代的孩子凯（Kai）和玛雅（Maya）的故事，探索在不同假设的未来世界中，他们的生活可能会如何发展。 凯的世界是一个被动防御的未来。在凯的世界里，社会对AI的风险，尤其是对儿童的风险充满警惕，这催生了严格的保护措施。学校禁止学生使用AI，大多数面向儿童的应用为了规避监管风险也选择“一刀切”地屏蔽。 然而，这种看似负责的“不作为”，却导致了一系列负面后果。天性好奇的凯只能求助于那些未经审查和优化的商业AI工具。与此同时，社交媒体与AI深度融合，用算法生成了无穷无尽、令人上瘾的内容流，吞噬了凯的注意力。 此外，学校使用预测式AI，根据凯的成绩和家庭数据将其分入“低潜力”组，过早地限制了他的职业机会。整个社会弥漫着一种“工作即将被AGI取代”的论调，让凯对自己的学业和未来都丧失了动力。 凯的世界揭示了一个残酷的现实：以“保护”为名的被动防御和过度限制，实际上是将塑造未来的权力，完全拱手让给了不受约束的商业力量。 而玛雅的世界与凯的世界完全不同。 首先，关于AI影响的研究资金增加了10倍，确保监管能跟上技术发展。此外，法律强制打破了推荐算法的垄断，催生了更加多元和健康的社交媒体生态。玛雅和她的同龄人获得了前所未有的工具，可以主动策划自己接收的信息，而不是被动投喂。学校也将AI素养视为核心能力，系统性地融入教学。 此外，社会对自动化决策的风险变得高度敏感。一个标志性的变革是，大多数大学录取转为“部分抽签制”。这一举措削弱了常春藤名校的光环，因为人们认识到这些名校在加剧社会不平等方面所扮演的角色。当玛雅因抽签未能进入梦想中的顶尖大学时，她虽有失望，但并未对职业生涯产生重大影响，因为社会评价体系已变得更加多元和务实。 玛雅对自己的未来充满信心，因为在她的世界里，AI主要负责自动化“任务”而非取代“职业”，企业也适应了定期对员工进行技能再培训的常态。 那么，哪个世界更有可能实现？作者并不乐观：从今天的角度看，凯的世界更有可能成为我们的“默认现实”。因为我们只需要继续以畏惧和顺从的态度回应科技行业的发展，便会自然滑向那里。 而要实现玛雅的世界，则需要大量的公共投资和全社会态度的转变。不作为，肯定不会带来一个理想的未来。 凯的沉沦，源于被动地接受；玛雅的希望，始于主动地面对。我们人类，永远不应该把选择权交给机器，而要牢牢把握在自己手中。