侃AI 00059 登上 Nature 的 AI 科学家：让一群智能体互殴、打擂台、迭代进化

潘力刚地产.激光.IT.AI医学

<h5>前世： <a href="https://www.meipian0.cn/502jptad?share_depth=1" target="_blank" class="link"> 何以中国</a>今生： 读懂中国，认识中国，讲好中国故事，提高文化自信：<a href="https://www.meipian.cn/41gazfq6?share_depth=1" target="_blank" class="link"> 这就是中国</a><div> </div>千里姻缘一线牵，公益相亲平台： <a href="https://www.meipian.cn/3sx8s2ry?share_depth=1" target="_blank" class="link"> 圆梦缘</a> 科学、医学、人文、历史、文学、音乐、影视、摄影、数、理、化、计算机、人工智能、......： <a href="https://www.meipian.cn/2mzihezd?share_depth=1" target="_blank" class="link"> 仰望星空文库</a> 你在加拿大魁北克的家园： <a href="https://www.meipian.cn/2i2mlfyz?share_depth=1" target="_blank" class="link"> 蓬莱仙阁楼台加拿大魁北克傍山依水家园文库</a> 赏心乐事谁家院： <a href="https://www.meipian.cn/38xse320?share_depth=1" target="_blank" class="link"> 好山好水好风光文库</a> 别时容易见时难： <a href="https://www.meipian.cn/56okj3y4?share_depth=1" target="_blank" class="link"> 千里江山文库</a> 千流归大海，高山入云端（数据总库）：<a href="https://www.meipian.cn/3pa5ryed?share_depth=1" target="_blank" class="link"> 仰望星空脚踏实地 BECC CECC</a> 勘、侃、龛、看人生： <a href="https://www.meipian.cn/47vr4ia1?share_depth=1" target="_blank" class="link"> 圆桌派</a><div> </div><div align="center"><a href="https://www.meipian14.cn/53i2y6n6?share_depth=1" target="_blank" class="link"> 逻辑思维</a> </div><div align="center"> </div><div align="center"><a href="https://www.meipian.cn/43aqwbtp?share_depth=1" target="_blank" class="link"> 加中教育促进会 BECC-CECC 《仰望星空文库》列表</a> </div></h5><h1 align="center"> </h1> <h5 style="text-align:center;"><a href="https://www.meipian.cn/5lav5zq6?share_depth=1" target="_blank" class="link"> 侃AI by BECC-CECC 加中教育促进会</a></h5> <h3>侃AI 00059 登上 Nature 的 AI 科学家：让一群智能体互殴、打擂台、迭代进化，它真的比人更会「想」吗？</h3> <h5> 人类科学史，本质上是一部「如何提出好问题」的历史。从牛顿被苹果砸中后追问「为什么往下落」，到爱因斯坦思考「如果追上一束光会怎样」，每一次范式跃迁的起点，往往不是数据的累积，而是一个出乎意料的假设。然而在今天，科学发现正面临一种奇特的困境：不是算力不够，不是数据太少，而是「想不出来」——提出一个新颖、可验证、有潜力的科研假设，正在成为整个流程中最难的一环。 现代生物医学研究者面临的挑战是空前的。PubMed 上每天新增的论文数以千计，一个科学家穷尽一生也只能读完自己小领域的沧海一粟。更要命的是，真正的突破往往发生在学科的交叉地带——微生物学家不懂 AI 算法，计算生物学家不熟悉临床细节。人的认知有边界，阅读速度有上限，思维容易陷在熟悉的知识框架里打转。而跨学科的知识组合，恰恰是产生高质量假设的重要来源。 Google DeepMind 在 2026 年 5 月发表于 Nature 的论文 Accelerating scientific discovery with Co-Scientist，正是针对这个「想」的问题给出的一套系统性解法——别让一个 AI 单干，让一群 AI 分工协作，像一支科研团队那样工作。它不会做实验，不会写论文，但它会在数小时内翻遍成千上万篇文献，生成一批候选假设，然后在系统内部经历「同行评议」「学术擂台赛」和「迭代进化」，最终把经过反复批判的、最有潜力的答案交到科学家手中。 这篇评论试图拆解这套系统的核心逻辑，梳理它在真实科研场景中的表现，并在此基础上追问一个更根本的问题：当 AI 开始介入「假设」这个环节，科学发现的本质会发生怎样的变化？人机协作的边界又在哪里？ </h5><h3 class="ql-block">一、「想」这件事，为什么 AI 可以插手？</h3><div> </div> 「提出假设」在传统认知中被视为人类创造力的专属领地，难以形式化。它依赖专家的直觉、跨领域的联想能力、对实验可行性的判断，以及某种说不清道不明的「科学品味」。然而 DeepMind 团队敏锐地捕捉到了一个关键的突破口：假设生成虽然在宏观上看似玄妙，但在微观操作层面，它其实可以被拆解为「搜索—组合—评价—筛选」的可计算过程。 一篇好的假设，本质上是对已有知识的某种新颖重组。AI 在文献覆盖广度和无偏见搜索上天然优于人类——它不会因为学科归属而忽略某个领域，也不会因为某个假说听起来「太奇怪」而提前将其排除。但如果只是让一个 AI 模型来承担这一切，问题仍然存在：单一模型的输出受限于其训练数据和推理偏好，容易产生幻觉，也容易陷入自我强化的思维定势。 Co-Scientist 的突破在于，它将这个问题从一个「个体推理问题」转变为一个「群体博弈问题」——通过多智能体之间的辩论和竞争，让高质量的假设在对抗中自然浮现。 <h3 class="ql-block">二、「脑暴—挑刺—打擂—进化」：一场思想锦标赛</h3><div> </div><h5 class="ql-block"> Co-Scientist 建立在 Gemini 2.0 基础之上，但它的核心不是大模型本身，而是围绕它构建的一套多智能体架构。研究团队将其拆解为六个互相配合的角色：</h5> 第一，生成智能体。当科学家用自然语言输入一个研究目标（比如「寻找某种抗菌药物的耐药机制」）时，生成智能体便开始检索相关的科学文献和数据库，综合已有证据，提出一批初始候选假设。它不追求精确，而是追求广覆盖。 第二，邻近智能体。这个角色的任务是「画地图」——将生成智能体输出的假设进行聚类和映射，确保探索空间覆盖了足够多的方向，防止系统过早地收敛到某一条思路上。 第三，反思智能体。这是一个「虚拟同行评审」，会从六个维度（包括可验证性、新颖性、逻辑自洽性等）对每个候选假设进行严格的审查，专门挑毛病。它还会调用外部搜索工具来核查假设的事实基础，防止系统产生看似新颖但缺乏逻辑支撑的幻觉。反思智能体的存在，是 Co-Scientist 区别于普通「头脑风暴工具」的关键——系统内部自带了一条纠错回路。 第四，排名智能体。这是整个系统中最具戏剧性的一环。排名智能体将候选假设两两配对，组织模拟科学辩论，让两个假设在虚拟的「学术擂台」上正面交锋。每个假设必须为自己的合理性辩护，同时攻击对手的漏洞。裁判根据辩论结果给出胜负，系统据此更新每个假设的 Elo 评分（一种常用于棋类排名的动态积分系统）。经过多轮对战后，排名最高的假设脱颖而出。 第五，进化智能体。排名不是终点。进化智能体会提取排名最高的假设中的「优质基因」——比如一个有说服力的机制解释，或一个巧妙的实验设计——然后将其与其他假设中的元素进行组合、改进，生成新一代的候选假设。这个「锦标赛—进化」循环可以反复执行多轮，系统消耗的计算时间越长，输出假设的质量越高。 第六，元评审智能体。它负责全程监督和协调，从辩论和排名中提炼整体洞察，最终将最优的研究提案整理成系统化的报告，交还给人类科学家审查。 这六个角色形成了一个闭环：生成 → 批评 → 排序 → 进化 → 再批评……每一次循环，都是一次思想的「淬火」。系统不做湿实验，不自己动手验证，但它用计算换取了另一个维度的时间——把本应由人类专家花数周才能完成的文献综述、假设筛选和逻辑推演，压缩到了数小时之内。 <h3>三、真实战场：它真的能「想」出东西吗？</h3><h5> Nature 论文中最有说服力的部分，是对 Co-Scientist 的三项真实世界验证。这三项测试覆盖了科学发现的三个典型场景：药物再利用、新靶点发现和机制解释。 案例一：急性髓系白血病（AML）的药物再利用 </h5><h5> AML 是一种侵袭性强的血癌。研究团队让 Co-Scientist 从约 2300 种已批准药物中筛选候选药物。系统提出了 Binimetinib、Pacritinib、Cerivastatin 等候选药物，并在体外细胞系实验中验证了其对 AML 细胞的抑制作用。更令人印象深刻的是，Co-Scientist 还独立提出了一些此前未被探索的药物组合方案，在 MOLM-13 细胞系中验证出了强协同效应。在专家盲评的 11 个开放生物医学问题中，Co-Scientist 在新颖性、影响力和整体偏好上都拿到了最高分。 案例二：肝纤维化的新药发现 肝纤维化是一种几乎无药可治的器官瘢痕疾病。斯坦福医学院的 Gary Peltz 团队向 Co-Scientist 提出了一个需求：在现有上市药物中寻找能治疗肝纤维化的候选药物。系统给出了三个建议。在后续的肝脏类器官实验室测试中，AI 选中的药物中有两个显著减少了纤维化，其中一个——FDA 已批准的抗癌药物 Vorinostat——将 TGFβ 诱导的染色质结构变化减少了 91%，还表现出促进肝脏再生的迹象。作为对比，Peltz 本人凭经验选出的两个药物在测试中均未达到同样效果。这让一些人机「竞赛」的味道显现出来：在某些特定场景下，AI 的「全景视野」确实超越了个体专家的经验直觉。 案例三：抗生素耐药性机制的独立推演 最戏剧化的案例来自伦敦帝国理工学院的 José Penadés 教授团队。他们多年来一直在研究一个奇怪的现象：一些微小的 DNA 碎片能够借助病毒的「尾部」在同种细菌之间传播，但为何完全相同的 DNA 碎片会出现在物种差异巨大的不同细菌中？这个跨物种跳跃的机制，团队花了数年时间才形成一个初步的猜想——这些 DNA 碎片不仅能在宿主细胞内部「偷」病毒尾巴，还能从邻近细菌那里「抢」来病毒尾巴。当团队把相关文献和问题输入 Co-Scientist 后，系统在两天内提出的头号假说，与人类科学家耗费数年才得出的结论完全一致。Penadés 事后回忆：「我真的被吓到了。」一个从未踏入过实验室的 AI，仅凭逻辑和数据推理，就精准重现了人类科学家数年的探索。 这三个案例有一个共同特征：Co-Scientist 并非在「创造」全新的知识，而是在「重组」现有知识，找出那些隐藏在文献缝隙里的、非显而易见的组合。而这个过程，恰恰是很多科学家最耗费心力、也最容易遗漏的环节。 </h5><h5> </h5><h3>四、人机对照：AI 和人类科学家「想」的方式有什么不同？</h3><h5> 为了理解 Co-Scientist 带来的改变，有必要先厘清它与人类科学家在「想」这件事上的本质差异。 维度 人类科学家 Co-Scientist 文献覆盖 深但窄，依赖个人专业积累 广且快，可并行处理海量文献 跨领域联想 依赖个体经验，跨学科困难 无学科偏见，可任意组合 假设创新性 可能受制于既有知识框架 易跳出常规思路，但可能偏离实际 假设批判 依赖同行评议，周期长 系统内置「虚拟评审」，可实时迭代 认知偏见 受声誉、学派、个人偏好影响 无社会性偏见（但可能有训练数据偏见） 实验可行性判断 经验丰富，判断准确 依赖文献推断，可靠性存疑 责任承担 对结论负全责 不承担责任，需人类把关 这张表格揭示了一个关键结论：Co-Scientist 的优势集中在「搜索广度」和「无偏见筛选」上，而人类科学家的优势则在「深度判断」「领域直觉」和「责任伦理」上。两者不是替代关系，而是互补关系。这也正是其设计团队反复强调的核心立场：Co-Scientist 是一个协作工具，科学家的角色始终是最终决策者。 </h5><h5> </h5><h3>五、冷静审视：争议、局限与伦理困境</h3><h5> Co-Scientist 的发布引发了学术界的大量讨论，其中不乏尖锐的质疑。正视这些质疑，才能对这项技术有一个公允的评估。 争议一：真的「新颖」吗？ 有批评者指出，Co-Scientist 提出的「新颖」假说，本质上是已有知识的组合，而非真正意义上的「创造」。在肝纤维化案例中，Vorinostat 作为抗癌药已被广泛研究，有人质疑 AI 并没有发现真正「新」的东西。这个批评触及了一个核心哲学问题：在科研中，什么算「新」？如果「新」仅指一种此前未被实验验证过的药物-疾病配对，那 Co-Scientist 确实达到了这个标准；但如果「新」意味着对基础机制的突破性洞察，当前的 AI 系统还有很长的路要走。 争议二：结果可信吗？ MIT 计算机视觉研究员 Sara Beery 公开表示，这个工具「虽然有趣，但似乎不太可能被认真使用」；北美西医疗中心的病理学家 Favia Dubyk 则指出 Google 公开的结果「过于模糊，没有任何科学家会当真」。罗彻斯特理工学院的 Ashique KhudaBukhsh 教授更冷静地指出：「我们不会真正理解这类工具的优势和局限，直到它在不同科学领域经过严格的、独立的评估」。这篇 Nature 论文只是一个开端，真正的考验还在漫长的实际应用过程中。 争议三：科学家的乐趣和创造力被忽视了吗？ 索尼计算机科学实验室的 AI 研究员 Lana Sinapayen 提出了一个更人文的视角：对很多科学家来说，提出假说是科研过程中最具乐趣的部分。将这个环节交给机器，可能会让科学家失去工作的热情。这不是一个技术问题，而是一个职业身份认同问题——如果 AI 承担了科学发现中最核心的「想」，科学家的角色还有什么不可替代的价值？ 争议四：安全和伦理 随着 AI 科学家能力的提升，其潜在的滥用风险也在增加。耶鲁大学等机构的研究团队在 Nature Communications 上发表了一篇重要分析，系统梳理了 AI 科学家的风险维度：在恶意意图下，AI 可能被用于设计有害实验或合成危险物质；即使在没有恶意的情况下，AI 的非预期行为也可能产生不可预见的后果。Google 的研究者也主动发布了一份伦理指南，强调在透明度、问责性、公平性等方面建立规范。 争议五：AI 能署名吗？ 一个更为现实的问题是署名权。当前所有权威学术伦理指南——包括 COPE、ICMJE——都明确禁止将 AI 列为论文作者，理由是 AI 无法承担对研究准确性和伦理的责任。这意味着即使 AI 贡献了核心假设，最终的责任归属仍然在人类科学家身上。这个矛盾在未来几年内势必引发更激烈的讨论。 这些争议并不否定 Co-Scientist 的价值，而是揭示了一个重要事实：任何通用工具在进入一个高度复杂的专业领域时，都需要经过长期的文化调适和制度磨合。AI 在科研中的角色，是在争议中逐步被定义的。 </h5><h5> </h5><h3>六、范式转变：AI 如何重塑「科学发现」的前端</h3><h5> 从更宏观的视角来看，Co-Scientist 的出现不是一个孤立事件，而是一股正在加速蔓延的趋势中的标志性一步。2026 年初，北京智源研究院将「AI Scientist 成为 AI4S 北极星」列为年度十大 AI 趋势之一，指出 AI 在科研中的角色正在「从辅助工具升级为自主研究的 AI 科学家」。与此同时，随着 MCP、A2A 等智能体通信协议的标准化，多智能体系统正逐步成为科研领域的「基础设施」——不止能干活，还能协同。 在同一天的 Nature 上，非营利研究机构 FutureHouse 也发布了名为「Robin」的多智能体科研助手系统，专注于实验生物学的自动数据分析。Robin 能在约 30 分钟内完成相当于人类专家 800 小时的工作量。两个系统同日发表在顶刊上，释放了一个清晰的市场信号：AI 正在从「单点工具」演进为「全流程伙伴」，科学发现的范式正在被重新书写。 从科研方法的演变来看，我们正在见证一个被称为「第五范式」的兴起——以「数据密集—智能涌现—人机协同」为核心特征的智能化科研新范式。前四个范式（实验科学、理论科学、计算科学、数据驱动科学）分别对应了人类在不同时代对「如何做研究」的解答，而第五范式的核心在于：AI 不再是被动的分析工具，而是主动参与到「提出假设」这一前端环节中。 </h5><h3>写到这里，一个根本问题始终无法回避：当 AI 开始「想」，人类还能做什么？</h3><h5> Co-Scientist 的设计给出了一条很聪明的回答：它不取代人的判断，而是放大人的判断。科学家将研究目标输入系统后，从几十上百个候选假设中做选择、设计实验、做出最终决策——这些环节仍然由人类主导。AI 把「从 0 到 1」的生成过程加速了，但「从 1 到 100」的判断、验证和落地，仍然需要人类的智慧。 那么，AI 会不会让科研变得更同质化？如果大家都用同一套多智能体系统，会不会所有人的假设都朝着同一个方向收敛？这个担忧并非没有道理。多智能体系统的核心机制是辩论和竞争，如果所有用户都在同一个基础模型上运行相似的推理流程，生成相似的数据来源，那么它产出的假设多样性确实值得警惕。真正的创造力来自不同的提问方式、不同的背景知识和不同的价值判断。这些差异，恰恰是人类科学家提供的。 还有一个更个人化的角度：那些选择不依赖 AI 的研究者，会被整个系统抛弃吗？如果 AI 辅助成为常态，拒绝使用 AI 的科学家可能会在文献覆盖广度、假说生成速度和科研产出量上处于劣势。这会不会制造出一种新的数字鸿沟，甚至在学术竞争中形成一种隐性的「AI 军备竞赛」？这些问题没有轻松的答案。 回到那个听到 AI 推演结果后惊恐地向团队喊出「谁黑了我的电脑？」的教授身上。他的第一反应是恐惧，但最终他选择与 AI 合作，把它当作一个不知疲倦的「科研搭子」，用它来验证自己的猜想，甚至用它来探索自己未曾想到的方向。 这或许就是 Co-Scientist 最深的启示：科学发现的未来，既不是 AI 主宰一切，也不是人类坚守阵地，而是在「慢思考」与「快计算」之间找到一种新的平衡——人类提出好问题，AI 帮忙寻找可能的答案，然后人类再去验证、去质疑、去追问。相互较劲，也相互成就。 </h5>