姚寻鱼在腾讯的第一篇文章解释了为什么人工智能无法理解人类的语音。 – R星吃瓜-反差大赛：吃瓜爆料每日大赛全程回顾

本文来自微信公众号：Alphabet AI，作者：郑苗，题图来自：AI Generation 如今的大规模语言模型可以解决奥数题、通过专业考试、编写复杂的代码，但它们在现实应用中经常“改变”。问题是什么？姚舜宇在加入腾讯后的第一篇文章中表达了对这一现象的看法：“目前人工智能与真正智能的差距不在于知识量，而在于学习能力。一个拥有大量知识但不会学习的人工智能，就像一个背了字典但不会写字的人，虽然看起来知识渊博，但实际上很不灵活。”本文的标题是“CL-bench：情境学习的基准”。 CL-bench是一套专门评估语言模型“appr”上下文端点能力的基准测试，它的正式名称是Context Learning Benchmark，一套上下文学习基准。包含各领域专家精心挑选的500个复杂情境场景、1899个任务和31607个评估标注点。该基准测试的核心设计理念是选择模型预训练数据中不存在的难题，因此每个任务都需要模型从提供的上下文中学习新知识来解决它。本文不仅揭露了当今人工智能的基本缺陷，而且还构建了一个针对人工智能的评估体系，对于人工智能专业人士和智能体来说非常有价值的学习参考。 AI“假学习”的真相之镜从数据规模来看，CL-bench中的每个上下文平均包含3.8个任务，最多12个任务。然而，在500个复杂上下文场景中，51.1%的场景包含序列相关任务。这意味着，如果想让人工智能解决后续任务，它必须首先从前一个任务中检索出正确答案。这种多轮交互设计显着增加了确定难度级别。利用领域专家进行单任务标注每个任务平均有16.6个评估标注项，并从事实准确性、计算准确性、程序正确性、内容完整性、格式合规性等多个方面进行严格验证。 CL Bench测试的并不是AI记住了多少知识，而是测试它在获取新材料后能否像人类一样快速学习并正确使用新材料。这些任务有一个共同点。这意味着人工智能必须依靠即时性能来通过考试。他之前训练中获得的知识在这里用处不大，因为CL-bench中的知识要么是专家新编译的，要么是针对现实世界的。那么我们如何确保 CL Bank 的新知识还没有被纳入模型中呢？在本文中，我们使用消融实验验证了这一点。在没有上下文的情况下，所有测试模型都能够解决不到 1% 的任务。这完美说明任务的上下文敏感性。 CL-bench 将情境学习场景分为四类，每一类解决不同的认知需求。知识推理领域：涵盖金融、医学、人文、法律咨询、生活方式、管理和科学七个子领域。上下文提供了模型需要支持、渲染和应用到推理中的专业领域知识，例如假设的法律体系、创新的金融产品或利基专业知识。例如，向AI提供一个虚构国家的所有法律规定和判例，让它裁决复杂的民事纠纷。规则系统应用：包括游戏机制、数学形式、编程语法、法律法规、技术标准五个小类。上下文提供了模型必须理解并严格遵循的明确定义的规则系统。例如，给定新编程语言的语法规范年龄，我们希望模型创建符合该规范的程序。或者，给定新游戏的完整规则手册，让模型分析游戏的状态并提供最佳策略。执行程序性任务：教育程序分为三类：RAM、操作程序和工作流编排。上下文提供模型必须正确学习和执行的复杂操作说明、手册、产品或工作流程。例如，给定无人机物流系统的大约 7,000 个单词的 API 文档，该模型将自然语言指令转换为安全且合规的伪代码。经验发现模拟：这是最具挑战性的类别，包括三个子类别：实验数据、观测数据和模拟环境。与前三类强调演绎推理不同，这一类需要归纳推理。发现大量数据和pe中的潜在模式在虚拟环境中进行推理和决策。例如，给定 300 个带电粒子在磁场中运动的实验记录，您希望模型能够估计运动规则并计算某些参数。这四类场景基本涵盖了人类在实际工作中遇到的主要学习场景，CL-bench将这些现实场景转移到了评估系统中。更简单地说，领域知识推理测试你是否能够学习新概念，规则系统应用测试测试你是否能够遵循新规则，程序任务性能测试测试你是否能够按照新流程做事，经验发现和模拟测试测试你是否能够在数据中找到模式。人类每天在日常任务中都会用到这四种技能，但人工智能显然还没有学会它们。为了确保测试的是实际的学习能力而不是记忆能力，CL-bench采用了严格的“防污染”设计。这是一篇小说琐碎的创作。所有测试内容完全由专家原创。以上述假设的国家为例。全面覆盖宪法、民法、刑法和判例。法律原则和判例与现实世界中任何其他国家都不同。或者创建一种名为“EduScript”的教育编程语言，具有自己的语法规则和控制结构。现有内容的修改：CL-bench还利用现实世界的知识进行了系统性的改变。这可能包括改变著名历史事件的因果关系、改变物理定律的公式或调整技术标准的某些参数。这可以防止模型直接应用预先训练的知识，即使它看到类似的内容。新兴和小众内容的整合：CL-bench还包括预训练数据中很少出现的内容，例如2024年以来推出的新产品的技术文档、l的结果测试高度专业化领域的科学研究文章或知识。这三个连击只有一个目的，AI不可能欺骗他们。你不能依靠记忆的知识来回答问题；你必须边走边学。就像在考试的时候，你的老师突然改变了你以前从未见过的问题类型，你必须依靠自己的理解和学习能力来应对。本文通过消融实验验证了该设计的有效性。在不提供上下文的情况下，即使是最强大的 GPT-5.1 模型也只能解决不到 1% 的任务，这充分说明了任务是上下文相关的。 CL替补席的结果让人悲喜交加。 CL-bench评估体系比你想象的更严格。 16. 六种评价符号的含义是什么？这意味着你不能只得到大致的方向；每个细节都必须正确。就像解决数学问题一样，你不仅需要有正确的答案，还需要正确的步骤、正确的格式和正确的引用。即使有一个链接不正确，整个问题也将被视为不正确。这些标准从六个角度检查人工智能的反应，每个标准要么对要么错，没有中间立场。这是真的吗？例如，如果AI说这个虚构国家的宪法第3条中有规定，那么它一定是上下文中所写的内容。计算正确吗？对于需要计算带电粒子轨迹的任务，每个公式和每个数字都必须经过验证。这个推理正确吗？人工智能需要根据上下文给出的规则进行推理。是的，你无法建立自己的逻辑。代码正确吗？当你编写程序时，你必须严格遵循文档中的API规范，即使你缺少一个参数。完整还是不完整？不要跳过您需要遵循的任何步骤。甚至省略一个重要的环节是误判。格式正确吗？如果生成 JSON，则它必须是 JSON；如果您使用表，则它必须是表。这个评分系统最残酷的地方在于，只有通过所有标准才能完成任务。除非满足标准，否则整个任务被视为失败。这就像一个测试。如果正确回答所有多项选择题，即可获得积分。如果你答错一题，你将得到 0 分。为了确保这个自动评分系统的可靠性，我们在本文中进行了两次验证。首先，使用五种不同的AI模型（GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0）作为判决，超过90%的判决结果一致。接下来，人工检查了200c，AI判断的准确率超过90%。由此可见，这个评分系统确实是靠谱的。 CL-bench评估表明，人工智能距离解决实际问题还很远。好的一点是人类不用担心被AI取代。 10 种最先进的语言模型平均只能解决所有任务的 17.2%。所有模型中性能最好的是 GPT-5.1，但只有 23.7%。这意味着即使上下文包含解决问题所需的所有信息，模型也很可能会失败。这个数字值得仔细考虑。 23.7%意味着即使你给AI一本完整的说明书，四分之三的时间它仍然看不懂。这是因为，十分之八的情况是，你雇用一名员工时，向他们提供了如何做这项工作的详细说明，然后当轮到他们做这项工作时，他们却失败了。就好像我会犯一个错误。在现实世界中，这样的员工早就被解雇了。更详细的错误分析将揭示失败的主要原因。超过 55% 的错误是由于“忽略上下文”造成的。该模型只是忽略了上下文中的重要信息并尝试解决使用预先训练的知识来解决问题。超过 60% 的错误是“上下文错误”。模型识别信息，但理解不正确或应用不恰当。超过 35% 的错误是格式错误，表明模型甚至无法遵循明确的格式指令。这三类错误揭示了人工智能的根本问题。忽略上下文意味着人工智能无法“看到”。滥用上下文意味着人工智能无法“思考”。格式不正确意味着人工智能无法“倾听”。学生如何学习新知识？如果看不到、想不到、听不到怎么办？这些发现揭示了长期以来被忽视的真相。当前的人工智能模型本质上是“参数推理器”而不是“情境学习器”。它们擅长在预训练期间调用用权重压缩的静态知识，但不擅长从当前输入动态学习新知识。这是因为现实世界的任务通常需要根据具体情况进行灵活的响应ic 上下文，而不是应用固定模式。因此，尽管人工智能在标准化测试中表现良好，但在现实工作场景中却经常出错。例如，今天的人工智能就像一个背了字典的人。如果你问他如何从字典中写出一个单词，他就能回答。但如果你给他一本新书来学习，他会感到惊讶。他不知道如何学习，只能死记硬背。这就是“参数推理器”和“情境学习器”之间的区别。在这四个类别中，领域知识的推理相对容易，最好的模型达到了25.3%的解析率。应用规则系统和执行程序任务的难度适中。大多数模型为 15-20%。然而，模拟和实证发现任务的性能迅速下降，所有模型的平均解决率仅为 11.8%。这种差异很有趣。演绎推理（应用已知规则）比归纳推理容易得多主动推理（寻找数据中的模式）。给人工智能一套规则并让它遵循这些规则不会有什么好处。如果你强迫它在数据中寻找模式，那么它就会变成一场彻底的灾难。这说明AI的学习能力还停留在“从南瓜中画图”的阶段，距离“从单个例子中划定”的水平还很远。在子品类层面，差异更加明显。对于规则系统应用，法律和监管任务的解决率超过29%，GPT-5.1达到44.8%。然而，大多数数学形式系统任务的模型都低于 15%。虽然工作流编排在执行过程时通常具有 20% 或更高的解决率，但操作程序的教学难度要大得多。这些差异揭示了其他信息。这意味着人工智能学习不同类型知识的能力差异很大。但问题是人工智能比人类更有偏见。启示晶石这篇文章无疑表明 CL Bench 填补了现有评估系统的一个重要空白。此前的长上下文评估主要测试AI能否在大量文本中找到信息。例如，如果给一个AI一本10万字的小说，并询问“主角的母亲叫什么名字？”，AI只需要能够翻页就能找到答案。这更像是测试你“查字典”的能力，而不是测试你“学习”的能力。评估对指令的遵守情况主要测试AI是否听从指令。例如，你可以要求AI“以JSON格式打印100个字或更少”，看看它是否能做到。不过这类测试的知识很简单，AI已经知道了，只关心是否遵守规则。掌握任务的评估是比较有问题的。除了测试AI是否能找到信息之外，我们还测试AI是否可以使用t他的信息。结果，AI给出了错误的答案，我们不知道是否没有找到正确的信息，或者AI是否找到了正确的信息但无法使用它。就像考试不及格的学生一样，我不知道是因为我没有复习，还是因为我复习了但没有学习。 CL-bench 侧重于从复杂环境中学习新知识并正确应用其能力的不同方面。将情境准备与情境学习分开。您需要的所有信息都已整理并提供给您，您只需学习和应用模型即可，无需外部搜索。这使得评估结果能够准确反映模型学习上下文的能力，而不是其他混杂因素。文章还发现了一些违反直觉的现象。 GPT-5.2 的性能比 GPT-5.1 差 5.6%。详细分析表明GPT-5.2在推理时很难保持一致的因果链在长上下文中，并且最常违反上下文中的明确约束。这表明迭代模型版本并不一定会带来全面的改进，某些功能的优化可能会以牺牲其他功能为代价。这个发现很重要。我们一直以为新版本一定比之前的版本更好，但事实并非如此。事实上，GPT-5.2可能在某些方面很强，但在情境学习维度上却落后了。这就好比一个学生，数学成绩上升了，但语文成绩却下降了，反而整体成绩下降了。另一个例子，增加推理强度的影响因模型而异。 GPT-5.1 在高推理能力下平均提高了 2.5%，在管理和实验数据任务中平均提高了 6% 左右。然而，GPT-5.2 在几个子类别中却呈现负增长。如果模型具有适当的上下文学习机制，这是可能的。表明“思“更多”就行得通，如果行不通，你可能会在错误的方向上越走越远。这也是一个违反直觉的发现。我们认为强迫AI多思考总是一件好事，但实际上，如果AI的学习机制本身有缺陷，强迫它多思考只会让bug变得更糟。就像一个人走错了方向，你走得越快，你离目标就越远。CL替补席揭示的问题不仅是技术上的，而且是当前的人工智能训练范式和现实世界的应用场景之间存在根本性的差异，但用户想要能够解决动态的、依赖于上下文的任务的模型，这种差异解释了为什么人工智能在实验室中表现良好，但在现实世界的场景中经常发生变化。大多数实验室任务是封闭的和静态的，而答案是在训练数据中找到的。namic，需要根据具体情况进行灵活性。本文提出的“情境学习”能力本质上是让人工智能从“死记硬背”走向“活生生的学习和应用”。如果人工智能能够真正从环境中学习，它就可以像人类一样快速适应新的情况和问题，而不仅仅是应用固定的模式。 CL-bench的重要性在于激励大型建模公司，告诉他们下一代不需要更大的模型或更多的参数，而是需要更强大的学习能力。但在上下文中学习只是第一步。文章指出，即使情境学习足够强大，一旦模型的情境窗口被清除，所学到的知识就会消失。因此，下一个挑战是如何保存从上下文中学到的知识。姚舜宇在最近的一次演讲中也谈到了这个方向。他认为自主学习已得到广泛认可并且已经存在。他说 ChatGPT 使用用户数据。 Claude Code 表示该项目 95% 的代码都是他编写的。在某种程度上，它有助于改进。但他也指出，这些自主学习的例子目前仅限于特定场景，并没有给人留下非常深刻的印象。 “这可能更像是一个梯度，而不是突变。”从更宏观的角度来看，CL银行发现的问题反映了AI发展的深层矛盾。当我们追求更强的推理能力和更强的知识能力时，我们忽略了一种更基本的能力：学习。如果没有学习能力，人工智能无论多么强大，也只是一个高级的查询系统。只有具备真正的学习能力，人工智能才能从“工具”进化为“智能体”。本文来自微信公众号：Alphabet AI，作者：郑苗。本文内容已获得作者许可使用。这些观点仅代表作者自己的观点观点，不代表虎秀立场。如果您对本文有任何异议或投诉，请联系tougao@huxiu.com。本文来自虎秀，原文链接：https://www.huxiu.com/article/4832361.html?f=wyxwapp
特别说明：以上内容（包括图片、视频，如有）均由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意：以上内容（包括照片）由网易号用户上传并发布，网易号是一个仅提供数据存储服务的社交媒体平台。

发表回复 取消回复

发表回复取消回复