GPT-4推理能力为0？开发者悬赏1万美金被打脸神秘提示正确率直冲100%_新闻中心_开运-(kaiyun)

新闻中心

新闻中心您的位置：首页 > 新闻中心

GPT-4推理能力为0？开发者悬赏1万美金被打脸神秘提示正确率直冲100%

2024-04-16 22:01:07 作者: 新闻中心

【新智元导读】小孩子都会的脑筋急转弯推理题，GPT-4和Claude 3做不出？国外一位开发者小哥坚称这一观点，认为GPT模型在训练集外毫无推理能力，没办法实现AGI，甚至悬赏1万美元，发起比赛。然而，他当天就被光速打脸了！网友用高能的prompt，让GPT-4和Claude 3几乎达到百分百的正确率。

它用自己的优秀表现证明了，很多时候自己看似失败的表现，只是因为人类不会正确地prompt而已。

这位名叫Taelin的程序员、初创公司Higher Order的创始人表示，下面这个脑筋急转弯，大多数孩子都能在一分钟内解决，然而所有的AI却都惨遭失败。

GPT模型在训练集之外，没有一点推理能力。GPT永远没办法实现AGI。7万亿肯定是白烧的，是时候寻找新的算法了。

为此，他向公众社区发出了一项挑战，任何能用LLM解决这一个难题的人，将获得10000美元的奖金。

两天后，一位网友仅通过提示，就让模型解决这道问题时达到了接近100%的成功率。

「我们经常能看到此现状：很多时候我们一个问题LLM没有办法解决，只有人类能解决，但其实LLM只要更好的提示而已。」

换句话说，只要两个相邻token符的「#」相向，就必须依据相应的规则进行改写。

小哥给大家的挑战就是，必须开发出一个AI提示，能够解决随机的12-token实例的A::B问题，并且成功率超过90%。

答案必须在AI的回答中（一次推理调用内）直接给出，格式为纯文本（不是代码），并放在XML标签中。例如：

任何基于GPT（Transformer）架构的公开模型都可以，条件是它完全由注意力机制、正向传播等来生成答案。

不允许使用其他架构，如SAT求解器。底层架构不明确的专有模型，也不允许使用。

而且，需要格外注意模型的输出限制。12-token的实例在大多数情况下要36步才解决，如果超出限制，导致输出中没有答案，也视为无效。

允许用任何提示技术。你能要求AI step-by-step，使用上下文暂存器，检查错误，使用锚点。

在他们精心设计的提示引导下，Claude-3 Opus展现出了惊人的能力——

它不仅能从少数示例中归纳出任意随机情况，还能严格遵守规则进行长期计算，并且错误率几乎为零。

随后，先后有5位参赛者，分别用Opus和GPT-4达到了相似的成功率，甚至GPT-3.5都取得了不错的成绩。

futuristfrog发布了一条推文，声称仅通过精心设计的提示就实现了近乎100%的成功率。

事实证明，他的确做到了。在小哥的首次测试中，他的方案在50次尝试中成功了47次，因此赢得了奖金，圆满完成了这一挑战。

Eric (e/ass)表示，正如Karpathy多次指出的，token化问题是导致序列操作成功或失败的关键因素。

如果在token化过程中出现了问题，那么即使是更简单的字符串操作也无法顺利完成。

相比之下，token化处理得较好的字符串（例如连续的两个字母）就很容易进行操作。

当然，这并不代表GPT在管理规则排列的token的空间布局方面没有本质的问题。

实际上，它在这方面的表现并不出色，而且将其分解为字节也并没有太大帮助，因为这会使需要移动的数据单元占用更多空间。

你提到的逻辑问题可能确实存在，但这个例子并没有证明GPT存在无法克服的根本性限制。

或许随技术的进步会诞生更强的模型，但这并不代表如今的Transformer在进行基本推理方面存在很明显的短板。

Edgars Nemše也认为，这不是因为GPT推理能力不行，而是被自己的「观察」方式限制住了。

最后，为了让大家能更好地理解这个挑战，我们的角度来看一看Taelin自己的详细解释。

1. 这个问题并非由token化引起的。即便是每个符号分配一个token，GPT-4、Opus等模型仍旧没办法解决这类问题。即使是基于字节的GPT模型也同样失败。不要总是将问题归咎于token化。

2. GPT没有办法解决这类问题的最终的原因在于，它们缺乏进行持续逻辑推理的能力。简而言之，任何超出训练集范围、哪怕只需一丁点逻辑推理的「新问题」，GPT都无法应对。这正是我们想要证明的。

3. 强大如GPT-4或Opus之类的模型，其实质上是在其权重中「演化出了一位电路设计师」。但是，注意力机制作为一种计算模型的固定性，使得这种演化的电路无法展现足够的灵活性。这就像AGI试图在其中成长，但由于计算和通信的限制而没办法做到。相比之下，人类的大脑始终在经历着突触可塑性变化。

4. 一个冷知识是，当前AI热潮的很大一部分原因是人类不善于理解规模的巨大。一旦你记住了整个互联网的内容，你看起来会非常聪明。

5. 尽管如此，GPT依然展现出了强大的能力。它们解决了许多现实世界的问题，将普通开发者的能力提升了数百倍，并以此加速了人类进步的步伐。我相信通用AI的到来已经近在咫尺。但它不会是GPT，也不会是任何基于梯度下降的形式。

6. 我的看法可能完全错误。毕竟，我只是网络上的一名普通人，而且经常犯错。

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇:电气十大品牌排行榜

下一篇:ChatGPT你的智能工作伙伴让效率飞起来！