人工智能正在触及无法逾越的天花板

过去几个月，围绕人工智能的炒作达到了疯狂的程度。据说，特斯拉将在一两年内完全实现自动驾驶，AI将在明年变得比人类更聪明，到2040年，一亿个由AI驱动的机器人将取代人类工人，这仅仅是埃隆·马斯克今年迄今为止对AI的承诺。整个AI行业充斥着这样的预测和承诺，而且感觉AI的发展正以一种我们人类无法阻止的指数级轨迹前进。然而，事实远非如此。你看，AI开始触及到递减回报的发展上限，使得这些夸大的承诺彻底空洞。让我来解释一下。

要理解这个问题，我们需要了解AI工作的基本原理。现代AI使用深度学习算法和人工神经网络来发现数据中的趋势。然后，它们可以根据这些数据进行推断，或者沿着同一趋势线生成新的数据。这始于“训练”AI，将大量数据输入其中进行分析，使其能够找到这些趋势。之后，可以查询AI以获取输出。这一基本概念为计算机视觉、自动驾驶汽车、聊天机器人和生成人工智能提供了动力。这是一个比较简化的解释，但目前我们只需要了解到这个程度。

在过去的几年里，AI的能力明显增强。这部分是因为编程和算法的改进。但也有90%的原因是因为AI已经在更大的数据集上进行了训练。这使得它们能够更准确地理解数据中的趋势，因此能够更准确地生成结果。但是存在一个问题；我们正在看到AI训练的递减回报，无论是在数据方面还是在计算力方面，都在急剧减少。

首先我们来看数据。假设我们建立了一个简单的计算机视觉AI来识别狗和猫，并且我们使用了100张狗和猫的图像和视频进行训练，它能够以60%的准确率正确识别它们。如果我们将训练图像和视频数量增加一倍到200，它的识别率会有所提高，但仅仅略微提高到大约65%左右。如果我们再将训练图像和视频数量增加一倍到400，它的提高会更加微不足道，大约提高到67.5%左右。

这部分是因为当你拥有较小的数据集时，与向较大数据集添加新的训练图像相比，每个新的训练图像都会按比例为你提供更多的新数据。然而，也是因为AI可以迅速在小数据集中做出新的连接和趋势，因为它只需要找到一个在几个示例中有效的趋势。但随着数据集的增长，要找到在整个数据集中有效的新的趋势和连接变得越来越困难。来自更大数据集的这些新趋势和连接使得AI变得更好、更有能力。因此，随着我们达到训练AI的递减回报点，为了提高AI的能力所需的训练数据量呈指数级增长。

但还有另一个问题。AI的训练对计算资源需求极大。AI必须将每个数据点与数据集中的每个其他数据点进行比较，以找到这些连接和趋势。这意味着对于添加到AI训练数据库的每个数据位，训练AI所需的计算工作量都会呈指数级增加。因此，即使你能获得训练这些不断改进的AI所需的大量数据，所需的物理计算能力和能源也将最终增长到不可能的程度。

可悲的是，有证据表明我们已经到了一个阶段，即训练数据集增长的回报递减，以及使用所述数据集所需的计算能力呈指数级增长，都在给人工智能发展设置硬上限。

以OpenAI的旗舰AI ChatGPT4为例。它对ChatGPT3的改进小于ChatGPT3对ChatGPT2的改进，尽管它更加准确，但仍然存在着ChatGPT3的问题，如虚构事实和缺乏理解。现在，OpenAI对其如何开发其AI保持着严格的保密，但专家调查发现，ChatGPT3使用的训练数据集大约比ChatGPT2大78倍，而ChatGPT4使用的数据集比ChatGPT3大571倍！然而，尽管训练数据集大小大幅增加，ChatGPT4仍然存在显著的缺陷，严重限制了它的用途。例如，它不能被信任来写任何与事实有关的东西，因为它仍然虚构事实。

据估计，ChatGPT4的原始训练数据集的明文容量为45TB。这意味着，要使下一次迭代像ChatGPT4相对于ChatGPT3那样有很大改进，训练数据集需要数万TB。即使是通过OpenAI的可疑方法获取和准备大量的明文数据，也是不现实的。然而，实际使用这个数据集来训练他们的人工智能可能会消耗大量的能源，以至于成本使得人工智能完全不可行，即使是对于非营利组织也是如此。

这并不是夸张。OpenAI CEO Sam Altman在一次讲话中表示，需要一种能源突破，比如核聚变，才能使先进的人工智能变得可行。可悲的是，即使我们真的解锁了核聚变，它也不太可能比本世纪甚至下个世纪我们目前的能源便宜。事实上，没有任何形式的能源会比我们目前拥有的任何能源都便宜得多。因此，这种针对人工智能能源问题的解决方案极具误导性。

这一观点得到了一些非常严肃的研究的支持。来自马萨诸塞州大学阿姆斯特分校的一项研究考察了将图像识别人工智能的性能提高到95%以上准确率所需的计算和能源成本。他们发现，训练这样一个模型将耗资1000亿美元，产生的碳排放量相当于纽约市一个月的碳排放。需要注意的是，这是针对一个在5%的情况下仍然犯有严重错误的人工智能。该研究还指出，将准确率提高到99%将需要成倍增加的成本和碳排放。

这就是为什么特斯拉永远不会用其当前的方法开发完全自动驾驶汽车的原因。他们的Autopilot和FSD只能通过这种类型的人工智能计算机视觉感知周围世界，而要使FSD完全自动驾驶，其图像识别准确度需要接近100%。正如这项研究所表明的那样，要使他们的人工智能达到如此高的水平，甚至可能需要比特斯拉更多的资金。

换句话说，除非人工智能行业能够找到更高效的人工智能训练和计算负载方法，否则它将无法突破这一限制，人工智能的发展将完全停滞不前。现在，可能的解决方案已经出现在地平线上，比如更加高效的人工智能硬件，结合模拟和量子技术，以及需要明显较小的训练数据集的新人工智能架构。然而，这些概念仍处于萌芽阶段，可能还需要几十年才能在现实世界中使用。

简而言之，准备好在未来几年里，人工智能将大大不及预期。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/。

原文作者：Will Lockett
翻译作者：文杰
美工编辑：过儿
校对审稿：Jason
原文链接：https://medium.com/predict/ai-is-hitting-a-hard-ceiling-it-cant-pass-851f4667d39b

May 13, 2024 | Blog | Tags: AI, 机器学习

人工智能正在触及无法逾越的天花板

人工智能正在触及无法逾越的天花板

大型语言模型景观

Claude 3在基准测试中击败GPT-4，是时候取消ChatGPT订阅了吗？

Latest post

从DeepSeek到GPT：揭秘AI大模型Distillation“蒸馏术”

编程这一职业将不复存在

加州州长挽救裁员危机

Courses

Events

Lecture 18: 100 Days of LLM Mastery

Learn to Use Cursor in an Hour

Lecture 19: 100 Days of LLM Mastery

Consulting

ABOUT US

Contact Info: