关注人工智能领域的巨大能耗问题

【武汉热线】

人工智能领域的深度学习模型越具有开创性，它们的规模就越大。今年最热门的自主语言处理模型GPT-3就是一个很好的例子。为了达到像人类一样书写的准确性和速度水平，这个模型需要1750亿个参数、350 GB内存和至少1200万美元资金的投入。但是，除了成本之外，像这样的大型人工智能模型还面临一个巨大的能耗问题。

马萨诸塞大学阿默斯特分校的研究人员发现，训练一个大型人工智能模型所需的计算能力可以产生超过60万磅的二氧化碳排放——这是一辆普通汽车在其寿命内排放量的5倍! 这些模型通常需要更多的能量来处理并生成设置(或称为推理阶段)。英伟达估计，运行神经网络模型所产生的成本中，有80- 90%来自推理过程，而不是训练过程。

neWS907.wUhaNEws.cn

为了在人工智能领域取得更大的进展，普遍观点认为，我们将不得不做出巨大的环境权衡。但事实并非如此，大型模型可以缩小到可以在日常工作站上或服务器上运行，而不必牺牲准确性和速度。

过往：计算能力平均每3.4个月翻一番

十多年前，斯坦福大学(Stanford University)的研究人员发现，用于驱动视频游戏中的图形处理器(称为Gpu)，可以用于深度学习模型。这一发现引发了一场为深度学习应用程序创建越来越强大的专用硬件的竞赛。反过来，科学家们创建的模型变得越来越大。其逻辑是，更大的模型会导致更准确的结果。硬件功能越强大，这些机型运行速度就越快。

OpenAI的研究证明，这一假设在该领域已被广泛采用。从2012年到2018年，深度学习模型的计算能力平均每3.4个月翻一番。所以，这意味着在6年的时间里，用于人工智能的计算能力增长了惊人的30万倍。如上所述，这种能力不仅用于训练算法，还可以在生成设置中使用它们。麻省理工学院(MIT)最近的一项研究表明，我们可能会比想象中更快地达到计算能力的上限。

neWS907.wUhaNEws.cn

更重要的是，资源的限制使得深度学习算法的使用仅限于那些有能力使用它的人。当深度学习可以应用于从医学成像中检测癌细胞到阻止在线仇恨言论的所有领域时，我们不能限制访问。不过，我们也不能承受建造更大、更耗电的模型所带来的环境后果。

未来：变得越来越小

幸运的是，研究人员发现了一些新的方法来缩小深度学习模型，并通过更智能的算法来改变训练数据集的应用。通过这种方式，大型模型可以在生产环境中以更低的能耗运行，并且仍然可以根据用例实现预期的结果。

这些技术有可能使机器学习大众化，为更多没有数百万美元来投资训练算法并将其投入生产的组织服务。这对于“边缘”用例尤其重要，想想相机、汽车仪表盘、智能手机等微型设备吧，在这些用例中，大型的、专门的AI硬件在物理上是不实用的。

研究人员正在通过删除神经网络中一些不需要的连接，或者通过简化数学运算来缩小模型。这些更小、更快的模型可以在任何地方运行，其精度和性能与大型模型相似。这意味着我们不再需要争先恐后地使用最强大的计算能力，从而对环境造成更大的破坏。让大型模型变得更小、更高效是深度学习的未来。

另一个主要问题是针对不同的用例，在新的数据集上一遍又一遍地训练大型模型。一种叫做迁移学习的技术可以帮助防止这个问题。迁移学习使用预先训练的模型作为起点。模型的知识可以通过一个有限的数据集“转移”到一个新的任务中，而不必从头开始重新训练原始模型。这是朝着减少训练新模型所需的计算能力、能源和资金迈出的关键一步。

底线是什么?

模型可以(而且应该)在任何可能的情况下缩小，以使用更少的计算能力。并且知识可以被回收和重用，而不是从头开始深度学习的训练过程。最终，找到减少模型大小和相关计算能力的方法(在不牺牲性能或精度的情况下)将是深度学习的下一个伟大突破。通过这种方式，任何人都能够以更低的成本在生产中运行这些应用程序，而无需在环境方面做出巨大的牺牲。当我们把大型人工智能放在小的地方时，一切都是可能的——甚至是帮助阻止气候变化的毁灭性影响。

关注人工智能领域的巨大能耗问题

相关推荐