在东说念主工智能规模,动力亏本一直是一个备受柔软的问题。面前,BitEnergy AI公司的商讨东说念主员修复了一种名为线性复杂度乘法(L-Mul)的技艺,这项技艺有后劲将AI模子的功耗裁减95%,而不会阵一火模子的质地。
L-Mul技艺通过在AI狡计顶用更简便的整数加法替换能耗大的浮点乘法来杀青这一认识。关于那些不练习这个术语的东说念主来说,浮点是一种数学和编程术语,它允许狡计机通过调遣极少点的位置高效地处理杰出大和杰出小的数字。你不错将其视为二进制中的科学记数法。它们关于AI模子中的好多至关热切的狡计,但它们需要大量的动力和狡计才气。模子越大,所需的算力就越多。从fp32的全精度模子运转,修复者接续会裁减精度到fp16、fp8致使fp4,以便他们的模子不错在土产货硬件上运行。
AI对电力的浩大需求一经成为一个日益增长的担忧。仅ChatGPT每天就亏本564兆瓦时——足认为18,000个北好意思家庭供电。左证剑桥替代金融中心共享的推测,到2027年,总计AI行业的年动力亏本展望将达到850-1340太瓦时,与比特币挖矿操作约莫疏通。
L-Mul技艺成功处分了AI动力问题,再行构想了AI模子处理狡计的款式。与传统的浮点乘法不同,L-Mul使用整数加法来肖似这些操作。举例,而不是将123.45乘以67.89,L-Mul将其解析为使用加法的更小、更简便的递次。这使得狡计更快,使用的动力更少,同期仍然保捏准确性。
商讨效力看起来杰出有但愿。商讨东说念主员宣称,“在张量处理硬件中哄骗L-Mul操作不错潜在地通过元素级别的浮点张量乘法减少95%的动力资本,以及点积的80%动力资本。”简而言之,若是一个模子使用了这项技艺,左证这项商讨,它将以比原本少95%的动力来“想考”,以及比原本少80%的动力来产生新的认识。
该算法的影响不仅限于节能。在某些情况下,L-Mul的性能致使跳动了刻下的8位轨范,在使用权贵更少的位级狡计的同期杀青了更高的精度。在当然言语处理、视觉任务和象征推理的测试中,平均性能下跌仅为0.07%——关于潜在的动力省俭来说,这是一个微不及说念的衡量。
基于Transformer的模子,如GPT等大型言语模子的撑捏,可能会从L-Mul中大大受益。该算法不错无缝集成到这些模子的可贵力机制中,这是狡计密集型的部分。在流行的模子如Llama、Mistral和Gemma上的测试致使进展出在某些视觉任务上的准确性的晋升。
在操作层面上,L-Mul的上风变得愈加彰着。商讨标明,乘以两个float8数字(AI模子今天的运行款式)需要325次操作,而L-Mul仅使用157次——不到一半。“追念罪恶和复杂度分析,L-Mul不仅比fp8乘法更高效,况兼更准确。”商讨东说念主员得出论断。
但莫得什么技艺是齐备的,这项技艺有一个主要的短处:它需要罕见类型的硬件,因此现行的硬件对其而言还莫得取得充分优化。
支捏L-Mul狡计的专用硬件修复盘算可能一经在进行中。“为了充分引发咱们提议的递次的后劲,咱们将在硬件层面上杀青L-Mul和L-Matmul内核算法,并为高档模子假想修复编程API。”商讨东说念主员暗示说念。这可能诱发新一代的AI模子降生,它们快速、准确且资本极低——使动力高效的AI成为施行。