行业前沿|生成式 AI 的人力和环境成本不断上升,未来何去何从?
发布时间:2023-04-14 22:14:59 来源:和讯网

“地球影响、不断上升的财务成本和人力成本都是诱因。


(资料图片仅供参考)

作者:Sasha Luccioni |

编译:Poetry |

近几个月来,人工智能领域发展迅速,Dall-E、 GPT-4等一批又一批新机型相继问世。每周都有新的令人兴奋的模型、产品和工具出现。人们很容易被一波又一波的炒作所淹没,但这些闪亮的能力是以社会和地球的实际成本为代价的。

缺点包括开采稀有矿物的环境代价,数据注释的劳动密集型过程的人力成本,以及由于人工智能模型包含更多参数,培训所需的不断增加的财政投资。

让我们来看看最近几代这些模型的创新推动力ーー以及提高相关成本的因素。

01

更大的模型

近年来,人工智能模型变得越来越大,研究人员现在用数千亿个参数来测量它们的大小。“参数”是模型中使用的内部连接,用于基于训练数据学习模式。

对于像 ChatGPT 这样的大型语言模型(LLM) ,使用 Google 的 PalM 模型,我们已经从2018年的1亿个参数增加到2023年的5千亿个参数。这种增长背后的理论是,参数更多的模型应该有更好的表现,即使是在最初没有接受过训练的任务上,尽管这一假设仍未得到证实。

多年来模型规模的增长

更大的模型通常需要更长的培训时间,这意味着他们还需要更多的 GPU,这需要更多的资金,所以只有少数组织能够培训他们。

据估计,GPT-3的培训费用为460万美元,对大多数公司和组织来说是无法承受的。GPT-3有1750亿个参数。(值得注意的是,在某些情况下,培训模型的成本正在下降,例如最近由 Meta 培训的 LLaMA 模型。)

这在人工智能领域造成了一个数字鸿沟,一边是那些能够培养最尖端的 LLM 的人(大多数是大型科技公司和全球北方的富裕机构) ,另一边是那些不能培养 LLM 的人(非营利组织、初创企业,以及任何没有超级计算机或数百万云信用的人)。

建造和部署这些庞然大物需要大量的地球资源: 用于制造 GPU 的稀有金属,用于冷却巨大数据中心的水,用于保持这些数据中心在全球范围内全天候运行的能源... ...

所有这些往往被忽视,而只会去关注由此产生的模型的未来潜力。

02

地球影响

卡内基梅隆大学(Carnegie Melon University)教授艾玛?斯特鲁贝尔(Emma Strubell)针对 LLM 培训碳足印的一项研究估计,2019年培训的一个名为 BERT 的模型只有2.13亿个参数,排放了280公吨的碳排放,大致相当于5辆汽车一生的排放量。从那时起,模型不断增长,硬件变得更加高效,那么我们现在呢?

在最近的一篇学术文章中:一篇研究训练 BLOOM (一个1760亿参数的语言模型)所产生的碳排放的文章,比较了几个 LLM 的能源消耗和随后的碳排放,所有这些都是在过去几年中出现的。比较的目的是了解不同规模的长期有限管制措施的排放规模及其影响因素。

根据培训所使用的能源及其碳强度,如果使用可再生能源,培训一个2022年的 LLM 至少会排放25公吨的碳当量,就像 BLOOM 模型所做的那样。

如果使用碳密集型能源,如煤炭和天然气,GPT-3就是这种情况,这个数字迅速上升到500公吨的碳排放量,大约相当于一辆普通汽油动力汽车行驶100多万英里。

这种计算没有考虑用于训练模型的硬件的制造,也没有考虑在现实世界中部署 LLM 时产生的排放。

例如,ChatGPT 在一个月前的高峰时期曾受到数千万用户的询问,有数千份该模型并行运行,实时响应用户的询问,同时使用电力并产生数吨的碳排放。鉴于这些大型有限责任管理机制的保密性和缺乏透明度,很难估计其导致的确切排放量。

03

封闭的,专有的模型

让我们回到上面的 LLM 图。可能会注意到,ChatGPT 和 GPT-4都不在其中。为什么?因为我们不知道它们有多大。尽管已经发表了几篇关于它们的报告,但是我们对它们的大小和工作原理几乎一无所知。访问是通过 API 提供的,这意味着它们实际上是用户可以查询的黑盒。

这些盒子可能包含一个单一的模型(可能有一万亿个参数)或者多个模型。

下图显示了 LLM 最近发布的时间表以及每个模型创建者提供的访问类型。正如所看到的,最大的模型(Megatron、 PalM、 Gopher 等)都是闭源的。如果相信这样一个理论,即模型越大,它就越强大(我不这么认为) ,这意味着最强大的人工智能技术只有少数几个组织才能使用,而这些组织垄断了对它的使用权。

最近发布的 LLM 的时间表和每个模型创建者提供的访问类型

这有什么问题吗?这意味着很难对这些模型进行外部评估和审计,因为甚至不能确定每次查询时底层模型是否相同。这也意味着不能对它们进行科学研究,因为研究必须是可重复的。

唯一能够不断改进这些模型的人是最初培训这些模型的组织,这是他们不断改进模型并随着时间的推移提供新特性的方法。

04

人力成本

训练一个人工智能模型需要多少人?你可能认为答案是零,但是制造最近几代 LLM 所需的人力数量正在稳步上升。

当Megatron模型几年前出现的时候,研究人员宣称它们是人工智能的一个新时代,因为它们可以接受“原始数据”的训练。在这种情况下,原始数据意味着“未标记的数据”ーー书籍、百科全书文章和被大量刮取和收集的网站。

像 BERT 和 GPT-2这样的模型就是这种情况,它们在数据收集和过滤方面需要的人工干预相对较少。虽然这对模型创建者来说很方便,但也意味着各种各样不受欢迎的内容,如仇恨言论和色情内容,在模型训练过程中被吸收,然后通常被模型自己重复。

这种数据收集方法随着 RLHF (强化学习反馈)的出现而改变,这种技术被新一代的 LLMs (如 ChatGPT)所使用。顾名思义,RLHF 为 LLM 培训过程增加了额外的步骤,而这些步骤需要更多的人工干预。

基本上,一旦一个模型接受了大量未标记数据的训练(来自网络、书籍等) ,人们就会被要求与模型进行互动,提出提示(例如,“给我写一份巧克力蛋糕的食谱”) ,并提供他们自己的答案或评估模型提供的答案。这些数据被用来继续训练这个模型,然后再由人类进行测试,直到这个模型被认为足够好,可以发布到全世界。

这种 RLHF 训练使得 ChatGPT 广泛发布成为可能,因为它可能会拒绝回答许多类型的潜在有害问题。

RLHF 训练实例

但这种成功背后隐藏着一个肮脏的秘密: 为了保持人工智能的低成本,提供这种“人类反馈”的人是工资过低、受到过度剥削的工人。今年1月,《时代周刊》(Time)撰写了一篇关于肯尼亚工人每小时工资不到2美元检查数千条 OpenAI 信息的报道。这种工作可以产生长期的心理影响,正如我们在内容审核工作者身上看到的那样。

更糟糕的是,这些无名工人的努力并没有在人工智能模型附带的报告中得到承认。他们的劳动是无形的。

05

我们该怎么办?

对于这些模型的创造者来说,与其只关注规模和尺寸,为了性能而进行优化,不如培训更小、更有效的模型,让模型变得可访问,这样它们就可以被人工智能社区的成员重新使用和微调(即: 改编) ,而这些人工智能社区的成员不需要从头开始培训模型。投入更多精力改善这些模型的安全性和安保性ーー开发机器生成内容的水印、更可靠的安全过滤器以及在生成问题答案时引用来源的能力等功能ーー也有助于让 LLM 更容易访问和更强大。

作为这些模型的使用者(有时不顾我们自己的感受) ,我们有能力要求透明度,并反对在高风险场景中部署人工智能模型,比如提供心理辅助治疗或生成法医草图的服务。这些模型仍然太新,文档记录不足,而且不可预测,无法在可能产生如此重大影响的情况下部署。

下次有人说,最新的人工智能模型将造福全人类,或者它展示了人工通用智能的证据时,希望能想想它给人类和地球带来的隐性代价。这些只是这些系统更广泛的社会影响和成本的一小部分,比如对工作的影响,虚假信息和宣传的传播,以及对盗版的担忧。

生成性人工智能有许多隐性成本

目前的趋势是建立更大、更封闭、更不透明的模型。但是仍然有时间来反击,要求透明度,更好地理解 LLM 的成本和影响,同时限制它们在整个社会中的部署方式。美国的《算法责任法案》(Alobacmic Accountability Act)以及欧盟和加拿大关于人工智能治理的法律框架等立法正在界定我们的人工智能未来,并制定了保障措施,以确保未来几代人工智能系统在社会中的安全性和问责性。作为这个社会的成员和这些系统的使用者,我们应该让它们的创造者听到我们的声音。

Sasha Luccioni 博士是“Hugging Face”的研究员和气候负责人,她研究人工智能模型和数据集的伦理和社会影响。她还是机器学习女性(WiML)的主任,气候变化人工智能(CCAI)的创始成员,以及 NeurIPS 道德准则委员会的主席。

参考文献:

https://arstechnica.com/gadgets/2023/04/generative-ai-is-cool-but-lets-not-forget-its-human-and-environmental-costs/

本文提供的信息仅用于一般指导和信息目的,本文的内容在任何情况下均不应被视为投资、业务、法律或税务建议。

本文首发于微信公众号:出新研究。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

标签: