欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

时间:2023-05-28 04:18:42 | 浏览:63

机器之心报道编辑:小舟、马梓文2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA

机器之心报道

编辑:小舟、马梓文

2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA 的基础上进行「二创」,陆续推出了 Alpaca、Vicuna 等多个开源大模型,一时间「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,并且可定制性很强,被称为 ChatGPT 的开源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强大的能力,是因为 OpenAI 为 ChatGPT 等大模型使用了新的训练范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,通常需要数周时间、花费数千美元收集人类反馈,成本高昂。

现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模拟器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。

AlpacaFarm 试图快速、低成本地开发从人类反馈中学习的方法。为了做到这一点,斯坦福的研究团队首先确定了研究 RLHF 方法的三个主要困难:人类偏好数据的高成本、缺乏可信赖的评估、缺乏参考实现。

为了解决这三个问题,AlpacaFarm 构建了模拟注释器、自动评估和 SOTA 方法的具体实现。目前,AlpacaFarm 项目代码已开源。

GitHub 地址:https://github.com/tatsu-lab/alpaca_farm

论文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下图所示,研究人员可以使用 AlpacaFarm 模拟器快速开发从人类反馈数据中学习的新方法,也能将已有 SOTA 方法迁移到实际的人类偏好数据上。

模拟注释器

AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵循模型,剩余的 42k 指令用于学习人类偏好和评估,并且大部分用于从模拟注释器中学习。该研究针对 RLHF 方法的注释成本、评估和验证实现三大挑战,逐一提出解决方法。

首先,为了减少注释成本,该研究为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 能够模拟人类反馈,成本仅为 RLHF 方法收集数据的 1/45。该研究设计了一种随机的、有噪声的注释方案,使用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释方案旨在捕获人类反馈的不同方面,如质量判断、注释器之间的变化性和风格偏好。

该研究通过实验表明 AlpacaFarm 的模拟是准确的。当研究团队使用 AlpacaFarm 训练和开发方法时,这些方法与使用实际人类反馈训练和开发的相同方法排名非常一致。下图显示了由 AlpacaFarm 模拟工作流和人类反馈工作流产生的方法在排名上的高度相关性。这一特性至关重要,因为它说明从模拟中得出的实验结论在实际情况下也有可能成立。

除了方法层面的相关性,AlpacaFarm 模拟器还可以复制奖励模型过度优化等定性现象,但以此针对代理奖励(surrogate reward)的持续 RLHF 训练可能会损害模型性能。下图是在人类反馈 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 最初捕获了模型性能提升的正确定性行为,然后随着 RLHF 训练的持续,模型性能下降。

评估

在评估方面,研究团队使用与 Alpaca 7B 的实时用户交互作为指导,并通过结合几个现有公共数据集来模拟指令分布,包括 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评估集。使用这些评估指令,该研究比较了 RLHF 模型与 Davinci003 模型的响应(response)情况,并使用一个分值度量 RLHF 模型响应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研究的评估数据上进行的系统排名量化评估表明:系统排名和实时用户指令是高度相关的。这一结果说明,聚合现有的公开数据能实现与简单真实指令相近的性能。

参考方法

对于第三个挑战 —— 缺少参考实现,研究团队实现并测试了几种流行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研究团队发现在其他领域有效的更简单方法并不比该研究最初的 SFT 模型更好,这表明在真实的指令遵循环境中测试这些算法是非常重要的。

根据人工评估,PPO 算法被证明是最有效的,它将模型与 Davinci003 相比的胜率从 44% 提高到 55%,甚至超过了 ChatGPT。

这些结果表明,PPO 算法在为模型优化胜率方面是非常有效的。需要注意的是,这些结果是特定于该研究的评估数据和注释器得出的。虽然该研究的评估指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,并且并不能确定有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研究发现 PPO 模型产生的输出要长得多,并且通常为答案提供更详细的解释,如下图所示:

总的来说,使用 AlpacaFarm 在模拟偏好上训练模型能够大幅改善模型的人类评估结果,而不需要让模型在人类偏好上重新训练。虽然这种迁移过程比较脆弱,并且在效果上仍略逊于在人类偏好数据上重新训练模型。但能在 24 小时内,仅用 200 美元就复制出 RLHF 的 pipeline,让模型迅速提升人类评估性能,AlpacaFarm 这个模拟器还是太香了,是开源社区为复刻 ChatGPT 等模型的强大功能做出的又一努力。

参考链接:https://crfm.stanford.edu/2023/05/22/alpaca-farm.html

相关资讯

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器

机器之心报道编辑:小舟、马梓文2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA

兰博基尼 Huracan Technica评测——法拉利 296 GTB 的模拟竞争对手

虽然法拉利和迈凯伦为其入门级超级跑车采用了小型化的 V6 混合动力系统,但兰博基尼继续开辟自己独特的享乐主义道路,推出了最后一款系列产品Huracán,售价 212,000 英镑的 Tecnica。除了承诺的“惊喜”送别——我们的钱花在了限

真人CS对抗模拟训练系统

系统前景随着国家国防建设的迅速发展与团体拓展、大众健身的巨大要求,我们相信野战拓展在中国的普及与相关产业的迅猛发展,指日可待。我们期待着您与我们一起携手这个令人激动的新兴产业中来,为国家的国防建设与体育运动竞技、团队拓展培训发展努力。前景广

游戏机融合?华硕ROG掌机可模拟Switch、PS3、Xbox 360等各种游戏机

各位经常关注的游戏行业的小伙伴最近应该对ROG的首款掌机有所关注,ROG首款掌机凭借着不错的理论性能和扩展性的配置吸引了不少网友的关注。而在今日,据相关媒体介绍称,ROG掌机不仅拥有强大的性能,还支持AVX512指令集,可以模拟多款游戏引擎

模拟真实纸笔的书写体验 华为MatePad 11英寸 2023款开箱

3月23日,华为正式发布了平板电脑新品——华为MatePad 11" 2023款,这款新品采用华为首发的纸感柔光屏,其书写手感接近于真实的纸笔体验,为大学生们带来更具沉浸感的无纸化学习体验。配合全新升级的HarmonyOS 3.1,华为Ma

科技模拟生态 容声冰箱开启健康养鲜新时代

来源:环球网数据显示,2020年在冰箱市场万元以上畅销榜单中,容声WILL系列多次位居行业TOP1。容声WILL冰鲜箱,通过水、光、离子三大生长元素的巧妙运用,用科技模拟生态环境,实现了果蔬放在冰箱里“继续生长7天“的神奇效果,最大限度地保

数字孪生风电场:西门子和英伟达正携手在元宇宙中模拟现实

文/John Koetsier当你准备投资1亿美元,在98,000英亩的包含了不同地形的地域中建立一个风电场时,你会想要先知道一些事情。你想知道这么做能够优化数百万美元涡轮机的位置;你想知道涡轮机能承受最猛烈的风;并且,你希望在软件而非硬件

民生|赤峰一孩子学武术,模拟演练被踢成骨折,家长找索赔,学校的做法出人意料!

6月12日,记者从元宝山区法院了解到,该院人民调解室成功化解了一起武术培训学校与学生之间的人身损害赔偿纠纷。网络配图据了解,今年2月,13岁的李某在张某开办的武术培训班学习,李某的家长原本想着让孩子学点武术强身健体,可没想到入学还没几天,李

模拟丽江发生7.6级地震,“应急使命·2023”高山峡谷地区地震救援演习今日举行

为深入贯彻落实习近平总书记关于应急管理重要指示精神,扎实推动做好抗大震、抢大险、救大灾应急准备,国务院抗震救灾指挥部办公室、应急管理部、云南省人民政府于5月16日在云南省丽江等地联合举行高山峡谷地区地震灾害空地一体化联合救援演习,代号“应急

羊驼为什么叫草泥马 为什么见了羊驼要躲远

近些年国内流行起来养羊驼了,羊驼是一种看上去比较可爱而又呆萌的小动物。网上普遍有一种说法“看见羊驼一定要躲远!!!”为什么看见羊驼要躲远呢?羊驼又为什么被大家称之为草拟马呢?下面就让小编带领大家一起来看看吧!羊驼为什么叫草泥马这个起源于羊驼

没想到羊驼也是虚胖,日本牧场帮羊驼剃毛消暑,就像加了大头特效

现在各地的天气都非常炎热,大