欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源

时间:2023-05-27 17:42:28 | 浏览:8

机器之心报道机器之心编辑部距离 ChatGPT 的最初发布,过去差不多四个月的时间了。就在上星期 GPT-4 发布时,ChatGPT 第一时间上线了新版本。不过众所周知的一个秘密是,不管是 ChatGPT 还是 GPT-4 都不大可能开源。

机器之心报道

机器之心编辑部

距离 ChatGPT 的最初发布,过去差不多四个月的时间了。就在上星期 GPT-4 发布时,ChatGPT 第一时间上线了新版本。不过众所周知的一个秘密是,不管是 ChatGPT 还是 GPT-4 都不大可能开源。加上巨大的算力投入以及海量的训练数据等,都为研究界复制其实现过程设下重重关卡。

面对 ChatGPT 等大模型的来势汹汹,开源平替是一个不错的选择。本月初,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行。

时隔几天,斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 Alpaca,他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据,同时进行了一些修改,在初步的人类评估中,Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003(GPT-3.5)模型。

但遗憾的是,Alpaca 的种子任务都是英语,收集的数据也都是英文,因此训练出来的模型未对中文优化。为了提升对话模型在中文上的效果,有没有更好的方法呢?别急,接下来介绍的这个项目就能很好的解决这个问题。

开源中文对话大模型70 亿参数的 BELLE(Bloom-Enhanced Large Language model Engine)来了。它基于斯坦福的 Alpaca 完成,但进行了中文优化,并对生成代码进行了一些修改,不仅如此,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

在数据方面,该项目开源了基于 Alpaca 的数据收集代码,基于这段代码生成了约 100 万条中文数据,结合 Alpaca 的 5 万条英文数据,在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face。

Hugging Face 地址:https://huggingface.co/BelleGroup

项目作者表示:该项目旨在促进中文对话大模型开源社区的发展。

项目地址:https://github.com/LianjiaTech/BELLE

项目介绍

该项目主要包含以下四部分内容:

  • 175 个中文种子任务
  • 生成数据的代码
  • 0.5M 生成的数据
  • 基于 BLOOMZ-7B1-mt 优化后的模型

数据发布

1. zh_seed_tasks.jsonl:包含 175 个种子任务,样例如下

{"id": "seed_task_20", "name": "horror_movie_opening", "instruction": "你需要为一部恐怖电影写一个创意的开场场景。", "instances": [{"input": "","output":" 太阳已经落山,留下了一个黑暗的小镇。微风吹拂空荡的街道,让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然,一声令人毛骨悚然的尖叫声划破了寂静,随后是玻璃破碎的声音。一所房子亮起了灯光,可以看到一个人影朝镇中心奔跑。当> 那个人影越来越靠近时,清楚地看到那是一个年轻女子,她浑身血迹斑斑。"}],"is_classification": false}

2. prompt_cn.txt: 生成所使用的提示语

3. 0.5M 生成的数据

数据生成

沿用 Alpaca 的方式:

pip install -r requirements.txt
export OPENAI_API_KEY=YOUR_API_KEY
python generate_instruction.py generate_instruction_following_data

默认使用 Completion API,模型 text-davinci-003。如果想使用 Chat API 并使用 gpt-3.5-turbo 模型,可通过参数控制:

python generate_instruction.py generate_instruction_following_data \
    --api=chat --model_name=gpt-3.5-turbo

模型调优

此外,该项目还采取了不同大小规模(20 万、60 万、100 万和 200 万样本)的指令学习的数据集训练模型,得到不同的模型版本如下所示:

模型使用例子

局限性和使用限制

基于当前数据和基础模型训练得到的 SFT 模型,在效果上仍存在以下问题:

  • 在涉及事实性的指令上可能会产生违背事实的错误回答。
  • 对于具备危害性的指令无法很好的鉴别,由此会产生危害性言论。
  • 在一些涉及推理、代码等场景下模型的能力仍有待提高。

基于以上模型局限性,该项目要求开发者仅将开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。

相关资讯

羊驼为什么叫草泥马 为什么见了羊驼要躲远

近些年国内流行起来养羊驼了,羊驼是一种看上去比较可爱而又呆萌的小动物。网上普遍有一种说法“看见羊驼一定要躲远!!!”为什么看见羊驼要躲远呢?羊驼又为什么被大家称之为草拟马呢?下面就让小编带领大家一起来看看吧!羊驼为什么叫草泥马这个起源于羊驼

没想到羊驼也是虚胖,日本牧场帮羊驼剃毛消暑,就像加了大头特效

现在各地的天气都非常炎热,大部分的网友已经过上了脱离空调就不知道该怎么办的生活。动物们对于这样炎热的天气也是充满了怨言。毕竟有不少动物拥有长长的毛发。而在日本,有一家牧场的主人,为了能够让羊驼们在夏天能够感觉到舒服一点,决定帮它们剪毛。而这

呼和浩特一露营地羊驼和鸵鸟走失,老板:羊驼已找回,鸵鸟仍无消息

极目新闻记者 杨锦英10月24日,内蒙古呼和浩特市一家露营地的老板唐先生向极目新闻反映,自家的羊驼和鸵鸟在前段时间“离家出走”了,如今鸵鸟仍无消息,希望有热心人帮忙提供线索。唐先生的露营地名为“二十四园”,位于呼和浩特市赛罕区古力半村附近。

羊驼立功?新研究报告称羊驼血液中抗体有助中和新冠病毒

据英国《星期日泰晤士报》消息,比利时一项新的研究报告说,羊驼血液中的抗体有助于消灭新冠病毒。据比利时弗拉姆斯生物技术研究所(Vlaams Institute for Biotechnology)的研究人员和美国研究人员的一份报告称:“羊驼血

羊驼大型理发现场!请问这八大袋羊驼毛属于什么垃圾?

【羊驼大型理发现场!请问这八大袋羊驼毛属于什么垃圾?】垃圾分类挑战下周起魔都的最高温度就要连续三字头了!@上海动物园 的羊驼们排队剪毛之后,用清凉造型迎接盛夏的到来。那么,这些剪下来的羊驼毛属于什么垃圾?回答:羊驼毛又名阿尔帕卡,比马海毛更

羊驼立功?新研究报告称羊驼血液中的分子可能会在新冠病毒暴发时起到治疗作用

据英国《星期日泰晤士报》消息,比利时一项新的研究报告说,羊驼血液中的抗体有助于消灭新冠病毒。据比利时弗拉姆斯生物技术研究所(Vlaams Institute for Biotechnology)的研究人员和美国研究人员的一份报告称:“羊驼血

多只羊驼“越狱”在商场内奔跑?羊驼馆:正常巡游,可能受到惊扰

极目新闻记者 周浩商场内,四只羊驼“撒欢式”奔跑,路人纷纷驻足观看。10月13日,发生在山西太原一家商场的这一幕,引起了不少网友好奇。网友猜测,这几只羊驼是不是“越狱”了?该商场神兽羊驼主题馆工作人员称,羊驼并非“越狱”,在商场巡游时有员工

多只羊驼“越狱”在商场内奔跑?羊驼馆:正常巡游,可能受到惊扰

极目新闻记者 周浩视频剪辑 轩逸瑶 重播

羊驼许仙:全网最操心的羊驼,主人都不敢轻易招惹

1.这个羊驼到底有多黏人?它怎么还有分离恐惧症?你敢相信吗?这么威猛可爱的大型动物羊驼最害怕的事竟然是和主人分离?这只叫许仙的羊驼你以为它只有美貌吗?不,它还是铲屎官的黏人精“贴心宝贝”。之所以说黏人,是因为许仙即使是在铲屎官上厕所、做饭或

披着“毛衣”的羊驼会中暑吗?上海动物园“托尼天团”为羊驼剃毛

东方网记者柏可林6月24日报道:羊驼是一种生存在高海拔地区的哺乳动物,一身又细又软的卷毛,比羊毛保暖性能更好。但耐寒不耐热的它们,一到夏天,这身“毛衣”便不利于热量散失,容易导致中暑。因此每年赶在高温前,上海动物园的饲养员们都会组成“托尼团

打造国内最大羊驼养殖基地 天津市武清区“赶着羊驼去致富”

重播

现在羊驼价格怎样?羊驼的养殖前景与市场行情怎样?

说到羊驼,很多朋友估计第一想到的就是它另外一个称号“草泥马”吧,它是一种很温顺的动物,也很是珍稀,繁殖能力也不高,那么现在羊驼的价格怎样呢?要多少钱一只了?如今养殖羊驼前景好吗?市场行情如何?小编下面就带大家来了解下!一、现在羊驼价格怎样?

羊驼究竟是羊还是驼?羊驼为什么是驼?蚂蚁庄园8月30日今日答案

羊驼,究竟是羊还是驼?羊、驼。这是支付宝蚂蚁庄园2020年8月30日每日一题的题目,羊驼别称“”,一直以来都有“神兽”的美誉,那么它究竟是羊还是驼呢?下面就是这道题的正确答案了,大家一起来看看吧!蚂蚁庄园8月30日每日一题答案问题:羊驼,究

「Nature子刊」新冠患者救星——竟然是羊驼!科学家从羊驼身上提取了一种简单、易储存的纳米抗体:可有效对抗新冠病毒及其危险变种

本文为转化医学网原创,转载请注明出处 作者:Daisy导读:9月22日刊登在《Nature Communications》上的研究发现,科学家成功研发出一种源自羊驼的纳米抗体,可有效中和新冠病毒及其危险的新变种。抗体可以通过“中和”病毒来

披着“毛衣”的羊驼会中暑吗?上海动物园“托尼天团”为羊驼剃毛

原标题:披着“毛衣”的羊驼会中暑吗?上海动物园“托尼天团”为羊驼剃毛东方网记者柏可林6月24日报道:羊驼是一种生存在高海拔地区的哺乳动物,一身又细又软的卷毛,比羊毛保暖性能更好。但耐寒不耐热的它们,一到夏天,这身“毛衣”便不利于热量散失,容

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈遂宁头条新闻网念念相忘电影网马嘉祺歌迷网下午茶文化网牙科知识科普网泸州老窖A股澳门旅游网袁大头银元收藏今日临汾奥斯陆旅游网分手挽回网CoCo都可优惠券小天鹅洗衣机评测网成都交友相亲网尤尼克斯球拍
羊驼宠物网-羊驼又名骆马、驼羊,属哺乳纲骆驼科家畜。羊驼性情温顺,习惯于放牧和圈养,无食草拔根和啃食树木的恶习。羊驼是食草动物,胡萝卜、大白菜、玉米,以及各种水果等等。羊驼是我国目前比较珍稀的一种动物,它的性格非常的温驯,而且特别的有灵性,所以很多的人都非常喜欢羊驼,在加上羊驼它经常喜欢卖萌,非常的可爱。
羊驼宠物网 tailabao.cn ©2022-2028版权所有