类ChatGPT开源模型,允许商业化!Dolly 2.0震撼发布!

添加书签

专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!

全球知名云计算服务商Databricks在官网发布了拥有120亿参数,类ChatGPT开源模型Dolly 2.0。(开源地址:https://huggingface.co/databricks/dolly-v2-12b)

目前,已开源的类ChatGPT模型Alpaca、Guanaco、LuoTuo、Vicuna、Koala、BAIZE、Latin Phoenix等,都有一个致命缺点——无法商业化。因为这些项目都是基于LLaMA开发的,其规定只能用于学术研究不能商业化。并且多数训练数据是从Open AI的API获取,被禁止用于打造竞品。

Dolly 2.0是基于EleutherAI pythia模型开发,已获得了商业化许可。这对于那些无法承担昂贵的ChatGPT API企业、个人开发者来说是一个大福利。并且Databricks是一家成立了10多年的云数据AI管理公司,在12个国家设有办事处,其AI产品在功能迭代、创新方面非常高效稳定。

值得一提的是,Dolly 2.0不仅开源了代码,就连15,000个纯人工生成的原始问答数据训练集也开源了,同样可以用于商业化。Databricks认为,他们是全球首家开源原始大模型训练数据集的厂商。(数据集开源地址:https://github.com/databrickslabs/dolly/tree/master/data)


5,000名员工帮助Dolly 2.0打造原始训练数据集

其实20天前,Databricks就发布了Dolly1.0,仅用了30美元的成本就训练出了类似ChatGPT的大语言模型。无数的开发者问了同样的问题,可以商业化吗?答案是不可以

Dolly 2.0产品演示

这是因为Dolly1.0使用了OpenAI API的数据集,进行了关键步骤和响应对数据集上的训练。如果厂商使用了OpenAI API获取的数据进行核心模型训练,全部禁止商业化

从Open AI的论文来看,原始InstructGPT模型是在一个包含 13,000 个指令遵循行为演示的数据集上训练的。也就是说,如果能原创13,000个问答,就可以避开Open AI顺利实现商业化

Databricks受此启发,调集内部5,000名员工开始编写脑洞、常规、创意写作、分类、文本摘要、特定场景等几乎涵盖所有领域的,15,000个高质量原创人工生成的问答提示,用于专门训练Dolly 2.0。

事实上,原创15,000个问答并且丝毫不能与ChatGPT生成的数据集重复是相当困难的,如果出现重复整个训练集都会遭到污染,不能用于商业化。

为了激励员工,Databricks在内部举办了一个原创问答数据比赛,前20名将获得大奖。并且Databricks还规定了原创问答的范围,例如,总结维基百科的知识,原创诗歌/情书,写一段脑洞大开的演讲等。

起初,Databricks认为能收到10,000个原创问答都很困难,实际上员工对这个活动充分了兴趣,最终收货了超过15,000个高质量数据集。经过高质量的数据集训练Dolly 2.0的问答表现几乎完美复刻了ChatGPT。

Databricks表示,由于训练集有限,Dolly 2.0在复杂语法提示、开发代码、复杂逻辑运算、文笔模仿等方面还有很大的进步空间。但Databricks会加快对Dolly 2.0的功能迭代,使其变得更加强大、高效。

关于Databricks

Databricks创立于2013年总部位于美国旧金山,在12个国家设有办事处。主要提供云数据管理服务,企业客户超过7,000家,典型客户包括:微软、亚马逊、Tableau、Booz Allen Hamilton等世界知名企业。

本文素材来源Databricks,如有侵权请联系删除

END

加入AIGC开放社区交流群

添加微信:13331022201 ,备注“职位信息&名字”

管理员审核后加入讨论群