大模型能否通往AGI
添加书签近日,科技慢半拍播客节目联合AIGC开放社区邀请复旦大学张奇教授坐客,畅谈大模型以及AGI的相关话题。张教授与杨立昆的近期观点非常相似,体现出一名踏踏实实从事基层科研专家的客观与理性,处于变革时代中的我们更需要拥有坚定的信心和毅力,秉持自己的想法和观点,不能人云亦云,更不能随意听信公众号和自媒体的武断表达,应多去核查论文原文,再去亲身实地检验。
我们的访谈从张教授的新书《大规模语言模型:从理论到实践》开始谈起,聊到学术界和产业界关于大模型所做的工作,有哪些难点和阻碍?再聊到大模型的技术路线是否已经定型,Scaling Law是否已经成为业界的公理法则?大模型应用的特点和难点又是什么?最后,张教授也谈到他对AGI的理解,以及大模型算是否能成为通往AGI的必经之路。
希望收听完整访谈节目的朋友,请移步【科技慢半拍】播客节目:
以下是本次访谈内容的摘要以及观点汇总:
# 关于新书的内容和目标读者
自从2022年大语言模型开始流行,我们便希望对这些大型模型的训练和开发过程进行梳理。大语言模型与传统的自然语言处理方式有很大差异,它已不再局限于单一的自然语言处理任务,而是转变为一种多任务混合模式。传统的自然语言处理学者很少关注分布式训练方法,几乎没有人进行过多机多卡的大模型训练。
在各种因素的叠加下,我们发现即便是从事自然语言处理研究的专业人员也对整个过程缺乏系统的梳理。因此,在2022年12月ChatGPT发布后,我们于2023年3月推出了MOSS,旨在帮助更多人掌握这一过程。我们于2023年4月和5月开始编写这本书,并在9月份率先在线上发布。
第一个问题关注的是大模型的结构——Transformer结构到底是什么样的,以及标准的Transformer结构经历了哪些版本的演变。第二个问题是,构造了模型结构后,我们该如何构造数据?传统的自然语言处理所需的标注数据量并不大,而大语言模型则需要2T或3T的token。这些数据从哪里来?如何进行预处理?以及如何进行词源的切分?如果有兴趣进行这种预训练,现在是否有可用的开源版本?第三个问题是,在有了数据和算法模型结构之后,我们应如何进行分布式训练?如何实现多机多卡的训练?对于千亿级别的模型,我们需采用模型并行、混合并行、流水线并行等策略,但这些策略各自代表什么含义呢?第四个问题是,在得到基础模型版本后,还需进行有监督的微调以及强化学习,它们各自起到了什么作用?完成这些步骤后,我们还要探讨大模型的实际应用和评测方式。因此,我们的主要目标是梳理大语言模型的构建、应用和评测这三大过程。
本书面向那些已具备初步自然语言处理知识和基础机器学习概念的人群,旨在帮助读者能快速进入大语言模型研究领域。虽主要针对专业模型训练人员和科研工作者,本书也适合普通读者,以便他们了解大语言模型的本质,特别是从学术角度探讨其主要特点、优势与局限,验证公众媒体上的宣传是否准确。
掌握底层大语言模型的知识是必不可少的,这就像人类早期发明飞机或汽车一样。如果在那个时代我们没有参与飞机或汽车发动机的制造,我们当然可以选择购买或使用它们。然而,如果我们不掌握这项基础技术,我们就无法跟上其下一代产品的发展,只能被动地等待别人的成果供我们使用。大语言模型目前正处于起步阶段,事实上,我们在这一领域已经稍显落后。因此,我们必须追赶上来,去学习和理解底层大语言模型的本质是什么。
核心观点:
-
拿来主义要不得,中国在大模型领域必须迎头赶上!
# 在大模型领域,学术界和产业界的当务之急是什么?
在这次大模型领域的发展中,企业和学校之间的分工方式与以往其他领域的情况有着显著的不同。大模型的研究需要巨大的资源投入。以大模型的预训练阶段为例,若要训练一个拥有1000亿参数的模型,处理大约3T的token(即约30000亿词源),就需使用1024张GPU卡持续运行四到六个月时间。这样一次性的投入规模通常高达数千万资金,并且必须一次成功。因此,这种规模的投入对于学术界而言,几乎已经成为了一个不可能完成的任务。
因此,实质上只有企业有可能真正投入到大模型的研发中。这一现象不仅在国内如此,在国际上,高校的研究也大多落后于这些大型公司。对于学术研究来说,学校的投入面临着极大的困难。当企业决定投入时,他们需要考虑商业模式的问题,评估这样的投资是否值得。问题也包括:为什么要从底层的大模型研究开始?是否可以在预训练好的模型基础上进一步开发应用?这些都是企业需要根据自身的商业模式和业务逻辑来决定的。事实上,只有那些顶尖的大科技公司才有可能进行这样的投入。
当前的大模型研究主要集中在文本处理上,但未来的方向是发展多模态模型。这些多模态模型的基础是底层语言大模型,意味着如果没有掌握底层语言大模型的训练技术,就难以有效地整合多模态的数据,这将限制未来的发展。因此,如果我们的目标是实现通用人工智能,那么我们需要一步一个脚印地前进,而且每一步都需要巨额的投资。当然,如果一家公司选择专注于垂直领域,针对特定的行业或方向,那么从头开始训练底层大模型可能并非必需。他们可以基于已有的预训练大模型进行二次增强训练,以适应特定的应用需求。
预训练仅仅是漫长旅程的起点,接下来还有监督微调、强化学习、奖励函数等多个阶段,每一步都需要大量资金投入,在学术界关于这些部分的研究相对较少。GPT-3的发布于2020年促使国内外学术界进行了大量跟进研究,到了2021年,国内便出现了万亿级别的模型(17500亿参数),表明国内已基本掌握预训练技术。这也解释了为什么到了2023年,国内涌现出许多相关公司。因此,跨越预训练这一步相对容易。然而,OpenAI后续未再公开大型模型的开源资料,关于如何进行有监督微调和强化学习的详细工作几乎无文可查,除了一篇关于Instruct GPT的论文,被认为是GPT-3.5的前身。此后的研究细节鲜少对外公布,使得科研探索变得更为困难,且成本极高。据我了解,根据我们目前的研究情况,后续阶段的投入可能远超预训练阶段。即便是专注于某一特定领域的模型,所需的投入也非常巨大。
目前看来,学术界与企业合作似乎是一种有效的模式。例如,我们与荣耀合作的联合实验室就是一个典型案例。企业带来了实际应用需求,而学校则贡献了科研动力和先前的技术积累。这种合作模式让双方更加紧密地结合,能够在特定场景下进行尝试,同时挖掘科学问题。比如,我们最近就发现了一个有趣的现象:一个拥有130亿参数的模型,在仅仅修改了一个参数后,竟然无法正常输出,全部是乱的。这个现象促使我们深入思考大语言模型的核心机制,探索语言与语义是否存在分离现象,以及大模型如何能够出色地处理多语言问题,甚至推翻了我们去年的一系列研究成果。合作过程中的这些发现和训练经验的分享,使得双方的合作更加紧密。无疑,这是一个非常好的合作模式。
如果学术界与企业无法建立良性互动循环,那么使用如1000张显卡这样的规模进行模型训练将不再可能,导致学校和企业均处于无进展的循环中。这种局面不限于国内,国际上知名的高等学府,例如斯坦福大学和麻省理工学院,在大模型研究领域也面临同样的挑战。
核心观点:
-
限于成本投入问题,国内学校无法开展大规模的大模型训练和研发
-
企业受制于自身商业模型和业务逻辑的制约,也难以独立投入大模型研究
-
缺乏更多的有效信息输入,导致后续大模型研究的每个环节都步履维艰
-
高校和企业的有机结合,被认为是大模型研发的更好路径
尽管按照去年3月发布的GPT-4、6月公开的API,以及11月公开的GPT-4 Turbo版本的发展来看,我们与它们的技术差距似乎在缩小。但若要评估我们与OpenAI整体的距离,实则非常困难。例如,最近公布的SORA,OpenAI实际上在一年前就已开始筹备。我们目前还缺乏一个清晰的大模型演进思路和流程。如果仅从SORA的角度来看,我们与OpenAI的距离不止一年,可能还要更长。
由于SORA依赖于GPT-4的某些能力,我们可能在某些具体评价指标上与GPT-4较为接近。然而,从普通用户的使用场景来看,差距依旧显著。这个距离到底是半年还是一年,很难具体估计。特别是到了强化学习阶段,哪怕是微小的技术差异,也可能需要巨额资金和长期的技术积累才能弥补。我们往往只能看到OpenAI如冰山一角的成就,而其庞大的水下部分,即深厚的技术积累和研发背景,是我们难以见及的。因此,预测未来的赶超进程也显得尤为困难。
核心观点:
-
中美的差距仍然存在,且前途未知,大模型后面的路会更加艰难
即使从创新的角度来看,我们的进步看似微小,如将原有的DiT架构更换为Transformer,并进一步发展为ViT架构,表面上变化似乎并不显著。然而,将ViT架构扩展应用于视频数据,在这一过程中仍然体现了创新性。这种创新是逐渐演进的,并非OpenAI一夜之间从无到有创造出新事物,而是长期汲取了学术界众多思路的积累。
以SORA为例,处理视频数据并非易事。尽管世界上有大量视频,例如可以从哔哩哔哩下载(暂不考虑版权问题),但一系列挑战随之而来。首先,实际上高清视频的数量有限,大多数视频清晰度较低。其次,许多视频在经过转码压缩后,两帧之间可能出现条纹,若按逐帧训练方法,这种条纹会严重影响训练效果。再者,一些老旧视频通过磁带转录,磁粉丢失可能导致尾影现象。仅仅是视频数据的准备阶段,就已经面临诸多工程性和技术性问题。这些问题是多学科交叉的挑战,不单单是工程问题,都需要妥善解决。
在视频压缩里,要把视频还原成单帧,这件事情就不容易。如果做过截图的人可能就会知道。例如电视下面的跑马灯,看上去是那个字幕在走,但如果截帧之后,你会发现那个字根本是不完整的。这是由差值来造成的,那我们就需要把它还原回去,其实已经很难了,这就是科学问题。第二个问题,我们对这个视频其实并没有很好的描述,只能告诉这个视频是什么电视剧,但是没有办法对它的每一个场景说明,使用了什么样的运镜,这里面有几个人,是什么样的场景等等,这些文字描述我们都没有。就还要把这个文字描述补全,并且是高质量的补全,甚至是偏专业化的,因为一般人根本不懂所谓运镜的逻辑是什么。这一部分完成了之后,还要去准备网络架构,在过去十年,做Image生成再到video生成的网络架构可能有几百种,到底该怎么选?而且之前大家的测试都是3秒4秒范畴内的,怎么能扩展到60秒?过程中如何保证稳定性,人物的不变,以及与世界知识保持,网络架构又该如何调优?也都需要大量研究。
如果要进行进一步的研究,尤其是开发高达30亿到百亿级别的大型模型,我们将面临对庞大计算资源的需求。例如,在生成过程中可能需要使用2048个GPU卡,且每次实验可能要运行长达七天。然而,如果每次实验都需要七天,那么团队的工作效率将极为低下。考虑到需要测试几百种模型,并从中发展新的模型,每次微小的调整都会消耗大量的计算资源。为了将实验时间缩短至一天,我们可能需要动用高达一万张GPU卡,以实现每日实验和结果分析,但这样庞大的计算成本和风险是否能被公司承担?毕竟,投入数亿人民币进行一年的研究,最终可能一无所获。从管理角度来看,十几位算法研究员掌控如此巨额资金,如何有效运用,选择团队,以及决策过程中将面临众多挑战和考量。
自OpenAI在2022年之后未再公开详细信息,我们主要通过Instruct GPT的报告来了解GPT-3.5的相关内容。虽然大致理解了它的发展方向,但许多具体细节依旧未知,尽管如此,我们相信其发展方向不会偏离正确路径。然而,到了GPT-4时期,我们对其发展路线及其可能采用的MOE(Mixture of Experts)架构了解更为有限。实际上,是否真的采用了MOE架构,以及MOE的具体含义和实现方式,都没有得到OpenAI的直接确认,这些信息可能只是基于猜测。MOE架构的解读有多种可能,包括不同的混合专家模式,是否采用稀疏专家网络,或是其他混合方式。理解和选择最合适的实现路径,需要大量的实验以及对大型语言模型深入的理解和思考。目前我们基于自身的理解认为MOE架构有四到五种主要方向,而OpenAI可能还有我们未知的其他路径。每条探索路径都可能涉及巨额投资,若选择错误,数亿资金可能就会白白浪费。因此,如何准确选择最佳路径是一个极具挑战的任务。
如果GPT-4的开发方向选择不当,考虑SORA架构与GPT-4之间的关系变得尤为关键。这种架构依赖于融合文本和视觉生成模型的策略。尽管目前有许多关于ViT(Vision Transformer)的讨论,关于如何整合视频内容,以及如何进行压缩——特别是如何实现时空区块(Patch)的处理——仍缺乏具体细节。这意味着在每个细节上,我们面临多种选择。如果将所有这些选择连成一条线,可能就有几百种不同的路径。如果尝试这几百种可能,成本将非常高昂。对投资者而言,这样的风险也非常大。
核心观点:
-
国内研究者仍不清楚先进大模型具体的算法结构,距离SORA这种复合模型,差距会更大
-
对大模型不同研究路径的探索,会导致资金投入的不确定性,带来巨大风险
这件事情在我们实验室里争议很大,有两派观点。我们已经把它定义为哲学问题,很难讨论,也很难证伪。讨论太多之后,就很容易伤感情,所以现在我们实验室已经不怎么讨论这件事情了。
第一,是不是模型规模上去了,结果就一定能上去?我们对于已知的GPT3模型是1750亿参数,另外,了解到现在ChatGPT线上的版本不到200亿参数。那为什么GPT-3就不能用?而GPT3.5的200亿参数,效果就这么好呢?它里面经过了什么?是不是只要把规模做上去,所有的东西就万事大吉了呢?其实是没有定论的。如果把现在的规模从1750亿扩到17500亿是正确的方式,那么在2021年,其实Google做过更大的模型,国内也扩大到过17500亿。当时做出的17500亿模型,和现在的这个200亿模型的能力有天壤之别,差距非常大。从这种角度上来看的话,不见得一定是模型规模要大到一个很大的程度。但这件事情没办法证伪或者证明。因为别人永远都可以说,你没有做过,你有本事拿出来一个万亿的模型,跑跑看,结果会是什么样子啊。
第二,从我们的实验结果上看到,比如Llama这个模型,它能做加法,但如果让它做五位数乘以五位数的乘法,它就不会了。既然不会,那我们就训练它,搞一个200万的训练数据,都是k1×k2,k1和k2都是小于4位的,乘在一起都会小于9位数。训练完成之后会发现,训练过的部分,那可能位数比较小,乘出来之后6,7位的,准确率达到99%了,确实比之前要高。因为之前在不训练它的时候,Llama对于3位乘3位数,很多都是错的。但是4位乘以5位,4位乘以4位,它还是做不了,正确结果基本为零。然后我们还做了其他实验,比如训练它10位加10位的加法,之前Llama也经常做不了,它的结果可以从原来的40%,50%上升到了90%多。然后再训练11位加11位,每个训练集都是100多万,也可以得到同样的效果。但这时,我们测试它10位加11位,它又不会了。7b的模型是这种情况,13b的也是,70b还是一样。当然我们没有条件去训练一个千亿模型,万亿模型来测试它的这个结果。是不是在万亿模型情况下,它就能理解了加法的进位原则?
如果说拿200万的一个训练数据放进去,在原来的预训练语料里面,我觉得至少也有大几百万的加法数据。在这么大的一个训练数据中,都没有看到它能学会一个加法进位原则。那Scaling Law能带来什么呢?我觉得这是一个需要学术界和工业界都要去思考和研究的问题。
我们可以看到的是,模型参数越大,它能够记住的东西就越多。这是可以接受的,也是可以证明的。1000亿的模型能够记住很细节的知识,70亿的模型只能记住出现次数多的知识,出现次数少的就记不住了。但它也仅仅是用在记忆,所谓的涌现,一些别的能力上就没有看到了,所以争议就会变得越来越大。
如果只是记忆,不能推理,其实没有太大意义,记得再多也还是个压缩型记忆。那我就不需要它了,如果我有一个外部的知识库,再加上一个7b的模型,就可以干很多事情了。如果千亿模型推理模型上不去,记忆能力我也不需要,因为大模型再记忆,还是会有很多错误。那为什么我一定要用这个千亿模型呢?这个路径的选择又变得非常关键。
之前,在谋篇论文里利用Scaling Law面画了张趋势图,谈到65b以上的模型可能出现了涌现现象。关于涌现,大家看到的都是Jason Wei的那篇论文(Emergent Abilities of Large Language Models),那篇论文第一次提到了“涌现”。但如果大家回头去看原始论文的时候,所谓出现涌现的那8个任务。刚开始是零,然后到了一个点之后,突然上去了,大家觉得这个涌现能力出来了。但是,他没有告诉你的是这个big bench,数据集有200个任务,只有8个任务出现了涌现,比例很低。这只是其一,其二是里面的评测集合是什么?评测的指标是0、1指标,做对了,就是1;做错了,就是0。如果把指标改成了某种概率型的评测,90分,80分,70分等等,而不是0和1。所以斯坦福在2023年4月份就发了一篇论文,把评测指标改成概率型的。对的概率越来越高,它就变成了线性的。也就是说,随着这个数据的增长,预训练数据量的增长,模型的增长,指标就会逐渐上升。之前的度量方式,是因为0.99的正确性也是错误,所以超过了某个量级之后,刚好那就啪的出现了。看上去像是从0到1,得到了一个很高的涨幅,但其实并不是。所以现在学术界已经基本上不怎么讨论“涌现”了。
这件事情是需要大家仔细思考的,而不是说出现了一篇论文,写了“涌现”这个词语,后来广泛传播了。大家就要去相信这件事情,以此为准则去做,你的目标就完全不一样了。你可能会以“涌现”为基准,只要Scaling上去了,就能获得各种能力。那你就会往万亿去做,十万亿去做,会指导你做事的原则。小模型就别干了,干它干嘛呢?Open AI去搞个几十万张,几百万张卡,千万张卡,然后做一个大几百万亿的模型,AGI就出来了,做事的思路就会完全不一样。
我觉得这种东西还是需要大家自己仔细化的判断,判断的源头不是公众号,不要去看公众号,而是去看原文,公众号上的东西,只是让你快速的找到相关的东西,但你要仔仔细细的去看原文。Jason Wei的论文并没有骗大家,他清晰的告诉了你,在big bench里找到了8个任务,论文里有附录。附录里面别的情况,你要自己去看。
核心观点:
-
学术界对Scaling Law的理解处于无法证明,也无法证伪的阶段,仍然模糊不清,所以并非模型越大越好
-
由于大模型的“涌现”现象缺乏足够的证据,学术界已经很少再讨论这个话题了
关于模型大小,我们学术界一般认为超过10亿的模型,就需要多机多卡的预训练,就算是大模型。之前的那种100M的、300M的模型,算是小规模模型。但也没有明确的界限定义,对于企业来说,可能千亿的模型才算是大模型。我们现在做研究,用的都是7b和13b的模型。
我们去年也训练了一个2.8b的模型,为什么选择这种大小,是因为它可以在手机里面直接运行,只需要4g内存。我们放在iPhone里面跑,基本不用做任何适配,而且处理速度很快,也具备了很多跨任务,多语言的处理能力。今年,Google和微软也发布了小模型的版本,小模型在嵌入式设备里面,因为它受设备计算能力的限制。当然也可以通过大模型做量化,不过目前我们看下来,还是原生的小模型,也就是不量化的版本,效果会更好一点。
这种小模型会出现一些很奇怪的现象,比如100M、200M的模型,它有一套完整的训练范式。之前经过两三年大家的研究,一个任务,需要标多少数据?怎么准备?大家都有一些共识了。但是对于1亿,10亿,20亿,30亿这个档次的模型,该怎么训练?我们明显的感知到它们和70亿、130亿的模型,训练方法和方式有很大的不同。
模型划分的界限在哪里?今年陆陆续续,可能会有更多的一些研究成果出来。10亿、20亿、30亿的模型,想做某一个任务,该怎么做?它做什么样的任务会做的比较好。70亿、130亿的模型可以解决一些什么样的问题,它的训练范式是什么。在研究界,我觉得24年应该会有一些明确的说法了。
在我的书中梳理了大模型研发相关的工作步骤、可能遇到的难点,并介绍了分布式技术在大模型领域的应用及其基础技术的重要性。书中也讲清了哪些信息是确切的,哪些是不确切。在学术界,对大模型的研究仍然是一个新兴领域,许多研究成果还处于初级阶段。这本书是为想要在大模型领域工作的人提供了一个实践指南和研究概览,对于那些要深入学习大模型的专业人员,可能还需参考额外的资料。
核心观点:
-
小模型对于边缘计算和嵌入式设备拥有得天独厚的优势
-
今年,学术界对于各种类型的模型边界和能力的研究将会取得一定的成果
当大模型首次出现时,因能够完成众多任务而受到高度关注。这些模型几乎可以回答任何问题,提供各种解答,但通常效果只能达到一般水平,大概60分的水准。随着GPT-4等更进阶的模型推出,某些任务可以提高到80分,但在更专业的领域,表现依然徘徊在70分以下。
企业为了实际应用所追求的,通常只需专注于3到10个特定任务,而对这些任务是要求高准确性和高质量完成,有着严格的要求,即90分或95分的水平。大模型只有做到这个水平才能落地。一个通用的大模型,尽管可能拥有千亿级别的参数,但是所有任务上都难以达到这样的高标准。这种局限性导致了大模型自身和企业应用之间的一个矛盾。
要像让大模型应用成功,就必须转化为产品。因为项目定制开发的成本高昂,经济效益难以计算,因此,只有通过产品化才能实现盈利。面对产品化的过程,一个核心问题是如何将产品与具体应用场景相结合。以银行行业为例,考虑是否所有商业银行和省级银行有相同的需求。如果能从中抽象出共通的需求,并开发出能在这些场景中达到95分以上表现的模型,那么这种针对特定领域或场景的模型就有可能被各家银行广泛采用。是否存在这样的可能性?
为此,公司需要深入研究每个行业的特定场景,从经济效益的角度评估开发满足银行行业十个关键场景需求的产品所需的投资规模。这涉及到成本和收益的计算:开发满足这些场景要求的产品需要的投资额(例如两亿或三亿),每个银行愿意为这些解决方案支付的费用,以及预计的投资回收期。
目前的挑战在于,业界尚未找到一个有效的对齐机制,使得产品开发的成本与银行的支付意愿相匹配。举例来说,如果一个银行只愿意支付500万,但研发成本可能超过两亿,那么需要有足够多的银行购买才能收回成本。这就引发了一个问题:企业是否愿意承担如此大的风险去投资?
核心观点:
-
大模型对于普遍任务的完成情况,未能达到企业对于特定任务高标准的要求
-
大模型应用的产品化才是正确的出路,需要在成本和收益之间做好充分的衡量
AI应用存在两种主流模式。首先是大模型直接被引入公司中,以替代或优化现有工作流程。这种情况下,企业对AI的期望是可以直接应用并产生即时效益的解决方案。第二种模式是创建AI原生(AI Native)应用,这要求企业进行大规模的探索和产品设计,确保任何改变都对公司有实质性的好处。
以法律领域为例,一开始人们可能认为AI可以帮助撰写案件材料或进行相关案例的搜索。然而,从实践角度来看,律师对于起诉状的需求并不高,因为他们通常专注于特定类型的案件,已有高度优化和定制化的模板。因此,使用大模型自动生成起诉状可能不会带来预期的效率提升,还可能因为输出与个人习惯不符而需要额外的修改。
在AI原生应用的探索中,关键是找到那些特定的场景,用户真正愿意为AI带来的那60分所买单。例如,在学术审稿过程中,如果AI能帮助自动生成摘要和文章的优点,对于文章的缺点部分,作者可能更愿意亲自撰写,以确保准确性和深度。AI这种辅助可能被认为是有价值的,哪怕大模型只做到了60分,因为它减轻了作者的负担,我们就愿意改变原来的工作方式。
总之,AI原生应用的开发和部署需要仔细考虑特定的应用场景,只有当AI的介入能够带来明显的优势和效率提升时,用户才会愿意接受这种技术变革。否则,强行做转变,大家是很难接受的。
另外,从企业应用的思路上来看,目标也不应是让计算机完全替代人类,而是利用AI来提升员工的工作效率和能力。通过提供一个框架,AI可以帮助初级员工迅速成长为中级员工,减少了大量的培训时间和资源。然而,如何将初级员工变为中级员工,将中级员工提升为高级员工。
以微软对OpenAI的投资为例,双方自2022年初便开始合作探讨AI的应用,这表明了对AI应用发展的深度思考和长期规划,并非仅仅因为技术的进步而匆忙应用。微软之所以坚持发展如Copilot这样的方式,可能基于对未见领域的深刻洞察,认为通过AI辅助,即便不是一次性解决所有问题,也能显著提高工作效率。GitHub Copilot也不是直接为程序员编写代码,而是在编程时提供推荐,帮助快速完成编码任务。这种方式不仅节省了程序员的时间,还允许他们将更多精力投入到深入思考和创新中。通过AI的辅助,可以将一个初级程序员的工作效率提升,让原本一天的工作量减半,从而为探索更复杂问题留出空间。
核心观点:
-
AI原生应用更需要切实考虑企业应用的场景特征,找到那些企业愿意为大模型带来的60分工作所买单的场景,带不来收益的强制转型是很困难的
-
从微软的实践看来,Copilot和Assistant模式可能是更好的应用方式,而不是寻求直接替代人的工作
去年12月,我们发布了复旦的眸思模型,这是一个基于我们之前开发的纯文本模型MOSS的多模态理解模型。我们的目标是探索并扩展到图像理解领域,受到了GPT-4等技术的启发。通过分析海量图片,眸思模型能够理解自然界的复杂场景,甚至是之前难以训练的稀有场景,比如马出现在加油站。这种能力不仅展示了模型的理解和推理能力,也开启了思考多模态模型能解决什么问题和最适合应用的场景。
我们将谋思比作一个长了眼睛的语言模型,并由此联想到盲人可能会有哪些特殊需求。尽管之前业界也有类似尝试,例如基于GPT4推动的Be My Eyes项目,但我们发现这些尝试并不能完全满足盲人的需求。经过调研,我们确定了几个盲人面临的核心痛点,并在今年2月底推出了“听见世界”这个公益项目,旨在解决这些痛点,例如帮助盲人在户外识别红绿灯、障碍物、人行横道等基本信息,以及在开阔地带导航和识别周围环境。
我们相信,通过专注于具体场景,这样我们的研究也可以更有针对性,而不是仅仅追求通用性。这样的专注也能促进我们在技术架构和创新方面的进步。希望通过这个项目,不仅能解决盲人的实际问题,还能鼓励更多的人和组织加入这一努力,共同改善盲人的生活质量。
近期,我们团队也欢迎了许多视障朋友的加入,他们的需求和反馈直接影响了我们的研究方向和应用开发。甚至有视障朋友自己开发了APP,集成了GPT-4和最新的Cloude-3模型,展示了他们对于改善生活的强烈需求和追求。
我们认为通过多模态大模型的应用,可以开辟一种新的解决方案,帮助盲人更好地融入社会,提高他们的生活质量。这种方法相较于传统的基础设施改进,可能更为经济高效,展现了技术创新在社会服务领域的巨大潜力。
# 您认为AGI的概念是一种商业炒作,还是很快就会到来?
这个话题与Scaling Law一样,属于我们实验室里讨论的禁区。如果你相信Scaling Law,也可能会相信AGI很快就会到来。我的观点是:
第一,我认为SORA并不是世界模型,体现的只是像素之间的关系,世界长成这个样子,所以它表现出这种形式,而不是建模了这个世界。
第二,大模型能否成为通往AGI的必由之路?我在专题报告中也讲到过,如果说大模型是通往AGI的必由之路,就一定要解决推理问题。
所谓的AGI就是可以让AI来做一个正常人做的所有的脑力劳动。过去的小模型,例如AlphaGo下围棋,它可以是世界冠军,但是它下五子棋,就是零分,因为它不懂,必须要专门的训练。所以AGI要具备的要素就是必须得会语言,会知识,会推理,会学习。
我们先把AI自我学习、自我演进这件事情先放一放。先只谈推理,首先谈到语言这件事情,我们可能觉得它已经解决的很好了。其次,知识这件事情,如果通过Scaling law,它也能记住大部分的专业知识。但人类有大量的常识知识,我觉得是靠文本模型是永远学不到的。因为我们在文本中是不会谈到常识的,比如说一个玻璃杯掉到地上会碎,但一个玻璃杯掉到沙发上就不会碎。玻璃杯重,塑料杯子轻等等,这里有非常多的内容是我们认为的常识。这些东西是不会写在书本上,我们也不会对此进行教育,甚至我们都不会用语言来表达,这是小孩子在成长过程中,他自己来学习的部分。
如果说SORA这样的视频它具备了对世界的建模能力,就变得非常非常吓人,因为它可以通过视频看到之后,就把它建模出来,变成了世界模型,也许就像大家说的,一年之内AGI就要来了。但事实并不是这样的,而且世界模型这件事情,即使要回归到Open AI自己的说法,他们有在说自己是世界模型吗?大家以讹传讹的太多了,有必要回去看看英文的原文是怎么来表达这个观点的。
回到大模型本身,我觉得如果大模型要想作为AGI的话,就必须具备推理能力。推理能力又可以细分为三类:演绎推理、归纳推理和溯因推理。
演绎推理,就是经典的三段论:人都会死,苏格拉底是人,所以苏格拉底会死。这个部分是传统的人工智能里面用谓词逻辑,一阶谓词其实已经做了非常深的研究。如果我们能把自然语言表达成一阶谓词,那其实就可以做推理,但是前任已经证明了人类的自然语言是没有办法用一阶谓词进行表达的。所以一阶谓词、谓词逻辑这些内容,虽然它们已经有了非常好的数学基础,但是没有办法跟自然语言结合,没有办法和知识结合,所以也就没有很好的应用。那至少演绎推理这件事情还是有数学基础的。
归纳推理,就是说我们看到了所有有翅膀的动物都是鸟,这次我们又看到了一个有翅膀的动物,所以我大概率认为它就是是鸟。论证的前提可以支持这个结论,但不保证这个结论一定正确。比如我们家孩子前两天买了一个水底的,奇奇怪怪的两栖动物,好像长了小翅膀,但它就不是个鸟。所以我觉得大模型不具备归纳推理能力。归纳推理也没有非常好的数学模型来支撑,因为它不是01的。
溯因推理,比如说我们见到发动机下面有一滩液体,我们自然就会推断出,大概率是发动机漏油或者变速箱漏油了。这件事情是从事实推理到一个最佳解释,所以它开始于事实,然后通过推导得到其推理过程。这个部分也没有完整的数学建模能力。大语言模型具备溯因推理吗?我觉得这件事情也是需要一个非常仔细的思考和论证的,但这件事情很难证伪,也很难证明。
如果大语言模型在这些方面不能取得突破的话,它其实很难作为成为AGI的,这些能力都是人类所具备的基本能力。如果大模型想要成为AGI,它就必须得具备很好的推理,包括演绎、归纳和溯因推理,它必须都要具备。目前探测下来,基于现在的GPT-4或者现在的开源模型,其实它们都是不具备这些能力的。
虽然大模型看起来具有一定的演绎推理能力,一些非常难的题,它也能做对。但如果你再回去看之前的训练数据,你会发现因为训练数据里放了一本类似推理108问的书,经典的题都放进去了,如果你在那个经典108问以外,或者对这108问稍微变了点形式,它又答错了。所以它到底是不是真的会推理呢?也许Ilya认为,只要模型输出的结果是正确的,它就是会推理。这是真的吗?你有没有回去看它原始的训练数据呢?推理到底是从哪里带来的呢?它做了80分,就说它会推理吗?从70分涨到80分,到底是什么原因呢?这些部分我觉得都是需要非常深入的理论思考和认知。
我个人的基本判断是目前大模型不会推理,不会推理就不会有AGI。所以我觉得AGI还早,没有办法说10年、20年还是30年。也许明天有一个绝顶聪明的人想到另外一套模型,只用少量的数据,就可以得到推理能力,那可能AGI一天就实现了。
回到大模型这个维度上,我认为只依靠大模型大概率是没有实现AGI的可能性的。但是这仅仅代表我个人的判断,甚至都不能代表我们实验室的判断,因为我们实验室,也有很多同学和老师坚定的认为,大模型可以具备推理能力。它现在就只能做80分,是因为它不够聪明,如果它能Scaling到1万亿,到10万亿,他就具备了推理能力。我只能说,到了那个时间点,做到了那么大的模型,再来做一些相关的分析。
这件事情的争论就非常大。所以还是需要大家有自己的判断力,你到底自己怎么认为,就会决定了你未来想怎么干。
核心观点:
-
AGI需要像人类一般的能力,推理能力是其中的关键核心,但大模型目前不具备推理能力,所以大模型也无法实现AGI
一方面,我认为他们可能受到了商业的影响,和学术界的立场不尽相同。可能一些人认为,对AGI的探索和讨论可以被当做某种策略,以降低公众对AGI可能引发的恐慌,或作为竞争策略,减缓对手(OpenAI)的研发进度。
另一方面,他们可能已经接触到了一些未公开的高级模型,例如所谓的万亿参数模型,媒体上疯传的那54页纸(Q star),这也可以解释他们对未来技术进步紧张的可能性。然而,这些都难以证实的,因为大多数人并未见过这些模型或了解其具体细节。
从根本上讲,当前的大模型依旧基于概率统计,专注于学习数据之间的相关性而非因果性。这意味着,尽管模型能识别出某些元素常常一起出现,例如海龟和沙滩,但这种就是概率的相关性,并不等同于深层次的世界理解或推理,这才是实现AGI的关键障碍。
商业和学术界的差异可能反映了文化差异,在表达和追求目标时的风格不同。
事实上,确实有些研究人员,如Ilya,非常相信这点。即使现在推理的能力只有60分,他就坚信大模型会推理了,只有坚信也才会非常坚定的推进研究工作。国外的研究人员非常值得敬佩,就好像Hinton研究神经网络20年,即使被人怀疑,无处投稿,还要继续研究,最终导致了深度学习和当前大模型的突破。这是研究者自己个人的选择。
总结来说,我们今天的讨论展示了张教授的个人观点,也代表了在AI领域探索的多样性、复杂性和未知性。在AGI的研究和讨论中,不同的假设、预期,以及个人信念共同塑造了这一领域的多元景象。每位读者或听众还是要回到事实和原文中去学习和探索,要坚信自己的思考,坚定自己的理想,我们已经到了这样一个时代,不一定是为了活着而努力,而是为了理想而努力。
本篇文章来源于微信公众号: AIGC开放社区