中科院院士陈润生:大语言模型存在“涌现”和“顿悟”现象

添加书签

专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!

     近日,由中国智能计算产业联盟组织召开的“2023中国算力发展研讨会”在中科院计算所召开。
     此次研讨会以ChatGPT下算力的机遇与挑战为主题,汇集了业内多位权威专家学者,从技术、生态等多维度展开深度交流研讨,厘清算力产业的发展风向,并就当下人工智能基础设施及算力服务建设等课题给出应对之策。
  研讨会上,中国科学院院士陈润生表示,人工智能的发展不是人所能阻挡的,这是科学发展的本质。他同时指出,大语言模型中出现的“涌现(Breakthroughness)”和“顿悟(Grokking)”现象,值得大家思考。
  何为“涌现”?一个复杂系统由很多微小个体构成,这些微小个体凑到一起,相互作用,当数量足够多时,在宏观层面上展现出微观个体无法解释的特殊现象,即为“涌现”。陈润生形象地解释说,“我给它(大模型)很多学习数据,结果它的答案里面会出现学习数据里没有的事,这种现象叫涌现。”大模型的运算表明,当训练数据很大时(比如超过了1000亿),就会出现涌现现象,规模小的时候不会出现这个现象。
  需要明确的是,目前科学界对涌现现象是有争论的。比如,斯坦福大学某教授认为这是度规问题,牵扯到度量、基本物理坐标系等。
  “自然语言处理过程中,由于整个计算量的迅速增加而出现的涌现现象,这个是新问题,值得思考”,陈润生说。
  何为“顿悟”?陈润生解释,“你训练一个神经网络的过程中,一遍它不懂,两遍也不懂,第四遍还不懂,第五遍一下学会了,就像小孩学东西一样,教一两遍不懂,教到N+1遍突然就学会了。”
  他认为,这是人脑学习的一种模式,“学到某一个时间开窍了”,“计算机不可能出现顿悟,但是大模型会出现顿悟的情况”。
  不久前,ChatGPT的主要竞争对手之一Claude将语境窗口token数扩展到10万,相当于7.5万个单词,大大超越GPT-4语境窗口的8192 tokens。这意味着用户可以将高达500页的文档上传到Claude,它可以在不到1分钟之内就理解、消化这些信息,并基于上传的信息回答用户的问题。
  Claude是Anthropic公司推出的,这家公司由前OpenAI员工创立,自2022年底以来,谷歌已向该公司投资了近4亿美元。
  对此,陈润生认为,目前大模型的学习速度比我们想象中快得多,“这两家公司(OpenAI与Anthropic)你追我赶,说不定再过一段时间,GPT-5出来之后又比Claude强了,它发展那么快,将来人们赶不上。”
  “更麻烦的是,这些大模型公司都在考虑去操纵第三方设备”,陈润生说,“能够去操纵第三方设备是令人担忧的一件事情,如果操纵和安全、国防相关的东西,那就不得了了。”
  陈润生坦言,人类的神经网络结构远比目前的大模型复杂得多,人工智能的发展还有很长的路要走,“现在的(人工智能)神经网络在空间结构模型上应该有革命性的变化,也许那个时候,(AI)真的能够超越人的智力。”

本文来源光明日报,如有侵权请联系删除

END