ChatGPT的5个致命缺点,与解决方法
添加书签专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!
本文将主要讨论大语言模型的主要问题,以及产生的原因和解决思路。今天的ChatGPT等大语言模型仍然存在认知偏见和错误,需要通过教育和观察来引导其发展,我们也应该合理评估大语言模型的能力和局限性,不过分期望它们能够解决所有问题。
首先我们来看今天的ChatGPT或者说此类大模型仍然存在什么问题:
1. 无法接入互联网
2. 缺乏上下文知识(Context)
3. 知识或事实的缺失
4. 存在可能的偏见
5. 容易被引诱
笔者亲身经历的对话问答,如下图:
6. 其他问题
另外,还有些短期技术依赖的问题,比如ChatGPT与用户单次沟通的容量存在限制,网络接入速度和响应速度缓慢,这些问题大多与后端的计算资源有关,伴随着计算成本的降低,应该可以得到缓解。
在更广的领域内,ChatGPT还存在着法律合规,数据隐私,知识产权,问题解答权限等更深层次的问题。这些显然涉及了一个崭新的领域,但是人类不断地被推到一个一个新的领域,去解决一些人类以前从来没解决的问题,而且是全社会各个专业的人来解决,不只是科技界的事情。
再来听听其他专家的反对意见
人类根据许多从未被记录下来的知识进行操作,例如通过观察或经验获得的社区内的习俗、信仰或实践。熟练的工匠可能对他们的手艺有默契的知识,这些知识从未被记录下来。
“语言建立在我们共同拥有的大量背景知识之上,我们称之为常识,”LeCun 说。他认为计算机需要通过观察来学习以获得这种非语言知识。“他们的聪明程度和准确性是有限度的,因为他们没有现实世界的经验,而这实际上是语言的潜在现实。” “我们学到的大部分内容与语言无关。”另一位深度学习先驱杰夫·辛顿 (Geoff Hinton) 说:“我们学习如何投篮球,让它穿过篮筐。” “我们根本不使用语言来学习。我们从反复试验中学习。”
主要原因来自AI幻觉
一方面,大语言模型中的先验知识都来自于训练语料,用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息,这些错误知识都会被学习,存储在模型参数中,相关研究表明模型生成文本时会优先考虑自身参数化的知识,即学的知识还不够全,不够新;
另一方面,模型训练和推理时的差异,即当大量语言信息被压缩存储后,在复原时,需要补充字和字之间的间距,让文字更加饱满,逻辑更加顺畅,表达更加充分,而同时又让它产生了一定的对事实的捏造和杜撰,即为了回答而刻意回答,为了表达而形成表达;
解决AI幻觉的主要思路
尽管ChatGPT的幻觉可能不是人类幻觉的完美类比,但它们可以提供一些关于人类可能如何产生幻觉以及如何避免它们的见解。以下是一些观察:
不完整或模糊的信息:面对不完整或模糊的信息时,ChatGPT和人类都可能产生幻觉。大脑倾向于填补空白,有时会导致不准确的结论。为了避免这种情况,可以在做出判断或决策之前寻求更多信息或澄清。
确认偏误:与ChatGPT一样,人类容易受到确认偏误的影响,即倾向于偏爱证实预先存在信念的信息。为了尽量减少这种偏见,关键在于考虑替代解释,寻求多样化的观点,并在面对新证据时保持开放的心态,愿意改变自己的观点。
过度概括:ChatGPT可能会根据其接受的训练信息进行过度概括,这在人类中也是一种常见的认知错误。为了减少过度概括的可能性,重要的是考虑情况的具体细节,避免仅依赖过去的经验或刻板印象。
模式识别:ChatGPT和人类都容易检测到模式,即使它们不存在。这可能导致错误的联系和结论。为了避免这种情况,关键在于批判性地评估支持所感知模式的证据,并考虑替代解释。
上下文的影响:信息呈现的上下文对于如何解释它具有重要影响。ChatGPT和人类都可能受到信息框架的影响,导致偏见或不准确的结论。要减轻这种影响,关键在于了解上下文及其可能对自己的认知产生的影响。
总之,尽管ChatGPT的幻觉不是人类幻觉的直接呈现,但它们可以帮助了解人类可能遇到的一些潜在认知偏见和错误。通过认识到这些偏见并采取措施抵消它们,可以降低产生幻觉或得出不准确结论的可能性。
在业界内认为,解决AI幻觉的问题主要依赖于RLHF(Illustrating Reinforcement Learning from Human Feedback),即基于人工反馈的强化学习方法让其不断完善,俗称“炼丹”过程。
OpenAI 的联合创始人、首席科学家Ilya Sutskever,认为通过 RLHF,加上一些AI工具辅助提高 反馈效率,不断给模型“给我事实,不要胡说”的反馈,,最终可以很大程度解决这个问题。核心方法就是通过反馈改变大语言模型的思维习惯。在从人类反馈的强化学习中,我们关心输出的结果。每当输出结果不合适时或输出结果没有意义时,我们就告诉它不要再这样做了,可惜的是输出结果的水平并不在语言模型预训练过程中体现。他很有信心的认为,通过简单地改进这个后续的来自人类反馈的强化学习步骤,我们可以教会它不要幻想。
事实证明,如果RLHF训练不考虑有害性的话,模型的能力甚至会超过专业人员,所以自己“炼丹”开源模型的效果是可以很快上升的。以上问题,在GPT4中已经得到了明显的进步和解决,只要在RLHF可以取得与结果正确的正相关性,就代表这条路在目前看,仍然是正确的,且远没有走完。
如何解决Yann提到的多模态输入问题,ChatGPT获取领域知识以及联网协作的问题,后续再做专题讨论。
最后做个类比总结
就如同我家四岁半的儿子,经常一套一套的大段讲话,看似有逻辑,其实不然。有次他说:“我姥爷为什么唱歌不好听?因为他在北京,唱北京的歌就不好听,如果他在安徽,他唱安徽的歌就会好听”,另外他也会讲他在幼儿园的事情,自己也会添油加醋一番,我也不确定那些事情是准确发生的。
所以ChatGPT对这个世界仍然缺乏认知,也缺少信仰,需要大人在后期的教育中加以引导。这种引导可以看作是RLHF,我们的学校教育也可以看成是至少连续十二年的 RLHF,才能让他成才。
但有时候太多的RLHF ,孩子对父母或学校教育的反馈过度在意,反而会伤害自己的创造力,是的大语言模型缺乏自己的推理能力。或者某种引导方式是有害,是方向错误的,也会把孩子带到相反的方向,训练出一只“怪物”。如果世界上只有这么一个孩子,且只靠OpenAI公司来教育,确实也是危险的。
另外有评估说,现在ChatGPT等于一个9岁的孩子。而我们却急于让9岁的孩子能够陪自己聊哲学问题,反而怪他不够深入,或者急于让他赶紧去企业打工挣钱,解决那些大人们多少年都无法解决的生产问题和协作问题,那也是我们对他的高估。
END
加入AIGC开放社区交流群
添加微信:13331022201 ,备注“职位信息&名字”
管理员审核后加入讨论群