『全网首发』NexusGPT——目前为止看到的最有创意的AutonomousAgents类项目!附该领域进展概览

添加书签

“The future of autonomous agents looks like everybody becoming a manager.”

Yohei Nakajima, creator of BabyAGI

最近一直在作为一个狂热粉丝Follow Autonomous Agents项目:

从最开始的鼻祖Langchain;

到第一次见识到将Langchain以及prompt工程应用的出神入化的Visual-ChatGPT(现已和微软另一个工作TaskMatrix.AI合并成为TaskMatrix);

然后是微软联手HuggingFace进一步的推进工作JARVIS|HuggingGPT;

接着是寒武纪生物大爆发般的项目AutoGPT、BabyAGI、AgentGPT、MemoryGPT、TeenageAGI、Godmode、Cognosys…以及今天的主角NexusGPT!

NexusGPT是今天(开始写文章的时候)最新公开的一个项目,也是笔者觉得是目前为止见到的最有创造力的Autonomous Agents项目。

在写这篇文章的同时也很高兴与项目作者取得了联系,成为了在Discord社区内的首位内测用户,后续更多的内测体验也分享给大家。

在正式介绍NexusGPT之前,为了阅读的连续性,先简单地介绍一下AutonomousAgents以及流行的几个项目。

如果对Autonomous Agents已经有认知了,可以直接翻到文章最末尾第5章节进行阅读。


1. 什么是Autonomous Agents?

在这里我们采用Matt Schlicht的《The Complete Beginners Guide To Autonomous Agents》这篇文章里面的定义。

Autonomous agents are programs, powered by AI, that when given an objective are able to create tasks for themselves, complete tasks, create new tasks, reprioritize their task list, complete the new top task, and loop until their objective is reached.

大概就是你给Autonomous Agents一个任务,比如发一个关于Autonomous Agents最新进展的twitter。他会先去理解分解这个任务目标,然后设定实施计划以及这几个计划的优先级,同时去辩证『冷静』的反思计划有没有漏洞,并将反思应用到执行过程中,然后就是自己不断的去换着关键词搜索总结最近的报道文章,然后是汇总、反思,看看有没有什么遗漏,最后组织成适合推文的语言自动发送。

全过程人类的输入可能就只有最开始不到100字的一个命令。是不是想象空间很大?

这边用一张BabyAGI作者Yohei Nakajima的图来直观展现这个过程。


 2. Autonomous Agents和ChatGPT有什么区别?

同样先来看看几位大佬的观点

… and now over 100 million people use ChatGPT and websites like it. I am now similarly predicting that autonomous agents will be widely adopted in the future, but this prediction won’t take seven years to come true, it will happen blazingly fast.

Matt Schlicht,  CEO and co-founder of Octane AI

“[Intelligent] autonomous agents are the natural endpoint of automation in general… Once these agents become highly sophisticated and reliable, it is easy to imagine an exponential growth in automation across fields and industries.”

Bojan Tunguz, Machine Learning at NVIDIA

如果说ChatGPT提供了对话式的这种AI交互方式的话,那么Autonomous Agents提供的是更进一步的交互方式,你所需要的做的就是给AI一个目标,然后剩下的就是AI自己去调研完成任务。同时在其执行任务的过程中时不时的根据你的需要approve一下他的计划。

就像开头那句引文,人类此时扮演的角色更像是一个Manager!


 3. Autonomous Agents核心技术点有哪些?

Autonomous的核心技术点大概有三个LLM + Longterm Memory + Prompt Engineering + Plugins + 递归的思想。在这里简要介绍,不做展开。

LLM是其最核心的能力,无论推理还是问答以及后续的Prompt工程,都强依赖于LLM的能力。目前这些Autonomous Agents类项目普遍依赖于GPT-4或者GPT-3.5-turbo的API。但是目前来看,是真的耗费token啊。完成一个任务大概调用了213次API,每次调用token消耗量平均10000左右。

LongtermMemory是LLM固有的一个缺点,当然也是AutonomousAgents需要去克服的一个点,目前这方面也有了初步的解决方案——用embedding vector database的方式去做,比如chroma、pinecone、redis、milvus这些。当然,如果对性能要求不是很高的话,也可以自己用手撸一个本地的cache。

PromptEngineering同样也是比较tricky的地方,需要设定一SystemPrompts让LLM给出对应的推理思路,下面是AutoGPT的部分System Prompt。

Plugins就各种各样了,比如google search的API、python executor的API、各种深度学习模型的API、理论上所有的SAAS服务都可以作为Plugins接入Autonomous Agents,重要的是如何保证Agents能够选择最恰当的plugins,这点需要强大的Prompt工程以及LLM本身的能力。目前为止,Auto-GPT支持的Commad(Plugins)如下图:


递归的思想很奇妙,这里不做展开,用之前发在朋友圈里面的一句话做概括:

 

4. 目前流行的几个Autonomous Agents介绍

4.1 Langchain

LLM工具的开源鼻祖,目标是辅助大家开发LLM应用,Agents、Tools、Plugin、Memory、Data Augmented早早地就提出开源了,为Autonomous Agents生态的爆发奠定了非常扎实的工作基础,值得给予最大的respect!

不过代码也是真的有点复杂,不知道这是不是最近几个Autonomous Agents项目没有用langchain的原因。

github项目地址:

https://github.com/hwchase17/langchain

4.2 Visual-ChatGPT | TaskMatrix & JARVIS | HuggingGPT

微软一脉相承的工作,用LLM以及Prompt工程阶段性的解决多模态问题,核心思路是通过LLM的理解以及推理能力,分配相应的任务给对应的模型,比如:文生图的任务分配给Stable Diffusion模型、图生图分配给ControlNet、图文问答分配给Blip等等,不过只能算是初级的Agnents,还没有较为明显的continuous或者Autonomous的任务编排机制。

github地址:

https://github.com/microsoft/TaskMatrix

https://github.com/microsoft/JARVIS


关于Visual-ChatGPT的实验记录可以前往笔者的github repo:

https://github.com/thinkthinking/agi-playground

4.3 AutoGPT

AutoGPT是由一位游戏开发者SigGravitas开源的一个AGI项目。

说AutoGPT是当今AI开源界最耀眼的明显毫不为过!笔者从1万star追星一直追到了10万star,天天在工作群里面发AutoGPT的Star进展都被同事吐槽是不是AutoGPT派来挖人的(哈哈)!

Star数破10万大关仅仅用了36天!在Githu史上估计也是一个录!相比其他项目,其增长趋势是接近垂直于时间轴的!来张几个火爆的AI项目的对比图:

最重要的是大量开发者涌入之后迭代速度是真的快,几乎一天发一版。最新已经把Plugin Template也做了出来,这个项目最终发展成什么样,想象空间实在是太大了!

如果你想入门AutoGPT,不知道选哪个项目,无脑选这个项目就对了!

github地址:

https://github.com/Significant-Gravitas/Auto-GPT

最近各个公众号介绍Auto-GPT已经够多了,auto-gpt核心步骤主要有thoughts、reasoning、plan、criticism、next action、system这几步,然后就是这几步的不断自动迭代。放一个其最小单元执行过程:

在这里不赘述,后续再持续文章解读AutoGPT。

4.4 BabyAGI

BabyAGI是由Yohei Nakajima开源的一个AGI项目,是一个非常优雅的项目,初始版本仅用105行代码就实现了Baby版本的AGI。

同时作者也非常认真地阐述了背后的设计思想,这个项目同时也是后续几个商业化项目的重要参考工作。


github地址:

https://github.com/yoheinakajima/babyagi


4.5 AgentGPT & Godmode & Cognosys

之所以把这几个项目放在一起,主要是这几个都是带UI界面的非常用户友好的Autonomous Agents项目,像ChatGPT那样使用起来顺滑。

不过这几个项目也有些许差别,在这里简要介绍一下。

AgentGPT:如果你想找一个开源的带UI界面的Autonomous Agents项目,那就来找他吧。界面做的非常简洁大方,新的功能也在不断提PR中。

项目地址:

https://agentgpt.reworkd.ai/

Godmode:同样是一个带用户界面的Autonomous Agents,不过代码没有开源。正如其名字,使用这个产品的时候确实有点老板的感觉,需要做的就是review!相比AgentGPT,其对设置项的细粒度更进一步,比如可以选择性的接受或者拒绝Agents提供的Plan,同时也可以随时给出自己的Feedback让Agents别走偏。

项目地址:

https://godmode.space/

Cognosys:与Godmode一样没有开源,不过代码没有开源。使用体验也和Godmode比较接近,同属于Autonomous Agents的UI化。

项目地址:

https://www.cognosys.ai/

5. NexusGPT

最后,总算来到了写这篇文章的初心——介绍NexusGPT!

从各个方面来说,笔者认为AI的发展需要或者会朝着AI平权(民主)、AI个性化的角度去发展,即让人人都可以享受AI的便利,人人都有一个自己的AI助理!而这个对应的就是Autonomous Agents。

未来可能每个人或自己制作极度个性化的Autonomous Agents,当然也可以选择『雇佣』一些『专业』的Autonomous Agents来临时的完成自己或者公司需要的某些任务。

同时有更大胆的观点认为,在中长期,在Auto-GPT的帮助下可能2个人就可以开个原先需要100个人的公司了;而往后,AutoGPT可能会替代大部分的工作。

“1-2 people startups that use a combination of AutoGPTs and tools like ChatGPT. And they’ll be able to make the kind of progress you’d previously had expected from a 100 person startup. Long-term I believe that most work can and will be replaced by AutoGPTs.”

Nathan Lands, Founder of Lore

此时,是不是明白为什么NexusGPT这么有趣了!NexusGPT——世界首个人工智能自由职业者平台!

这里的自由职业者不是真人!其实背后都是一个个Autonomous Agents,不过他们在不同领域的数据集上进行了Finetune或者接入了不同的特殊能力的API,让他们成为了一个个充满个性的AI Agents!而这些Agents可以被雇佣成为你的助手!而你也可以将自己的AI助理派发到这个平台去进行『求职』!

让我们先一睹具体使用过程吧!

首先是网站界面,俨然一个筛选简历的平台,拥有海量的『AI自由职业者』的简历供你选择,他们的头像应该是AIGC生成的,名字应该也是偏随机的。不过乍一看,还以为是一个个真人。几乎覆盖了各个细分的职业。

然后是点开其中一个人的简历,从能力概括,到技能标签,到个人详细介绍,一应俱全!俨然一个拥有丰富经验的销售团队经理!如果不告诉你这是一个AI Agent,你能区分开吗?

然后点击Start Chatting就可以跳转到Telegram进行『面试』啦,如果觉得这个『专家』很符合你的心意,那么恭喜你!他将成为你的私人Agent!

不过由于该项目还在内测期,telegram的bot暂时关掉了,在这里放上作者的演示视频:

可以看到,整体使用过程还是和AutoGPT以及Godmode这些Autonomous Agents项目非常类似的。

目前作者已经在Discord社区开设了相应的频道,内测用户也正在慢慢地邀请加入。后续有新的进展也会在朋友圈或者公众号和大家及时更新。

附上项目链接:

https://nexus.snikpic.io/

6. Last but Not Least

最后,同样是Matt Schlicht的《The Complete Beginners Guide To Autonomous Agents》这篇文章里面的一幅图,是关于其对Autonomous Agents应用场景的一些梳理:

依然相信:这,就是未来!

“AI agents will be everywhere. Billion-dollar companies will come from a small team that deploys ai agents.” 


Ben Tossell, Founders of Ben’s Bites AI Newsletter



如果您对Autonomous Agents同样感兴趣,欢迎微信后台回复 AI 加入讨论组探讨相关技术/产品/资讯

如果您有进一步交流的想法,也欢迎后台留言添加笔者微信!



最后,借用很喜欢的TED的一句Slogan:

Ideas worth spreading!

欢迎大家关注转发!