微软开源5级通用AI Agent:浏览网页、查论文,无所不能!

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

微软开源了最新5级架构通用AI Agent——Magentic-One。

Magentic-One的自动化能力非常强,基本上法律、医疗、金融、教育等不同领域的日常工作任务都能轻松完成。例如,通过在线浏览,帮助你自动找到论文中未被引用的新论文,并总结这些论文,然后使用执行器将它们写入到txt文件中。

也可以通过对大量金融数据进行深度分析和评估,为金融机构制定风险管理策略,包括市场波动、企业财务数据,同时能预测潜在的安全风险。

Magentic-One功能展示

Magentic-One是基于多智能体架构,一共有5层级组成:1)Orchestrator,主要负责任务分解、规划、指导其他智能体执行子任务、跟踪整体进度并在需要时采取纠正措施;

2)WebSurfer,通过AI大模型能操作、解析网页浏览器内容,执行特定的任务;3)FileSurfer,基于大模型,可读取多种本地文件并执行预定任务,包括整合、重写等;

4)Coder,同样基于大模型,主要用于编写、分析信息和创建代码;5)ComputerTerminal,主程序控制台,可执行 Coder 的程序并安装新编程库。这5大层级智能体会协同分工完成不同的工作,从而加速对任务的自动解析和执行。

当 Magentic – One 接到一个自动化任务时,首先由Orchestrator将这个复杂的任务分解为多个子任务。例如,分析一个网站的数据,并根据数据编写一份报告,同时要参考本地的一些文档作为辅助,Orchestrator 会明确各个子任务的目标和大致流程。

Orchestrator会根据任务的性质和要求,初步规划出需要哪些智能体参与,以及它们大致的工作顺序。比如在上述例子中,它会确定需要 WebSurfer 去获取网站数据,FileSurfer 去读取本地文档,Coder 来编写报告,ComputerTerminal 则用于运行 Coder 编写的一些数据处理程序等。

接着WebSurfer 会按照 Orchestrator 的要求,找到目标网站,执行搜索、点击链接、与在线元素交互等操作,收集网站上相关的数据。同时FileSurfer 会读取多种本地文件,并从中提取可能对完成任务有用的信息,比如在本地文档中查找与网站数据相关的背景知识、参考标准等内容。

在收集到的网站数据和本地文件信息会被汇总到 Coder 智能体。Coder会通过大模型,利用其编写代码、分析信息和创建新工件的能力,开始对这些数据进行处理。它会编写代码来清洗、整理和分析从 WebSurfer 和 FileSurfer 获取的数据,挖掘其中的关联和价值。

Coder根据任务要求和数据内容,开始创建新的内容。比如在这个编写报告例子中,它会将数据分析的结果以清晰、有条理的方式写入报告中,同时参考从本地文件中获取的辅助信息,确保报告内容的完整性和准确性。

ComputerTerminal则提供控制台功能,能够执行 Coder 编写的程序,并且如果程序需要安装新的编程库来更好地处理数据或者完成其他功能,也可以完成安装操作。

值得一提的是,如果在动态变化的网络和文件系统环境中发生了明显变化,各个智能体也能自主适应。例如,如果网络环境发生变化,影响了 WebSurfer 获取数据,它可以根据自己的能力尝试新的网络连接方式或者数据获取路径。

同样,如果本地文件系统的结构或者文件内容发生变化,FileSurfer 能够及时感知并调整自己的读取和分析策略,将最新的信息传递给其他智能体,确保整个系统能够继续有效地协同工作,最终完成任务。

开源地址:https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

本文素材来源Magentic-One论文,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区