实现通用类人智能(AGI)一直是人工智能领域的长期目标。智能体作为具备感知、决策和行动能力的人工实体,成为实现该目标的关键组成部分。近年来,大模型凭借其强大的通用能力,为AGI的实现提供了新的可能性。越来越多的研究者开始将大语言模型作为构建智能体的核心基础,并在此方向上取得了显著进展。本报告对基于大语言模型的智能体进行了系统的综述,内容涵盖了智能体的发展历程、通用框架、应用场景以及智能体社会的构建等方面。同时,本报告还总结了该领域未来的发展方向及当前面临的关键问题。
最近,大语言模型展示了类似人类的智能,并在人工智能领域的各类应用中带来了革命性的变革,推动了对大模型驱动的智能体的新兴探索。这些智能体以大模型为核心,通过与环境的交互来解决复杂目标,同时结合任务规划、记忆、工具使用等能力。
本报告深入系统地介绍大模型自主智能体的基础技术及其最新进展,涵盖从单一智能体的基础理论与技术原理,到多智能体之间的分工协作机制;从面向任务的工具学习,到基于多智能体系统的模拟研究,以及其他相关拓展问题等多个维度。本报告不仅介绍了大模型自主智能体与群体智能的核心知识和关键技术,还探讨了该领域面临的主要挑战和潜在的应用场景。
本报告介绍了如何构建一类能接受多模态数据(文字,图像,视频,三维等)输入,并通过与用户,环境等进行交互,不断学习提升自身推理和指令跟随等能力的多模态智能体。本报告重点关注(1)多模态智能体的基本认知架构,如记忆,知识表示等,以及与当下语言模型,多模态模型等的关系;(2)以多模态推理(图像,视频)和开放世界具身交互为例,详细讲解如何构建多模态智能体,并初步展示如何进一步通向通用的智能体。
随着大模型的飞速发展,构建具备环境交互、规划决策和工具操控能力的AI智能体逐渐成为现实。现有研究在系统控制、科学研究、软件编程、群体协作等方面取得了显著进展。然而,这些智能体在为现实生活提供便利的同时,也带来了多样化的安全挑战。本报告将介绍大模型智能体的发展现状,并以图形用户界面(GUI)智能体为例,探讨“用户-模型-环境”三方交互中所面临的安全风险,尤其是来自环境侧的劫持攻击手段。本报告还将结合最新研究,探讨智能体风险的根源及其安全对齐策略。
本报告介绍了生成式智能体,即能够模拟人类行为的计算软件智能体。通过将大语言模型和计算交互式智能体进行融合,报告探讨了能够模拟人类行为的架构和可交互的模式。一方面,报告展示了一个扩展大模型的架构,该架构能够记录历史经验并进行动态整合,以完成智能体的行为规划。另一方面,报告构建了一个包含25个智能体的交互式沙盒环境,并观察到了可信的智能体个体行为与涌现的社会行为。
大模型近年来发展迅速,人工智能进入新的历史发展阶段,当前呈现的态势是大模型作为“灵魂”提供内部核心能力支撑,自主智能体作为“载体”进行外部应用场景赋能。在真实、复杂、动态的环境下,自主智能体很有可能像人类一样具备可进化性,实现持续自我提升,并且其进化速度远远超过人类。虽然垂域大模型在国内外获得了广泛的关注,但其仍然仅限于从数据中自动获取“knowledge”,无法从真实、复杂、动态的诊疗实践中自动获取“expertise”。因此,通过建立拟像对真实、复杂、动态的诊疗环节进行模拟,实现从标注数据向生产数据的跨越,让自主智能体在拟像中不断进化,将有望进一步提升人工智能系统在实际场景的应用落地能力。本报告介绍了基于拟像的可进化智能体在医疗领域的应用系统“Agent Hospital”,并对其未来发展做出展望。
作为一种将人工智能与机器人技术相结合的新型智能系统,具身智能体的记忆和持续学习能力是非常关键的问题。本报告介绍了在这两个方向的一些初步探索,并就未来可以进一步深入研究的问题给出一些见解。