近年来,基于 transformer 和大规模语料训练的大型语言模型(LLM)取得了巨大进展,在自然语言处理各个领域展现出了强大的能力。在此基础上,利用 LLM 来构建智能代理(Intelligent Agent),以期望实现通用人工智能。

LLM-based Agent 的设计通常包含控制端、感知端和行动端。控制端使用 LLM 进行决策;感知端将视觉、听觉等信息编码为文本;行动端则产生不同形式的输出。单个 Agent 可用于日常任务自动化;多个 Agent 协作可实现更复杂目标;Agent 与人协作则弥补了模型的局限性。

当前,LLM-based Agent 在游戏、对话、创作等领域已有应用,但距离真正的通用智能还有很远的距离。面临的关键问题包括:样本效率低、过于依赖语言、缺乏通用泛化能力、不具备真实世界感知能力等。要进入类人智能的三维交互世界,Agent 还需要获得物理环境的感知并作出相应反应的能力。

未来的一些可能的研究方向包括:探索多模态输入对 Agent 的效果;在更复杂的虚拟环境中测试 Agent 的适应能力;设计新的避免灾难性遗忘的持续学习机制;构建代理社会来模拟群体行为;开发代理即服务平台以实现商业化部署等。

尽管 LLM-based Agent 还面临诸多限制,但它为构建通用智能提供了新的思路,也将促进人工智能相关技术的进一步发展。

相关阅读  AI会在2024年迎来指数级爆发式增长

Categorized in: