大语言模型自我进化调查

Zhengwei Tao

{}^{12}

, Ting-En Lin

{}^{2}

, Xiancai Chen

{}^{1}

, Hangyu Li

{}^{2}

, Yuchuan Wu

{}^{2}

,
Yongbin Li

{}^{2}

, Zhi Jin

{}^{1\dagger}

, Fei Huang

{}^{2}

, Dacheng Tao

{}^{3}

, Jingren Zhou

{}^{2}

{}^{1}

Key Lab of HCST (PKU), MOE; School of Computer Science, Peking University

{}^{2}

Alibaba Group

{}^{3}

Nanyang Technological University
{tttzw, xiancaich}@stu.pku.edu.cn, zhijin@pku.edu.cn
{ting-en.lte, shengxiu.wyc, shuide.lyb, jingren.zhou}@alibaba-inc.com
dacheng.tao@ntu.edu.sg
Work done while interning at Alibaba Group.Corresponding authors.

摘要

大型语言模型（LLMs）在各个领域和智能代理应用中取得了显著进展。然而，目前从人类或外部模型监督中学习的LLMs成本高，随着任务复杂性和多样性的增加可能面临性能瓶颈。为了解决这个问题，使LLM能够自主获取、完善和学习模型自身生成的经验的自我演化方法正在迅速发展。这种受人类经验学习过程启发的新训练范式为将LLMs扩展到超级智能提供了潜力。在这项工作中，我们提出了LLMs中自我演化方法的综合调查。首先，我们提出了自我演化的概念框架，并将演化过程概述为由四个阶段组成的迭代循环：经验获取、经验完善、更新和评估。其次，我们对LLMs和基于LLM的代理的演化目标进行分类；然后，我们总结了文献，为每个模块提供了分类法和见解。最后，我们指出了现有的挑战，并提出了改进自我演化框架的未来方向，为研究人员提供了关键见解，以加快自我演化LLMs的发展。我们相应的GitHub存储库可在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLM上找到。

大型语言模型自我演变调查

陶正伟 ${}^{12}$ ^†^†致谢：实习期间在阿里巴巴集团完成的工作。, 林廷恩 ${}^{2}$ , 陈贤才 ${}^{1}$ , 李航宇 ${}^{2}$ , 吴宇川 ${}^{2}$ , 李永斌 ${}^{2}$ ^†^†致谢：通讯作者。, 金智 ${}^{1\dagger}$ , 黄菲 ${}^{2}$ , 陶大成 ${}^{3}$ , 周靖仁 ${}^{2}$ ${}^{1}$ 北京大学计算机学院 HCST重点实验室; 阿里巴巴集团 ${}^{2}$ 阿里巴巴集团新加坡南洋理工大学 {tttzw, xiancaich}@stu.pku.edu.cn, zhijin@pku.edu.cn {ting-en.lte, shengxiu.wyc, shuide.lyb, jingren.zhou}@alibaba-inc.com dacheng.tao@ntu.edu.sg

1 介绍

随着人工智能的迅速发展，像GPT-3.5 Ouyang et al. (2022)，GPT-4 Achiam et al. (2023)，Gemini Team et al. (2023)，LLaMA Touvron et al. (2023a, b)和Qwen Bai et al. (2023)这样的大型语言模型（LLMs）标志着语言理解和生成的重大转变。这些模型经历了三个发展阶段，如图1所示：在大型和多样化语料库上进行预训练，以获得对语言和世界知识的普遍理解Devlin et al. (2018); Brown et al. (2020)，然后进行监督微调以引出下游任务的能力Raffel et al. (2020); Chung et al. (2022)。最后，人类偏好对齐训练使LLMs能够以人类行为做出响应Ouyang et al. (2022)。这种连续的训练范式取得了重大突破，使LLMs能够以令人瞩目的零-shot和上下文能力执行各种任务，如问答Tan et al. (2023)，数学推理Collins et al. (2023)，代码生成Liu et al. (2024b)，以及需要与环境互动的任务解决Liu et al. (2023b)。

尽管取得了这些进展，人们期待新一代LLM可以被分配更复杂的任务，比如科学发现Miret and Krishnan (2024)和未来事件预测Schoenegger et al. (2024)。然而，由于现有训练范式中建模、注释和评估的固有困难，当前的LLM在这些复杂任务中遇到挑战Burns et al. (2023)。此外，最近开发的Llama-3模型已经在包含15万亿标记的广泛语料库上进行了训练¹¹1https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct。这是一个巨大的数据量，表明通过增加更多真实世界的数据来显著提高模型性能可能会受到限制。这引起了对LLM自我进化机制的兴趣，类似于人类智能的自然演化，并在游戏中体现为AI的发展，比如从AlphaGoSilver et al. (2016)到AlphaZeroSilver et al. (2017)的转变。AlphaZero的自我对弈方法，不需要标记的数据，展示了LLM超越当前限制、实现超人类表现的路径，而无需进行大量人类监督。

受上述范例的启发，关于LLM自我演化的研究在模型开发的不同阶段迅速增加，例如自我指导Wang et al. (2023b)，自我对弈Tu et al. (2024)，自我改进Huang et al. (2022)和自我训练Gulcehre et al. (2023)。值得注意的是，DeepMind的AMIE系统Tu et al. (2024)在诊断准确性上胜过了初级保健医生，而微软的WizardLM-2²²2https://wizardlm.github.io/WizardLM2/超过了GPT-4的初始版本的性能。这两种模型都是使用具有自主学习能力的自我演化框架开发的，并代表了潜在的LLM训练模式转变。然而，这些方法之间的关系仍不清楚，缺乏系统的组织和分析。

因此，我们首先全面调查了LLMs中的自我演化过程，并建立了它们发展的概念框架。这种自我演化的特点是通过涉及经验获取、经验优化、更新和评估的迭代循环来展现的，如图2所示。在这个循环中，LLM最初通过演化新任务和生成相应的解决方案来获取经验，随后优化这些经验以获得更好的监督信号。在更新模型的内部权重或上下文后，LLM被评估以衡量进展并设定新的目标。

LLM中自我进化的概念在各种研究社区中引起了相当大的兴奋，承诺了一个新时代的模型，能够自适应、学习和自主改进，类似于人类对不断变化的环境和挑战的进化。自我进化的LLM不仅能够超越当前静态的、数据绑定的模型的限制，而且标志着向更加动态、强大和智能的系统的转变。这项调查通过一个结构化的概念框架全面地深化了对自我进化LLM新兴领域的理解。我们追溯了该领域从过去到最新的前沿方法和应用的发展，同时审视了现有的挑战并勾勒了未来的研究方向，为开发自我进化框架和下一代模型的重大进展铺平了道路。

调查分为以下几个部分：首先，我们首先介绍自我进化的概述（§ 2），包括背景和概念框架。我们总结了当前方法的现有演化能力和领域（§ 3）。然后，我们对自我进化过程的不同阶段的最新进展进行了深入分析和讨论，包括经验获取（§ 4），经验完善（§ 5），更新（§ 6），和评估（§ 7）。最后，我们概述了开放的问题和未来的发展方向（§ 8）。

2 概述

在这一部分，我们将首先讨论自我进化的背景，然后介绍提出的概念框架。

2.1 背景

人工智能中的自我进化。人工智能代表了智能代理的高级形式，配备了类似于人类的认知能力和行为。 AI开发者的愿望在于使AI能够利用自我进化的能力，与人类发展特征性的经验学习过程相媲美。 AI中的自我进化概念源自机器学习和进化算法的更广泛领域。最初受自然进化原则的影响，如选择、突变和繁殖，研究人员开发了模拟这些过程以优化复杂问题解决方案的算法。引入遗传算法的具有里程碑意义的论文，标志着AI自我进化能力历史上的基础时刻。神经网络和深度学习的后续发展进一步增强了这种能力，使AI系统能够修改自己的架构并在没有人类干预的情况下改进性能。

人工实体能自我进化吗？从哲学上讲，关于人工实体能否自我进化的问题涉及到自治、意识和代理的问题。一些哲学家认为，AI中真正的自我进化需要某种形式的意识或自我意识，而另一些人认为通过算法进行机械自我改进并不构成真正的进化Chalmers (1997)。这场辩论经常引用像Dennett (1993)这样的思想家的作品，他们探讨了人类意识下的认知过程，并将其与人工系统进行对比。最终，对AI自我进化能力的哲学探究仍然与对“进化”意味着什么以及这些过程纯粹可以是算法的还是必须涉及新兴意识的解释息息相关Searle (1986)。

2.2 概念框架

在自我进化的概念框架中，我们描述了一个动态的迭代过程，反映了人类获取和完善技能和知识的能力。这个框架被封装在图2中，强调了学习和改进的循环性质。过程的每次迭代都专注于特定的进化目标，使模型能够参与相关任务，优化其经验，更新其架构，并在进入下一个周期之前评估其进展。

经验获取

在 $t^{th}$ 迭代中，模型确定了一个演化目标 ${\mathcal{E}}^{t}$ 。在这个目标的指导下，模型着手进行新任务 ${\mathcal{T}}^{t}$ ，生成解决方案 ${\mathcal{Y}}^{t}$ 并从环境 $\mathrm{ENV}$ 中接收反馈 ${\mathcal{F}}^{t}$ 。这个阶段最终导致了新经验的获取 ${({\mathcal{T}}^{t},{\mathcal{Y}}^{t},{\mathcal{F}}^{t})}$ 。

经验细化

在经验获取后，模型会检查和完善这些经验。这涉及丢弃不正确的数据和增强不完美的数据，从而产生精炼的结果 ${(\tilde{{\mathcal{T}}}^{t},\tilde{{\mathcal{Y}}}^{t})}$ 。

更新

利用精细的经验，模型经历了一次更新过程，将 ${(\tilde{{\mathcal{T}}}^{t},\tilde{{\mathcal{Y}}}^{t})}$ 整合到其框架中。这确保了模型保持当前和优化。

评估

循环在评估阶段结束，模型的性能通过对外部环境的评估来进行评估。这一阶段的结果决定了客观 ${\mathcal{E}}^{t+1}$ ，为随后的自我进化迭代奠定了基础。

概念框架概述了LLMs的自我演进，类似于类人的习得，完善和自主学习过程。我们在图3中阐明了我们的分类法。

{forest}

对于树= 生长=东，增长父锚点=西，父锚点=东，子锚点=西， [LLMs的自我进化，根，父锚点=南 [评估（§7），节点_lv1 [定性，节点_lv2， [Yang et al. (2023b) , LLM解释Zheng et al. (2024a) , ChatEvalChan et al. (2023) , 节点_lv3], ] [定量，节点_lv2, [ LLM作为评委Zheng et al. (2024a); Dubois et al. (2024) , 奖励分数Ouyang et al. (2022) , 节点_lv3], ] ] [更新（§6），节点_lv1， [在上下文中，节点_lv2 [工作记忆: 反射Shinn et al. (2023), IMLWang et al. (2024a), 进化代理Li et al. (2024c) , 代理专业Zhang et al. (2024d), ProAgentZhang et al. (2024a) , 节点_lv3], [外部记忆: MoTLi and Qiu (2023), MemoryBankZhong et al. (2024b), TiMLiu et al. (2023a), IMLWang et al. (2024a), TRANYang et al. (2023b), MemGPTPacker et al. (2023) UA ${}^{2}$ Yang et al. (2024d) , ICEQian et al. (2024), AesopAgentWang et al. (2024d) , 节点_lv3], ] [在权重中，节点_lv2 [架构: LoRAHu et al. (2021), ConPETSong et al. (2023), 模型SoupsWortsman et al. (2022), DAIRYu et al. (2023a), UltraFuserDing et al. (2024), EvoLLMAkiba et al. (2024) , 节点_lv3], [正则化: InstuctGPTOuyang et al. (2022), FuseLLMWan et al. (2024) , 弹性重置Noukhovitch et al. (2024), WARMRamé et al. (2024), AMALin et al. (2024) , 节点_lv3], [重播: RFTYuan et al. (2023), ReSTGulcehre et al. (2023); Aksitov et al. (2023) , AMIETu et al. (2024), SOTOPIA- $\pi$ Wang et al. (2024e), LLM2LLMLee et al. (2024), LTCWang et al. (2023a), A ${}^{3}$ TYang et al. (2024c), SSRHuang et al. (2024a), SDFTYang et al. (2024b) , 节点_lv3], ] ] [经验细化（§5），节点_lv1, [更正，节点_lv2, [无批评: STaRZelikman et al. (2022), 自我调试Chen et al. (2023c), IterRefinementChen et al. (2023b), 临床SVGero et al. (2023) , 节点_lv3], [基于批评: Self-RefineMadaan et al. (2023), CAIBai et al. (2022), RCIKim et al. (2023) , SELFLu et al. (2023), CRITICGou et al. (2023), SelfEvolveJiang et al. (2023), ISR-LLMZhou et al. (2023b), 反思Shinn et al. (2024) , 节点_lv3], ] [过滤，节点_lv2, [无度量: 自一致性Wang et al. (2022) , LMSIHuang et al. (2022), 自验证Weng et al. (2023) , CodeTChen et al. (2022) , 节点_lv3] [基于度量: ReST ${}^{EM}$ Singh et al. (2023), AutoActQiao et al. (2024), 自言自语Ulmer et al. (2024), 自指导Wang et al. (2023b) , 节点_lv3], ] ] [经验获取（§4），节点_lv1 , [反馈（§4.3），节点_lv1_5 [环境，节点_lv2, [ SelfEvolveJiang et al. (2023), 自我调试Chen et al. (2023c), 反思Shinn et al. (2023), CRITICGou et al. (2023), RoboCatBousmalis et al. (2023), SinViGXu et al. (2024b), SOTOPIA- $\pi$ Wang et al. (2024e) , 节点_lv3_5], ] [模型，节点_lv2, [ 自奖励Yuan et al. (2024), LSXStammer et al. (2023), DLMALiu et al. (2024a), SIRLCPang et al. (2023), 自对齐Zhang et al. (2024e), CAIBai et al. (2022), 自我调整Madaan et al. (2023) , 节点_lv3_5], ] ] [解决方案（§4.2），节点_lv1_5 [负面，节点_lv2, [扰动: RLCDYang et al. (2023a), DLMALiu et al. (2024a), DittoLu et al. (2024a) , 节点_lv3_5], [对比: 自奖赏Yuan et al. (2024), SPINChen et al. (2024), GRATHChen and Li (2024), 自对比Zhang et al. (2024c), ETOSong et al. (2024), A³TYang et al. (2024c), STEWang et al. (2024b), COTERRORSETTong et al. (2024) , 节点_lv3_5], ] [积极，节点_lv2, [有根据的: 自对齐Sun et al. (2024), SALMONSun et al. (2023), MemoryBankZhong et al. (2024b), TiMLiu et al. (2023a), MoTLi and Qiu (2023), IMLWang et al. (2024a), TRANYang et al. (2023b), MemGPTPacker et al. (2023) , 节点_lv3_5 ], [自我玩耍: 辩论Taubenfeld et al. (2024), 自言自语Ulmer et al. (2024), DittoLu et al. (2024a), SOLIDAskari et al. (2024), SOTOPIA- $\pi$ Wang et al. (2024e) , 节点_lv3_5], [交互式: SelfEvolveJiang et al. (2023), LDBZhong et al. (2024a), ETOSong et al. (2024), A ${}^{3}$ TYang et al. (2024c), AutoActQiao et al. (2024), KnowAgentZhu et al. (2024) , 节点_lv3_5], [基于原理: LMSIHuang et al. (2022), STaRZelikman et al. (2022), A ${}^{3}$ TYang et al. (2024c) , 节点_lv3_5], ] ] [任务（§4.1），节点_lv1_5 [选择性，节点_lv2, [ DIVERSE-EVOLWu et al. (2023), SOFTWang et al. (2024c), 选择性反思调整Li et al. (2024b) V-STaRHosseini et al. (2024) , 节点_lv3_5], ] [无知，节点_lv2, [ 自指导Wang et al. (2023b); Honovich et al. (2022); Roziere et al. (2023), Ada-InstructCui and Wang (2023), Evol-InstructXu et al. (2024a), MetaMathYu et al. (2023b), PromptBreederFernando et al. (2023), 回译Li et al. (2023b), KunZheng et al. (2024b) , 节点_lv3_5], ] [基于知识，节点_lv2, [非结构化: UltraChatDing et al. (2023), SciGLMZhang et al. (2024b), EvITTao et al. (2024a), MEELTao et al. (2024b) , 节点_lv3_5], [结构化: 自对齐Sun et al. (2024), DittoLu et al. (2024a), SOLIDAskari et al. (2024) , 节点_lv3_5], ] ] ]

图3：自进化大型语言模型的分类。

3 演化目标

自我进化的LLM中的进化目标作为预定义的目标，自主地指导它们的发展和完善。就像人类根据需求和欲望设定个人目标一样，这些目标至关重要，因为它们决定了模型如何迭代地自我更新。它们使LLM能够自主地从新数据中学习，优化算法，并适应不断变化的环境，有效地“感知”其需求并根据反馈或自我评估设定自己的目标，以增强功能而无需人类干预。

我们将演化目标定义为结合了演化能力和演化方向。演化能力代表了一种内在和详细的技能。演化方向是演化目标旨在改进的方面。我们将演化目标表述如下：

{\mathcal{E}}^{t}=({\mathcal{A}}^{t},{\mathcal{D}}^{t}),

(1)

其中 ${\mathcal{E}}^{t}$ 是进化目标，由进化能力 ${\mathcal{A}}^{t}$ 和进化方向 ${\mathcal{D}}^{t}$ 组成。以“推理准确性提高”为例，“推理”是进化能力，“准确性提高”是进化方向。

3.1 进化能力

在表1中，我们将当前自我进化研究中的目标进化能力总结和分类为两组：LLMs和LLM代理。

3.1.1 LLM们

这些是支撑广泛下游任务的基本能力。

指示遵循：遵循指示的能力对于有效应用语言模型至关重要。它使这些模型能够在不同任务和领域中满足特定用户需求，并使它们的响应与给定的上下文相一致Xu et al. (2023a)。

推理：LLMs可以自我演变，识别统计模式，基于信息进行逻辑连接和演绎。它们能够演变以更好地进行涉及系统地按逻辑顺序剖析问题的推理。 Cui and Wang (2023)

数学：LLM增强了解决涵盖算术、数学术语、几何和自动定理证明的数学问题的复杂能力Ahn et al. (2024)，以实现自我进化。

编码：方法改进了LLM的编码能力，生成更精确和稳健的程序Singh et al. (2023); Zelikman et al. (2023)。此外，EvoCodeBench Li et al. (2024a) 提供了一个不断更新的演化基准，以防止数据泄漏。

角色扮演：它涉及代理理解并在给定环境中扮演特定角色。这在模型必须适应社会结构或遵循与特定身份或功能相关联的行为集的场景中至关重要Lu et al. (2024a)。

其他：除了上述基本演化目标外，自我演化还可以实现和一系列NLP任务Stammer et al. (2023); Koa et al. (2024); Gulcehre et al. (2023); Zhang et al. (2024b, c)。

3.1.2 基于LLM的代理

所讨论的能力是先进的人工智能代理特有的，用于在数字或物理世界中进行任务解决或模拟。这些能力反映了人类认知功能，使这些代理能够执行复杂任务并在动态环境中有效地进行交互。

规划：它涉及制定战略和为未来行动或目标做准备的能力。具有这种技能的代理可以分析当前状态，预测潜在行动的结果，并创建一系列步骤来实现特定目标。 Qiao et al. (2024)

工具使用：这是利用环境中的物体或工具来执行任务，操纵环境或解决问题的能力Zhu et al. (2024)。

具身控制：它指的是一个代理在一个环境中管理和协调其物理形式的能力。这包括运动、灵巧性和物体的操纵。 Bousmalis et al. (2023)。

交流：这是传达信息和理解其他代理或人类消息的能力。具有高级交流能力的代理可以参与对话，与他人合作，并根据接收到的通信调整他们的行为Ulmer et al. (2024)。

3.2 进化方向

例子包括但不限于演化方向：

提高性能：目标是不断增强模型对各种语言和能力的理解和生成能力。例如，最初用于问答和闲聊的模型可以自主扩展其熟练程度，并发展诊断对话Tu et al. (2024)，社交技能Wang et al. (2024e)和角色扮演Lu et al. (2024a)等能力。

适应反馈：这涉及根据反馈改进模型响应，以更好地与偏好相一致或适应环境 Yang et al. (2023a); Sun et al. (2024)。

知识库的扩展：旨在不断更新模型的知识库，以融入最新的信息和趋势。例如，模型可能会自动将新的科学研究整合到其回答中Wu et al. (2024)。

安全、伦理和减少偏见：目标是识别和减轻模型的响应中的偏见，确保公平和安全。一个有效的策略是纳入指南，如宪法或具体规则，以识别不当或有偏见的响应，并通过模型更新进行纠正Bai et al. (2022); Lu et al. (2024b)。

Method	Acquisition			Refinement $f^{{\mathcal{R}}}$	Updating $f^{{\mathcal{U}}}$	Objective ${\mathcal{E}}$
Method	Task $f^{{\mathcal{T}}}$	Solution $f^{{\mathcal{Y}}}$	Feedback $f^{{\mathcal{F}}}$	Refinement $f^{{\mathcal{R}}}$	Updating $f^{{\mathcal{U}}}$	Objective ${\mathcal{E}}$
Large Language Models
Self-Align Sun et al. (2024)	Context-Based	Pos-G	-	Filtering	In-W	IF
SciGLM Zhang et al. (2024b)	Context-Based	-	-	-	In-W	Other
EvIT Tao et al. (2024a)	Context-Based	-	-	-	In-W	Reasoning
MEEL Tao et al. (2024b)	Context-Based	-	-	-	In-W	Reasoning
UltraChat Ding et al. (2023)	Context-Based	-	-	-	In-W	Role-Play
SOLID Askari et al. (2024)	Context-Based	Pos-S	-	Filtering	In-W	Role-Play
Ditto Lu et al. (2024a)	Context-Based	Pos-S, Neg-P	-	-	In-W	Role-Play
MetaMath Yu et al. (2023b)	Context-Free	Pos-R	-	-	In-W	Math
Self-Rewarding Yuan et al. (2024)	Context-Free	-	Model	-	In-W	IF,Reasoning,Role-Play
Kun Zheng et al. (2024b)	Context-Free	-	-	Filtering	In-W	IF,Reasoning
PromptBreeder Fernando et al. (2023)	Context-Free	-	-	-	In-C	Math, Reasoning
Ada-Instruct Cui and Wang (2023)	Context-Free	-	-	-	In-W	Math, Reasoning, Code
Backtranslation Li et al. (2023b)	Context-Free	-	-	-	In-W	IF
DiverseEvol Wu et al. (2023)	Selective	Pos-I	-	-	In-W	Code
Grath Chen and Li (2024)	Selective	Neg-C	Model	-	In-W	Reasoning
REST ${}^{em}$ Singh et al. (2023)	Selective	-	Model	Filtering	In-W	Math, Code
SOFT Wang et al. (2024c)	Selective	-	-	-	In-W	IF
LSX Stammer et al. (2023)	-	Pos-R	Model	Correcting	In-W	Other
LMSI Huang et al. (2022)	-	Pos-R	-	Filtering	In-W	Math
TRAN Yang et al. (2023b)	-	Pos-G	-	-	In-C	Reasoning
MOT Li and Qiu (2023)	-	Pos-R, Pos-G	-	Filtering	In-C	Math, Reasoning
STaR Zelikman et al. (2022)	-	Pos-R, Neg-C	Model	Correct	In-W	Reasoning
COTERRORSET Tong et al. (2024)	-	Pos-R, Neg-C	-	-	In-W	Math, Reasoning
Self-Debugging Chen et al. (2023c)	-	Pos-I	Env	-	In-C	Code
SelfEvolve Jiang et al. (2023)	-	Pos-I	-	-	In-C	Code
Reflexion Shinn et al. (2024)	-	Pos-I, Pos-G	-	-	In-C	Code, Reasoning
V-STaR Hosseini et al. (2024)	-	Neg-C	Model	Filter	In-W	Math, Code
Self-Contrast Zhang et al. (2024e)	-	Neg-C	Model	-	In-W	Reasoning
SALMON Sun et al. (2023)	-	Neg-C	Model	-	In-W	IF,Reasoning,Role-Play
SPIN Chen et al. (2024)	-	Neg-C	-	-	In-W	IF,Reasoning,Role-Play
RLCD Yang et al. (2023a)	-	Neg-P	Model	-	In-W	IF
DLMA Liu et al. (2024a)	-	Neg-P	Model	-	In-W	IF
SELF Lu et al. (2023)	-	-	Model	Correct	In-W	IF, Math
LLM Agents
AutoAct Qiao et al. (2024)	Context-Based	Pos-I	Env	Filtering	In-W	Planning, Tool
KnowAgent Zhu et al. (2024)	Context-Based	Pos-I, Pos-G	Env	Filtering	In-W	Embodied, Planning, Tool
RoboCat Bousmalis et al. (2023)	Context-Free	Pos-I	Env	-	In-W	Embodied
STE Wang et al. (2024b)	Context-Free	Pos-I, Neg-C	Env	Correct	In-W	Tool
IML Wang et al. (2024a)	-	Pos-R, Pos-G	-	-	In-C	Reasoning
SinViG Xu et al. (2024b)	-	Pos-I	Env	Filtering	In-W	Embodied
ETO Song et al. (2024)	-	Pos-I, Neg-C	Env	Correct	In-W	Tool
A³T Yang et al. (2024c)	-	Pos-I, Neg-C	Env	Correct	In-W	Tool
Debates Taubenfeld et al. (2024)	-	Pos-S	-	-	In-W	Communication
SOTOPIA- $\pi$ Wang et al. (2024e)	-	Pos-S,Pos-G	Env	-	In-W	Communication
Self-Talk Ulmer et al. (2024)	-	Pos-S, Pos-G	Model	Filtering	In-W	Communication
MemGPT Packer et al. (2023)	-	Pos-G	Env	Filtering	In-C	Communication
MemoryBank Zhong et al. (2024b)	-	Pos-G	Env	Filtering	In-C	Communication
ProAgent Zhang et al. (2024a)	-	Pos-G	Env	-	In-C	Embodied
Agent-Pro Zhang et al. (2024d)	-	Pos-G	Env	-	In-C	Planning
AesopAgent Wang et al. (2024d)	-	Pos-G	Env	-	In-C	Planning
ICE Qian et al. (2024)	-	Pos-G	Env	-	In-C	Planning
TiM Liu et al. (2023a)	-	Pos-G	-	-	In-C	Communication
Werewolf Xu et al. (2023b)	-	Pos-G	-	-	In-C	Planning

表1：自我进化方法概述，详细介绍了进化阶段的方法。关键词：Pos（积极），Neg（消极），R（基于原理），I（互动），S（自我对弈），G（基于实地的），C（对比），P（扰动性），Env（环境），In-W（权重内），In-C（上下文内），IF（遵循指示）。对于进化目标，反馈适应为绿色，知识库扩展为蓝色，安全、道德和减少偏见为棕色。提高性能为默认颜色，黑色。

4 经验获取

探索和利用Gupta et al. (2006)是人类和LLM学习的基本策略。其中，探索涉及寻求新的体验以实现目标，类似于LLM自身进化的初始阶段，即经验获取。这一过程对自我进化至关重要，使模型能够自主应对核心挑战，如适应新任务、克服知识限制和增强解决方案的有效性。此外，经验是一个全面的构建，不仅包括遇到的任务Dewey (1938)，还包括为解决这些任务开发的解决方案Schön (2017)，以及作为任务表现结果而收到的反馈Boud et al. (2013)。

受此启发，我们将经验获取分为三个部分：任务演化、解决方案演化和获取反馈。在任务演化中，LLMs策划并演化与演化目标一致的新任务。对于解决方案演化，LLMs制定并实施策略来完成这些任务。最后，LLMs可以选择性地从与环境互动中收集反馈以进行进一步改进。

4.1 任务演变

为了获得新的经验，模型首先根据当前迭代中的演化目标 ${\mathcal{E}}^{t}$ 来演化新任务。任务演化是引擎中启动整个演化过程的关键步骤。形式上，我们将任务演化表示为：

{\mathcal{T}}^{t}=f^{{\mathcal{T}}}({\mathcal{E}}^{t},\mathrm{M}^{t}),

(2)

其中 $f^{{\mathcal{T}}}$ 是任务演化函数。 ${\mathcal{E}}^{t}$ 、 $M^{t}$ 和 ${\mathcal{T}}^{t}$ 分别表示演化目标、模型和迭代 $t$ 时演化的任务。我们将现有的关于任务演化方法 $f^{{\mathcal{T}}}$ 的研究总结和归类为三组：基于知识、无知识和选择性。我们将在以下部分详细介绍每种类型，并在图4中展示概念。

基于知识

目标 ${\mathcal{E}}^{t}$ 可能与外部知识相关联，以便在当前LLMs中并非固有的知识中发展。明确地从知识中汲取丰富了任务和演化目标之间的相关性。它还确保了任务中相关事实的有效性。我们深入研究基于知识的方法，试图在外部信息的帮助下发展新的任务。

第一种知识是结构化的。结构化知识信息密集且组织良好。 Self-Align Sun et al. (2024) 策划了涵盖20个科学主题的主题引导任务，例如科学和法律专业知识。除了主题知识外，DITTO Lu et al. (2024a) 还包括来自Wikidata和Wikipedia的角色知识。该知识包括属性、概况和简洁的角色细节，用于角色扮演对话。 SOLID Askari et al. (2024) 生成结构化的实体知识作为对话的开端。

第二组任务包括从非结构化上下文中发展而来的任务。非结构化上下文易于获取，但知识稀疏。 UltraChat Ding et al. (2023) 收集了基于30个元概念的20种文本材料的非结构化知识，以构建对话任务。 SciGLM Zhang et al. (2024b) 从多样化科学学科的文本中提出问题，涵盖丰富的科学知识。 EvIT Tao et al. (2024a) 基于从无监督语料库中挖掘的大规模非结构化事件推理任务。同样，MEEL Tao et al. (2024b) 在图像和文本中发展多模态事件，以构建MM事件推理任务。

Knowledge-Free 知识无关

与先前需要大量人力劳动收集外部知识的方法不同，无知识方法独立运行，使用不断发展的对象 ${\mathcal{E}}^{t}$ 和模型本身。这些高效方法可以生成更多样化的任务，而无需额外的知识限制。

首先，LLMs可以根据 ${\mathcal{E}}^{t}$ 自行提示自己生成新任务。 Self-Instruct Wang et al. (2023b); Honovich et al. (2022); Roziere et al. (2023)是一种典型的无知识任务演化方法。这些方法基于演化目标自动生成各种新任务指令。 Ada-Instruct Cui and Wang (2023)进一步提出了一种自适应任务指令生成策略，对开源LLMs进行微调，以生成用于代码完成和数学推理的冗长而复杂的任务指令。

其次，扩展和增强原始任务可以提高指示的质量。 WizardLM Xu et al. (2023a)提出了Evol-Instruct，它通过深度和广度的演变进化指示跟随的任务，并在代码生成中进一步扩展。 MetaMath Yu et al. (2023b)以多种方式重写问题，包括改述、自我验证和FOBAR。它演变出一个新的MetaMathQA数据集，用于微调LLMs以改进数学任务解决。 Promptbreeder Fernando et al. (2023)通过突变提示演变种子任务。它通过超级变异提示进一步演变变异提示，以增加任务多样性。

第三，从纯文本中提取任务是另一种方式。反向翻译Li et al. (2023b)从未标记的数据中提取自包含的部分，并将其视为任务的答案。同样，KunZheng et al. (2024b)提出了一种利用来自未标记数据的指示进行反向翻译的任务自进化算法。

选择性

与任务生成相反，我们可以从大规模现有任务开始。在每次迭代中，LLMs可以选择展现出与当前不断发展的目标 $\mathcal{E}^{t}$ 最高相关性的任务，而无需额外生成。这种方法避免了对新任务的复杂策划，简化了进化过程Zhou et al. (2024); Li et al. (2023a); Chen et al. (2023a)。

一个简单的任务选择方法是从任务池中随机抽样任务，如REST Gulcehre et al. (2023)，REST ${}^{em}$ Singh et al. (2023)和GRATH Chen and Li (2024)。与随机选择不同，DIVERSE-EVOL Wu et al. (2023)引入了一种数据抽样技术，模型基于嵌入空间中的独特性选择新数据点，确保所选子集的多样性增强。然后，SOFT Wang et al. (2024c)分割初始训练集。每次迭代选择分割集的一个块作为演化任务。

Li et al. (2024b)提出了选择性反射调整，并通过计算新颖的度量来选择任务子集，以确定答案与问题的相关程度。 V-STaR Hosseini et al. (2024)选择上一轮的正确解决方案，并将它们的任务指令添加到下一轮的任务集中。

4.2 解决方案演变

在获得进化任务后，LLMs解决任务以获取相应的解决方案。最常见的策略是根据任务表述直接生成解决方案 Zelikman et al. (2022); Gulcehre et al. (2023); Singh et al. (2023); Zheng et al. (2024b); Yuan et al. (2024)。然而，这种直接的方法可能会得到与进化目标无关的解决方案，导致次优的进化 Hare (2019)。因此，解决方案的演化使用不同的策略来解决任务，并通过确保解决方案不仅仅是生成的，而且也是相关和信息丰富的来增强LLM的能力。在本节中，我们全面调查这些策略，并在图 5中加以说明。我们首先将解决方案演化如下进行阐述：

{\mathcal{Y}}^{t}=f^{{\mathcal{Y}}}({\mathcal{T}}^{t},{\mathcal{E}}^{t},% \mathrm{M}^{t}),

(3)

其中 $f^{{\mathcal{Y}}}$ 是模型接近演化目标的策略。

我们然后根据解决方案的正确性将这些方法分为积极和消极两种。积极方法介绍了获取正确和理想解决方案的各种方法。相反，消极方法引出并收集不受欢迎的解决方案，包括不忠实或错误对齐的模型行为，然后用于偏好对齐。我们将在接下来的章节中详细阐述每种类型的细节。

4.2.1 积极

当前的研究探索了超越基本推理的多种方法，以获得与进化目标一致的正确解决方案。我们将任务解决过程划分为四种类型：基于原理、交互式、自我对弈和基于基础的。

基于原因

该模型在解决任务时融入了对逐步发展目标的合理解释，并能够通过利用这些合理解释进行自我演变。这些方法使模型能够明确承认发展目标，并朝着这个方向完成任务。 Wei et al. (2022); Yao et al. (2024); Besta et al. (2024); Yao et al. (2022)。

Huang et al. (2022)提出了一种方法，其中LLM使用为未标记的问题生成的“高置信度”理性增强答案进行自我演变。同样，STaR Zelikman et al. (2022)在解决任务时生成理性。如果答案错误，它进一步纠正理性和答案。然后，它将答案和理性作为经验来微调模型。类似地，LSX Stammer et al. (2023)提出了生成答案解释的新范式，将学习模块执行基本任务和评估学习者提供的解释质量的批评模块之间进行迭代循环。 Song et al. (2024); Yang et al. (2024c)在解决任务时以ReAct Yao et al. (2022)的风格获得了理性。这些理性在接下来的步骤中进一步用于训练代理。

交互式

模型可以与环境互动，以增强进化过程。这些方法可以获取有价值的环境反馈，以指导自我进化方向。

SelfEvolve和LDB Jiang et al. (2023); Zhong et al. (2024a) 通过自我进化提高了代码生成能力。它们允许模型生成代码并通过在解释器上运行代码获得反馈。作为另一个环境，Song et al. (2024); Yang et al. (2024c) 在具体场景中相互作用并获得反馈。它们学会根据当前状态采取适当的行动。对于代理能力，AutoAct Qiao et al. (2024) 从零开始引入了自我规划，专注于内在的自学习过程。在这个过程中，代理通过与环境反馈的递归规划迭代来增强他们的能力。在AutoAct之后，Zhu et al. (2024) 通过整合自我进化和外部行动知识库进一步增强了代理训练。这种方法通过环境驱动的纠正反馈循环引导行动生成并增强规划能力。

自我对弈

这是一个模型通过与自身的副本对战来学习进化的情况。自我对弈是一种强大的进化方法，因为它使系统能够在闭环中与自身进行交流以获得反馈。在模型可以模拟各种角色的环境中，比如多人游戏，这种方法特别有效。与交互式方法相比，自我对弈是一种有效的策略，可以在没有环境的情况下获得反馈。

Taubenfeld et al. (2024)调查LLMs模拟辩论中的系统偏见。与辩论相反，Ulmer et al. (2024)让LLMs遵循生成的原则进行对话。另一种通过角色扮演进行对话。 Lu et al. (2024a)提出自我模拟角色扮演对话。该过程涉及指导LLM以角色简介，并调整其回答以保持与角色知识和风格的一致性。同样，Askari et al. (2024)提出SOLID来生成大规模意图感知的角色扮演对话。这种自我玩耍的方式利用了LLMs的广泛知识，构建了信息丰富的交流，简化了对话生成过程。 Wang et al. (2024e)引入了一种新颖的方法，每个LLM都遵循一个角色，并与其他人沟通以实现他们的目标。

基础的

为了达到不断发展的目标并减少探索空间，模型可以建立在现有规则Sun et al. (2024)和以往经验的基础上，以在解决任务时提供进一步明确的指导。

LLM可以通过基于预定义规则和原则进行有效地生成理想解决方案。例如，Self-Align Sun et al. (2024) 通过具有原则驱动的约束条件生成自我进化的问题，以指导任务解决过程。 SALMON Sun et al. (2023) 设计了一组结合原则，要求模型在解决任务时遵循这些原则。 Self-Talk Ulmer et al. (2024) 确保LLM根据预设的代理人角色生成与工作流程对齐的对话。他们根据GPT-4事先生成工作流程。

除了预定义的规则，基于先前经验可以改进解决方案。 MemoryBank Zhong et al. (2024b) 和 TiM Liu et al. (2023a) 通过整合先前的问题-答案记录来回答当前问题。与以往的解决方案历史不同，MoT Li and Qiu (2023)、IML Wang et al. (2024a) 和 TRAN Yang et al. (2023b) 结合了从历史中诱导出的规则来回答新问题。 MemGPT Packer et al. (2023) 结合了这些优点，检索先前的问题、解决方案、诱发事件和用户画像知识。

4.2.2 负面

除了获取积极解决方案外，最近的研究表明LLMs也可以从负面解决方案中获益，以实现自我改进Yang et al. (2023b)。这种策略类似于人类学习技能时的反复试验。本节总结了获取负面解决方案的典型方法，以帮助自我进化。

对比性

一个广泛使用的方法组是收集一个任务的多个解决方案，然后对比正面和负面的解决方案以获得改进。

自我奖励，SPIN Yuan et al. (2024); Chen et al. (2024) 通过比较高分和低分的答案来更新模型。类似地，GRATH Chen and Li (2024) 生成正确和不正确的答案。然后通过比较这两个答案来训练模型。自我对比 Zhang et al. (2024c) 对比差异，并将这些差异总结成一个清单，可以用来重新检查和消除差异。在ETO Song et al. (2024) 中，模型与体验环境互动来完成任务，并从失败的解决方案中进行优化。 A³T Yang et al. (2024c) 通过在每个行动后添加理由来改进ETO以解决任务。 STE Wang et al. (2024b) 实施试错法，模型使用不熟悉的工具解决任务。它通过分析失败的尝试来学习，以改善未来任务中的问题解决策略。最近，COTERRORSET Tong et al. (2024) 获得了PALM-2生成的不正确解决方案，并提出了错误调整，这需要模型避免犯错。

Perturbative

与对比相比，扰动方法试图故意添加扰动以获得负解。模型可以后来学会避免生成这些负答案。添加扰动以获得负解比对比方法更可控。

一些方法增加扰动以生成有害解决方案Yang et al. (2023a); Liu et al. (2024a)。给定一个任务，RLCDYang et al. (2023a)会策划正面和负面指示，并生成正面和负面解决方案。 DLMALiu et al. (2024a)收集正面和负面指导提示，随后产生相应的正面和负面解决方案。

与有害扰动不同，引入负面情境是另一种方式。Ditto Lu et al. (2024a)添加负面人物角色以生成不正确的对话。然后模型从负面对话中学习，以进化人物对话能力。

4.3 反馈

人类学习技能时，反馈在展示解决方案的正确性方面起着至关重要的作用。这些关键信息使人类能够反思，然后更新他们的技能。与这个过程类似，LLMs应在自我演变周期中在任务解决过程中或之后获得反馈。我们将这个过程正式化如下：

{\mathcal{F}}^{t}=f^{{\mathcal{F}}}({\mathcal{T}}^{t},{\mathcal{Y}}^{t},{% \mathcal{E}}^{t},\mathrm{M}^{t},\mathrm{ENV}),

(4)

其中 $f^{{\mathcal{F}}}$ 是获取反馈的方法。

在这部分中，我们总结了两种类型的反馈。模型反馈是指收集LLM自身所评价的评论或分数。此外，环境表示直接来自外部环境的反馈。我们在图6中说明了这些概念。

4.3.1 模型

当前研究表明LLMs可以很好地扮演评论家Zheng et al. (2024a)。在自我演变的循环中，模型对自身进行评判，以获得解决方案的反馈。

一种反馈类型是指示正确性的分数。 Self-Reward Yuan et al. (2024)，LSX Stammer et al. (2023)和DLMA Liu et al. (2024a)通过LLM作为评判者输出自己的解决方案的评分。与此类似，SIRLC Pang et al. (2023)利用LLM的自我评估结果作为进一步强化学习的奖励。 Self-Alignment Zhang et al. (2024e)利用LLM的自我评估能力生成其输出的事实准确性的置信度分数。

另一种类型提供了文本描述，提供多维信息。为了通过监督学习改变响应的分布，CAI Bai et al. (2022) 要求模型根据宪法中的原则对其响应进行批判。与监督学习和强化学习方法相比，Self-Refine Madaan et al. (2023)允许模型以少量方式自动生成自然语言反馈。

4.3.2 环境

另一种形式的反馈来自环境，在解决方案可以直接评估的任务中很常见。这种反馈是精确和详细的，可以为模型更新提供足够的信息。它们可能来自代码解释器Jiang et al. (2023); Chen et al. (2023c); Shinn et al. (2024)、工具执行Qiao et al. (2024); Gou et al. (2023)、具体环境Bousmalis et al. (2023); Xu et al. (2024b); Zhou et al. (2023b)和其他LLM或代理Wang et al. (2024e); Taubenfeld et al. (2024); Ulmer et al. (2024)。

对于代码生成，Self-Debugging Chen et al. (2023c) 利用测试用例的执行结果作为反馈的一部分，而SelfEvolve Jiang et al. (2023) 则从解释器接收错误消息。类似地，Reflexion Shinn et al. (2023) 也从代码解释器获得运行时反馈。然后进一步反映以生成想法。这个运行时反馈包含了可以指出改进代码生成的关键信息的追溯信息。

最近，方法赋予LLM和代理工具使用能力。执行工具导致反馈Gou et al. (2023); Qiao et al. (2024); Song et al. (2024); Yang et al. (2024c); Wang et al. (2024b)。

RoboCat Bousmalis et al. (2023) 和 SinViG Xu et al. (2024b) 在机器人实体环境中行动。这种类型的反馈精确而有力，可以指导自我进化。

通信反馈在基于LLM的多智能体系统中是常见且有效的。智能体可以相互纠正和支持，实现共同进化Wang et al. (2024e); Taubenfeld et al. (2024); Ulmer et al. (2024)。

5 经验细化

在经验获取和自我演化更新之前，LLM可能通过经验的精炼提高其输出的质量和可靠性。它帮助LLM适应新的信息和环境，而不依赖外部资源，在动态环境中提供更可靠和有效的帮助。这一过程可以表述如下：

\tilde{{\mathcal{T}}}^{t},\tilde{{\mathcal{Y}}}^{t}=f^{{\mathcal{R}}}({% \mathcal{T}}^{t},{\mathcal{Y}}^{t},{\mathcal{F}}^{t},{\mathcal{E}}^{t},\mathrm% {M}^{t}),

(5)

其中 $f^{{\mathcal{R}}}$ 是经验改进的方法， $\tilde{{\mathcal{T}}}^{t},\tilde{{\mathcal{Y}}}^{t}$ 是改进的任务和解决方案。我们将这些方法分类为两类：过滤和纠正。

5.1 过滤

自我进化中的改进涉及两种主要的过滤策略：基于度量和无度量。前者使用外部度量来评估和过滤输出，而后者不依赖于这些度量。这确保只有最可靠和高质量的数据被用于进一步更新。

5.1.1 基于度量的

通过依赖反馈和预定义的标准，基于度量的过滤提高了输出的质量Singh et al. (2023); Qiao et al. (2024); Ulmer et al. (2024); Wang et al. (2023b)，确保通过每一次精炼迭代逐步增强LLM的能力。

例如，ReST ${}^{EM}$ Singh et al. (2023) 将奖励函数纳入当前策略采样的数据集中，该函数基于生成样本的正确性提供二元奖励，而不是在ReSTGulcehre et al. (2023)中基于人类偏好训练的学习奖励模型。AutoActQiao et al. (2024) 利用F1分数和准确度作为合成轨迹的奖励，并收集具有完全正确答案的轨迹用于进一步训练。Self-TalkUlmer et al. (2024) 测量完成子目标的数量来过滤生成的对话，确保只有高质量的数据用于训练。为了鼓励源指令的多样性，Self-InstructWang et al. (2023b) 在将其添加到任务池之前，使用ROUGE-L相似度和启发式自动过滤低质量或重复的指令。

过滤标准或度量标准对于维护生成输出的质量和可靠性至关重要，从而确保模型能力的持续改进。

5.1.2 无度量

一些方法寻求超出外部指标的过滤策略，使过程更加灵活和适应性强。无度量过滤通常涉及对输出进行采样，并根据内部一致性度量或其他模型固有标准进行评估 Huang et al. (2022); Weng et al. (2023); Chen et al. (2022)。自一致性过滤 Wang et al. (2022) 基于在多个生成的推理路径上的最终答案的一致性，更高的一致性表示更高的可靠性。 LMSI Huang et al. (2022) 利用CoT提示加自一致性来生成高可信度的自训练数据。

设计准确反映输出质量的内部一致性度量可能具有挑战性。自我验证Weng et al. (2023)允许模型选择具有最高可解释验证分数的候选答案，该分数通过评估预测值和原始条件值之间的一致性来计算。对于代码生成任务，CodeTChen et al. (2022)考虑到输出与生成的测试用例的一致性以及输出与其他代码样本的一致性。

这些方法强调语言模型根据内部一致性评估和过滤其输出的能力，展示了在没有外部指标直接干预的情况下自我进化的重要一步。

5.2 纠正

最近自我演进的进展突显了迭代自我校正的重要性，这使得模型能够改进它们的经验。本节将使用的方法分为两类：基于批评和无批评校正。批评通常作为强烈的提示，包括感知错误或次优输出背后的原理，引导模型朝着改进的迭代方向发展。

5.2.1 基于批评的

这些方法依赖于额外的评判过程来得出对经验的批评。然后，根据批评对经验进行改进。通过利用自动生成的Madaan et al. (2023); Bai et al. (2022); Shinn et al. (2023); Lu et al. (2023)或环境交互生成的批评Gou et al. (2023); Jiang et al. (2023); Zhou et al. (2023b)，模型受益于细致纠正的详细反馈。

LLM已经证明了他们在输出中识别错误的能力。 Self-Refine Madaan et al. (2023)引入了一个迭代过程，在这个过程中，模型在没有额外训练的情况下根据可行的自我反馈完善其初始输出。为了从纠正中发展，CAI Bai et al. (2022)在监督学习阶段生成对其输出的批评和修订，从而显著改善了初始模型。应用于自动化计算机任务的代理，RCI Kim et al. (2023)根据发现输出中的错误改进其先前的输出。

由于较弱的模型可能会在自我批评过程中遇到困难，因此有几种方法可以使模型使用外部工具提供的批评来纠正输出。CRITIC Gou et al. (2023) 允许LLMs根据与一般领域工具互动期间获得的批评来修订输出。SelfEvolve Jiang et al. (2023) 促使LLM根据解释器抛出的错误信息来完善答案代码。ISR-LLM Zhou et al. (2023b) 在迭代自我完善过程中帮助LLM规划者找到修订后的行动计划。

该方法的主要优势在于其处理和对详细反馈做出反应的能力，可能导致更有针对性和微妙的修正。

5.2.2 无批评

与基于批评的方法相反，无批评的方法直接校正经验，利用客观信息Zelikman et al. (2022); Chen et al. (2023c, b); Gero et al. (2023)。这些方法的优势在于独立于批评提供的微妙反馈，允许严格遵守事实准确性或特定指导方针的校正，而不会受到批评可能引入的偏见的影响。

一组无批评的方法修改了关于任务是否被正确解决的信号的经验。自学习推理器（STaR）Zelikman et al. (2022)提出了一种迭代生成理由来回答问题的技术。如果答案不正确，模型将再次提示正确答案，以生成更明智的理由。自我调试Chen et al. (2023c)使模型能够通过调查单元测试的执行结果并自行解释代码来执行调试步骤。

不同于依赖于任务解决信号，解决过程中产生的其他信息可以被利用。IterRefinement Chen et al. (2023b) 依赖一系列精炼的提示，鼓励模型重新考虑和改进其先前的输出，而不受任何直接批评的影响。对于信息提取任务，Clinical SV Gero et al. (2023) 将每个元素都基于输入中的证据，并使用提供的证据修剪不准确的元素。

这些无批评的方法简化了纠正机制，使得实施更容易，调整更快。

6 更新

在经验的完善之后，我们进入了利用完善的经验来提高模型性能的关键更新阶段。我们将更新形式化如下：

\mathrm{M}^{t+1}=f^{{\mathcal{U}}}(\tilde{{\mathcal{T}}}^{t},\tilde{{\mathcal{% Y}}}^{t},{\mathcal{E}}^{t},\mathrm{M}^{t}),

(6)

其中 $f^{{\mathcal{U}}}$ 是更新函数。这些更新方法通过适应新经验并在变化的环境中持续改进性能，保持模型的有效性并在迭代训练过程中提高性能。

我们将这些方法分为重量内学习，涉及模型权重的更新，和上下文内学习，涉及外部或工作内存的更新。

6.1 内部权重

经典的训练范式在更新LLM的重量方面包括连续预训练Brown et al. (2020); Roziere et al. (2023)，监督微调Longpre et al. (2023)和偏好对齐Ouyang et al. (2022); Touvron et al. (2023a)。然而，在自我演变的迭代训练过程中，核心挑战在于实现整体改进和防止灾难性遗忘，这需要在保留原始技能的同时，细化或获取新的能力。对这一挑战的解决方案可以分为三种主要策略：基于重放的、基于正则化的和基于合并的方法。

6.1.1 基于重播的

重新播放的方法重新引入以保留旧知识。其中一种是经验重放，它混合原始和新的训练数据以更新LLMs Roziere et al. (2023); Yang et al. (2024c); Zheng et al. (2023); Lee et al. (2024); Wang et al. (2023a)。例如，拒绝抽样微调（RFT）Yuan et al. (2023)和强化自我训练（ReST）Gulcehre et al. (2023); Aksitov et al. (2023)方法通过将种子训练数据与模型自身生成的过滤新输出混合来迭代地更新大型语言模型。 AMIE Tu et al. (2024) 利用自我对弈模拟学习环境进行迭代改进，并通过内外自我对弈循环将生成的对话与监督微调数据混合。 SOTOPIA- $\pi$ Wang et al. (2024e) 利用来自专家模型的行为克隆和自动生成的社交互动轨迹来加强积极行为。

另一个是生成式重放，它采用自生成的合成数据作为知识，以减轻灾难性遗忘。例如，自生成排练（SSR）Huang et al. (2024a) 生成用于排练的合成训练实例，使模型能够保持其能力，而不依赖于先前训练阶段的真实数据。自蒸馏微调（SDFT）Yang et al. (2024b) 从模型本身生成蒸馏数据集，以弥合任务数据集与LLM原始分布之间的分布差距，以减轻灾难性遗忘。

6.1.2 基于正则化

基于正则化的方法限制模型的更新，以防止与原始行为有显著偏差，例如基于函数和权重的正则化。基于函数的正则化专注于修改模型在训练期间优化的损失函数。例如，InstuctGPT使用从初始策略模型的输出概率到更新后的策略模型的每个标记的KL散度惩罚。FuseLLM采用类似知识蒸馏的技术，利用从源LLM生成的概率分布，将集体知识传递到目标LLM。

基于权重的正则化Kirkpatrick et al. (2017)在训练过程中直接针对模型的权重。诸如Elastic ResetNoukhovitch et al. (2024)之类的技术通过定期将在线模型重置为先前状态的指数移动平均值来抵消RLHF中的对齐漂移。此外，Ramé et al. (2024)引入了WARM，通过权重平均化结合多个奖励模型来解决奖励欺骗和不对齐问题。此外，AMALin et al. (2024)自适应地平均模型权重，以优化奖励最大化和遗忘缓解之间的权衡。

6.1.3 基于架构

基于架构的方法明确利用额外的参数或模型进行更新，包括基于分解和合并的方法。基于分解的方法将大型神经网络参数分离成通用和任务特定的组件，并仅更新任务特定的参数以减少遗忘。LoRA Hu et al. (2021); Dettmers et al. (2024) 注入可训练的低秩矩阵，显著减少可训练参数的数量，同时在各种任务中保持或提高模型性能。后来，这一范式被GPT4tools Yang et al. (2024a)、OpenAGI Ge et al. (2024)和Dromedary Sun et al. (2024)采用。动态ConPET Song et al. (2023)将预选和预测与任务特定的LoRA模块结合起来，以防止遗忘，确保LLMs对新任务的可伸缩和有效适应。

合并型方法，另一方面，涉及将多个模型或层合并以实现一般改进，包括但不限于将多个通用和专门模型权重合并为单个模型Wortsman et al. (2022); Ilharco et al. (2022); Yu et al. (2023a); Yadav et al. (2024)，通过专家混合方法Ding et al. (2024)甚至层次合并和缩放，如EvoLLMAkiba et al. (2024)。

6.2 上下文内

除了直接更新模型参数外，另一种方法是利用LLM的上下文能力来从经验中学习，从而实现快速自适应更新而无需昂贵的训练成本。这些方法可以分为更新外部和工作内存。

Method	Content	Operation
MoT Li and Qiu (2023)	Experience	Insert
TRAN Yang et al. (2023b)	Rationale	Insert, Reflect
MemoryBank Zhong et al. (2024b)	Experience, Rationale	Insert, Reflect, Forget
MemGPT Packer et al. (2023)	Experience	Insert, Forget
TiM Liu et al. (2023a)	Rationale	Insert
IML Wang et al. (2024a)	Rationale	Insert, Reflect
ICE Qian et al. (2024)	Rationale	Insert, Reflect
AesopAgent Wang et al. (2024d)	Experience, Rationale	Insert, Reflect

表2：更新外部存储器的内容和操作。

外部内存

该方法利用外部模块来收集、更新和检索过去的经验和知识，使模型能够访问丰富的见解，并在不更新模型参数的情况下取得更好的结果。外部存储器机制在AI Agent系统中很常见Xu et al. (2023b); Qian et al. (2024); Wang et al. (2024d)。本节详细介绍了更新外部存储器的最新方法，重点介绍了记忆内容和更新操作的方面，并总结在表2中。

内容：外部记忆主要存储两种类型的内容：过去的经验和反思的理性，每种都有不同的目的。例如，过去的经验提供了宝贵的历史背景，成为实现改善结果的引导力。 MoT Li and Qiu (2023) 存档筛选后的问题-答案对，以构建有益的记忆库。此外，MemGPT Packer et al. (2023) 中的FIFO队列机制维护了一系列消息的滚动历史，封装了代理和用户之间的交互，系统通知，以及函数调用的输入和输出。

另一方面，反思性的原理提供了简明的解释，比如支持决策的规则，以及从经验中推断出的规则和有关错误的信息，以减少未来的错误。相应地，TiMLiu et al. (2023a)保留了归纳推理，即阐明实体之间关系的文本。此外，IMLWang et al. (2024a)和ICEQian et al. (2024)存储了一系列轨迹推导出的全面注释和规则，展示了记忆系统可以容纳的广泛内容类型。

MemoryBank Zhong et al. (2024b)和AesopAgent Wang et al. (2024d)建立了经验和反思知识存储，这是两种记忆的整合。

更新操作：我们将操作分类为插入、反思和遗忘。最常见的操作是插入，方法是将文本内容插入内存进行存储Li and Qiu (2023); Yang et al. (2023b); Zhong et al. (2024b); Packer et al. (2023); Liu et al. (2023a); Wang et al. (2024a)。另一个操作是反思，这是为了思考和总结以前的经验，将规则和知识概念化以供将来使用Yang et al. (2023b); Zhong et al. (2024b); Wang et al. (2024a); Qian et al. (2024)。最后，由于内存存储空间有限，遗忘内容对于保持内存高效和内容有效性至关重要。 MemGPTPacker et al. (2023)采用FIFO队列来遗忘内容。 MemoryBankZhong et al. (2024b)在每个项目的插入时间上建立了遗忘曲线。

工作记忆

这些方法利用过去的经验通过更新内部记忆流、状态或信念（称为工作记忆），通常以口头提示的形式，来发展代理的能力。 Reflexion Shinn et al. (2023) 引入了口头强化学习，用于决策改进，而无需传统的模型更新。同样，IML Wang et al. (2024a) 使基于LLM的代理能够自主学习和适应其环境，通过直接在工作记忆中总结、完善和更新基于过去经验的知识。

EvolutionaryAgent Li et al. (2024c) 通过进化和选择原则使代理与动态变化的社会规范保持一致，利用环境反馈进行自我进化。Agent-Pro Zhang et al. (2024d) 采用政策级别的反思和优化，允许代理根据过去的结果在互动场景中调整其行为和信念。最后，ProAgent Zhang et al. (2024a) 通过动态解释队友的意图并调整行为来增强多代理系统中的合作。

这些集体作品表明，将过去的经验和知识整合到代理的记忆流中，以改进其状态或信念，从而提高其在各种任务和环境中的性能和适应性的重要性。

7 评估

就像人类学习过程一样，通过评估来确定当前能力水平是否足够并满足应用要求是至关重要的。此外，正是通过这些评估，我们可以确定未来学习的方向。然而，如何准确评估进化模型的性能并为未来改进提供方向是一个至关重要但尚未充分探讨的研究领域。对于给定的进化模型 $M^{t}$ ，我们构想评估过程如下：

{\mathcal{E}}^{t+1},{\mathcal{S}}^{t+1}=f^{{\mathcal{E}}}(M^{t},{\mathcal{E}}^% {t},\mathrm{ENV}),

(7)

其中 $f^{E}$ 表示评估函数，用于衡量当前模型的性能得分（ ${\mathcal{S}}^{t+1}$ ）并提供下一次迭代的发展目标（ ${\mathcal{E}}^{t+1}$ ）。评估函数 $f^{\mathcal{E}}$ 可以分为定量和定性方法，各自提供有价值的模型性能洞察和改进领域。

7.1 定量评估

这种方法专注于提供可衡量的指标来可靠地评估LLM的性能，比如自动Papineni et al. (2002); Lin (2004)和人工评估。然而，传统的自动指标难以准确评估日益复杂的任务，而人工评估并非自主自进化的理想选择。最近的趋势使用LLMs作为自动评估者的人类代理，为评估提供了经济高效和可扩展的解决方案。

例如，奖励模型分数被广泛用于衡量模型或任务的性能Shinn et al. (2024)并选择最佳检查点Ouyang et al. (2022)。LLM作为评判者Zheng et al. (2024a)使用LLMs来评估LLMs，采用成对比较、单一答案评分和参考指导评分等方法。这表明LLMs可以与人类判断密切匹配，从而实现高效的大规模评估。

7.2 定性评估

定性评估涉及案例研究和分析，以得出见解，为后续迭代提供不断发展的指导。像LLM作为法官Zheng et al. (2024a)这样的倡议提供了其评估背后的推理；ChatEvalChan et al. (2023)通过辩论机制探讨模型输出的优势和劣势。此外，TRANYang et al. (2023b)利用过去的错误制定规则，以增强未来LLM的性能。然而，与实例级别的批评或反思相比，任务或模型级别的定性评估仍需要全面调查。

8 未解决的问题

8.1 目标：多样性和层次结构

Section 3 总结了现有的进化目标及其覆盖范围。然而，这些突出的目标只能满足广泛人类需求的一小部分。在各种任务和行业中广泛应用LLM突显了建立自我进化框架以全面解决更广泛的现实任务领域中未解决的挑战。 Eloundou et al. (2023)

此外，不断发展的目标概念涉及潜在的分层结构；例如，UltraTool Huang et al. (2024b) 和T-Eval Chen et al. (2023d) 将工具使用能力分类为各种子维度。将进化目标探索为可管理的子目标，并单独追求它们，成为一种可行的策略。

总的来说，存在开发有效解决多样化和层次化目标的自我演变框架的明显和紧迫的需求。

8.2 自主级别：从低到高

大型模型中的自我进化正在兴起，但其自主级别缺乏明确的定义。我们将自我进化分为三个层次：低、中、高级自主权。

低级

在这个级别中，用户预定义了进化对象 ${\mathcal{E}}$ 并且保持不变。用户需要自己设计进化管道，即所有模块 $f^{\bullet}$ 。然后，模型根据设计的框架完成自我进化过程。我们用以下公式表示这个自我进化级别：

\mathrm{\tilde{M}}=\mathrm{Evol^{L}}(\mathrm{M},{\mathcal{E}},f^{\bullet},% \mathrm{ENV}),

(8)

其中， $\mathrm{M}$ 表示要进化的模型。 $\mathrm{\tilde{M}}$ 是进化的输出。 $\mathrm{ENV}$ 是环境。大部分当前的工作都在这个层面上。

中级水平

在这个级别中，用户只设置演化对象 ${\mathcal{E}}$ 并保持其不变。用户不需要在框架中设计特定模块 $f^{\bullet}$ 。模型可以独立为自我演变构建每个模块 $f^{\bullet}$ 。这个级别表示如下：

\mathrm{\tilde{M}}=\mathrm{Evol^{M}}(\mathrm{M},{\mathcal{E}},\mathrm{ENV}),

(9)

高水平

在最终级别，模型诊断其缺陷并构建自我进化方法以改进自身。这是自我进化的最终目的。用户模型根据评估 $f^{E}$ 输出设置自己的进化对象 ${\mathcal{E}}$ 。进化目标会在迭代过程中发生变化。此外，模型在框架中设计了具体的模块 $f^{\bullet}$ 。我们将这个级别表示为：

\mathrm{\tilde{M}}=\mathrm{Evol^{H}}(\mathrm{M},\mathrm{ENV}),

(10)

如前所述在先前的开放问题中（§ 8.1），存在大量未实现的目标。然而，大多数现有的自我演化框架都属于低级别，需要专门设计的模块 Yuan et al. (2024); Lu et al. (2024a); Qiao et al. (2024)。这些框架依赖于特定的目标，并依赖于大量的人力努力来开发。耗尽所有的目标并不高效，这就迫切需要开发中高级别的自我演化框架。在中级别，不需要专家努力来设计特定的模块。LLMs可以根据目标自我演化。然后在高级别，LLMs可以调查他们当前的不足并有针对性地演化。总之，开发高度自主的自我演化框架仍然是一个悬而未决的问题。

8.3 经验获取与完善：从经验到理论

假设我们已经解决了之前的两个挑战，即我们开发了有前途的自我演化框架，但自我演化LLM的探索缺乏坚实的理论基础。这个想法认为LLM可以自我改进或纠正其输出，无论是否有来自环境的反馈。然而，其背后的机制仍然不清楚。研究显示出了不同的结果：Huang et al. (2023)观察到拥有超过220亿个参数的模型具有自我纠正行为，而Ganguli et al. (2023)发现LLM在没有外部反馈的情况下难以自我纠正推理错误。

一个相关的挑战是使用自生成的数据进行学习。批评者认为这种方法可能会减少语言多样性Guo et al. (2023)，并导致“模型崩溃”，即模型无法捕捉复杂的、长尾的数据分布Shumailov et al. (2023)。此外，Alemohammad et al. (2023)发现，训练在他们的合成输出上的生成模型逐渐失去输出质量和多样性。Fu et al. (2024)通过理论分析自我消耗的训练循环对模型性能的影响，强调了平衡合成和真实数据以减轻错误积累的重要性。

最近的研究Yang et al. (2024c); Singh et al. (2023)也表明，目前的方法在进行三轮以上的自我演化后很难有所改善。一个假设的原因是LLM的自我批评没有与不断演化的目标共同演化，但仍然需要更多的实验和理论支持。这些发现凸显了对自我演化LLM进行更多理论探索的迫切需求。解决这些问题对于推动该领域的发展，并确保模型能够在不断改善中有效学习是至关重要的。

8.4 更新：稳定性-可塑性困境

稳定性-可塑性困境代表了一个关键但尚未解决的挑战，这对于迭代自我演变至关重要。这一困境反映了在适应新数据或任务（可塑性）的同时保留先前学到信息的需求（稳定性）的难度。现有的LLMs要么忽视了这个问题，要么采用了可能无效的传统方法。虽然从头开始训练模型可以缓解灾难性遗忘的问题，但这是非常低效的，特别是当模型参数呈指数增长并且自主学习能力不断提高时。在获得新技能和保留现有知识之间找到平衡对于实现有效和高效的自我演变至关重要，从而实现整体改善。

8.5 评估：系统性和演变

为了有效评估LLMs，动态、综合的基准至关重要。随着我们向人工通用智能（AGI）的进展，这变得更加关键。传统的静态基准由于LLMs的不断发展性质和通过与环境（如搜索引擎）进行交互而可能获取测试数据的潜力，因而面临过时的风险，从而破坏了它们的可靠性。像Sotopia Zhou et al. (2023a)这样的动态基准提出了一个解决方案，通过创建一个基于LLM的环境来评估LLMs的社会智能，从而避免了静态基准所提出的限制。

8.6 安全性和超对齐

LLM的进步为AI系统实现甚至超越专家级能力的支持性和自主决策打开了可能性。为了安全起见，确保这些LLM与人类的价值观和偏好保持一致至关重要，特别是为了减轻可能影响政治辩论等领域的固有偏见，正如Taubenfeld et al. (2024)所强调的那样。OpenAI的倡议，Superalignment Leike and Sutskever (2023)，旨在通过开发可扩展的训练方法、验证对齐模型、通过可扩展的监督Saunders et al. (2022)、鲁棒性Perez et al. (2022)、自动可解释性Bills et al. (2023)和对抗测试来应力测试对齐过程来对齐超级智能。尽管还存在挑战，但Superalignment标志着开发一种以可扩展方式与人类道德和价值观密切保持一致的自我进化的LLM的初步尝试。

9 结论

LLM向自我进化范式的演变代表了人工智能领域类似于人类学习过程的转变。这有望克服当前模型严重依赖人类标注和教师模型的局限性。本调查提出了一个全面的框架，用于理解和开发自进化的LLMs，围绕着经验获取、改进、更新和评估的迭代循环进行构建。通过详细描述进展并将进化目标分类在该框架内，我们提供了对当前方法的全面概述，并突出了LLMs自适应、学习和自我改进的潜力。我们还确定了现有的挑战，并提出了未来研究的方向，旨在加速迈向更加动态、智能和高效的模型的进展。这项工作加深了对自进化的LLMs的理解。它为人工智能领域的重大进展铺平了道路，标志着迈向能够在复杂的现实世界任务中超越人类表现的超智能系统的一步。

致谢

这项工作得到了阿里巴巴集团通过阿里巴巴研究实习计划的支持。

参考文献

Achiam et al. (2023) Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774.
Ahn et al. (2024) Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, and Wenpeng Yin. 2024. Large language models for mathematical reasoning: Progresses and challenges. arXiv preprint arXiv:2402.00157.
Akiba et al. (2024) Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, and David Ha. 2024. Evolutionary optimization of model merging recipes. arXiv preprint arXiv:2403.13187.
Aksitov et al. (2023) Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, et al. 2023. Rest meets react: Self-improvement for multi-step reasoning llm agent. arXiv preprint arXiv:2312.10003.
Alemohammad et al. (2023) Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, and Richard Baraniuk. 2023. Self-consuming generative models go mad. In The Twelfth International Conference on Learning Representations.
Askari et al. (2024) Arian Askari, Roxana Petcu, Chuan Meng, Mohammad Aliannejadi, Amin Abolghasemi, Evangelos Kanoulas, and Suzan Verberne. 2024. Self-seeding and multi-intent self-instructing llms for generating intent-aware information-seeking dialogs. arXiv preprint arXiv:2402.11633.
Bäck and Schwefel (1993) Thomas Bäck and Hans-Paul Schwefel. 1993. An overview of evolutionary algorithms for parameter optimization. Evolutionary computation, 1(1):1–23.
Bai et al. (2023) Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. 2023. Qwen technical report. arXiv preprint arXiv:2309.16609.
Bai et al. (2022) Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. 2022. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073.
Besta et al. (2024) Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Michal Podstawski, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Hubert Niewiadomski, Piotr Nyczyk, et al. 2024. Graph of thoughts: Solving elaborate problems with large language models. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pages 17682–17690.
Bills et al. (2023) Steven Bills, Nick Cammarata, Dan Mossing, Henk Tillman, Leo Gao, Gabriel Goh, Ilya Sutskever, Jan Leike, Jeff Wu, and William Saunders. 2023. Language models can explain neurons in language models. URL https://openaipublic. blob. core. windows. net/neuron-explainer/paper/index. html.(Date accessed: 14.05. 2023).
Boud et al. (2013) David Boud, Rosemary Keogh, and David Walker. 2013. Reflection: Turning experience into learning. Routledge.
Bousmalis et al. (2023) Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Manon Devin, Alex X Lee, Maria Bauza Villalonga, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, et al. 2023. Robocat: A self-improving generalist agent for robotic manipulation. Transactions on Machine Learning Research.
Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.
Burns et al. (2023) Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, et al. 2023. Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.
Chalmers (1997) David J Chalmers. 1997. The conscious mind: In search of a fundamental theory. Oxford Paperbacks.
Chan et al. (2023) Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, and Zhiyuan Liu. 2023. Chateval: Towards better llm-based evaluators through multi-agent debate. In The Twelfth International Conference on Learning Representations.
Chen et al. (2022) Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, and Weizhu Chen. 2022. Codet: Code generation with generated tests. arXiv preprint arXiv:2207.10397.
Chen et al. (2023a) Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, et al. 2023a. Alpagasus: Training a better alpaca with fewer data. arXiv preprint arXiv:2307.08701.
Chen et al. (2023b) Pinzhen Chen, Zhicheng Guo, Barry Haddow, and Kenneth Heafield. 2023b. Iterative translation refinement with large language models. arXiv preprint arXiv:2306.03856.
Chen and Li (2024) Weixin Chen and Bo Li. 2024. Grath: Gradual self-truthifying for large language models. arXiv preprint arXiv:2401.12292.
Chen et al. (2023c) Xinyun Chen, Maxwell Lin, Nathanael Schaerli, and Denny Zhou. 2023c. Teaching large language models to self-debug. In The 61st Annual Meeting Of The Association For Computational Linguistics.
Chen et al. (2023d) Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, et al. 2023d. T-eval: Evaluating the tool utilization capability step by step. arXiv preprint arXiv:2312.14033.
Chen et al. (2024) Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, and Quanquan Gu. 2024. Self-play fine-tuning converts weak language models to strong language models. arXiv preprint arXiv:2401.01335.
Chung et al. (2022) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. 2022. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416.
Collins et al. (2023) Katherine M Collins, Albert Q Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B Tenenbaum, William Hart, et al. 2023. Evaluating language models for mathematics through interactions. arXiv preprint arXiv:2306.01694.
Cui and Wang (2023) Wanyun Cui and Qianle Wang. 2023. Ada-instruct: Adapting instruction generators for complex reasoning. arXiv preprint arXiv:2310.04484.
Dennett (1993) Daniel C Dennett. 1993. Consciousness explained. Penguin uk.
Dettmers et al. (2024) Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. 2024. Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, 36.
Devlin et al. (2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Dewey (1938) John Dewey. 1938. Experience and education: Kappa delta pi. International Honor Society in Education.
Ding et al. (2024) Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, and Maosong Sun. 2024. Mastering text, code and math simultaneously via fusing highly specialized language models. arXiv preprint arXiv:2403.08281.
Ding et al. (2023) Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, and Bowen Zhou. 2023. Enhancing chat language models by scaling high-quality instructional conversations. arXiv preprint arXiv:2305.14233.
Dubois et al. (2024) Yann Dubois, Chen Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy S Liang, and Tatsunori B Hashimoto. 2024. Alpacafarm: A simulation framework for methods that learn from human feedback. Advances in Neural Information Processing Systems, 36.
Eloundou et al. (2023) Tyna Eloundou, Sam Manning, Pamela Mishkin, and Daniel Rock. 2023. Gpts are gpts: An early look at the labor market impact potential of large language models. arXiv preprint arXiv:2303.10130.
Fernando et al. (2023) Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, and Tim Rocktäschel. 2023. Promptbreeder: Self-referential self-improvement via prompt evolution. arXiv preprint arXiv:2309.16797.
Fu et al. (2024) Shi Fu, Sen Zhang, Yingjie Wang, Xinmei Tian, and Dacheng Tao. 2024. Towards theoretical understandings of self-consuming generative models. arXiv preprint arXiv:2402.11778.
Ganguli et al. (2023) Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas I Liao, Kamilė Lukošiūtė, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine Olsson, Danny Hernandez, et al. 2023. The capacity for moral self-correction in large language models. arXiv preprint arXiv:2302.07459.
Ge et al. (2024) Yingqiang Ge, Wenyue Hua, Kai Mei, Juntao Tan, Shuyuan Xu, Zelong Li, Yongfeng Zhang, et al. 2024. Openagi: When llm meets domain experts. Advances in Neural Information Processing Systems, 36.
Gero et al. (2023) Zelalem Gero, Chandan Singh, Hao Cheng, Tristan Naumann, Michel Galley, Jianfeng Gao, and Hoifung Poon. 2023. Self-verification improves few-shot clinical information extraction. arXiv preprint arXiv:2306.00024.
Gou et al. (2023) Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, and Weizhu Chen. 2023. Critic: Large language models can self-correct with tool-interactive critiquing. arXiv preprint arXiv:2305.11738.
Gulcehre et al. (2023) Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, et al. 2023. Reinforced self-training (rest) for language modeling. arXiv preprint arXiv:2308.08998.
Guo et al. (2023) Yanzhu Guo, Guokan Shang, Michalis Vazirgiannis, and Chloé Clavel. 2023. The curious decline of linguistic diversity: Training language models on synthetic text. arXiv preprint arXiv:2311.09807.
Gupta et al. (2006) Anil K Gupta, Ken G Smith, and Christina E Shalley. 2006. The interplay between exploration and exploitation. Academy of management journal, 49(4):693–706.
Hare (2019) Joshua Hare. 2019. Dealing with sparse rewards in reinforcement learning. arXiv preprint arXiv:1910.09281.
Hinton et al. (2015) Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 2015. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.
Holland (1992) John H Holland. 1992. Adaptation in natural and artificial systems: an introductory analysis with applications to biology, control, and artificial intelligence. MIT press.
Honovich et al. (2022) Or Honovich, Thomas Scialom, Omer Levy, and Timo Schick. 2022. Unnatural instructions: Tuning language models with (almost) no human labor. arXiv preprint arXiv:2212.09689.
Hosseini et al. (2024) Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni, and Rishabh Agarwal. 2024. V-star: Training verifiers for self-taught reasoners. arXiv preprint arXiv:2402.06457.
Hu et al. (2021) Edward J Hu, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, et al. 2021. Lora: Low-rank adaptation of large language models. In International Conference on Learning Representations.
Huang et al. (2024a) Jianheng Huang, Leyang Cui, Ante Wang, Chengyi Yang, Xinting Liao, Linfeng Song, Junfeng Yao, and Jinsong Su. 2024a. Mitigating catastrophic forgetting in large language models with self-synthesized rehearsal. arXiv preprint arXiv:2403.01244.
Huang et al. (2022) Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. 2022. Large language models can self-improve. arXiv preprint arXiv:2210.11610.
Huang et al. (2023) Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, and Denny Zhou. 2023. Large language models cannot self-correct reasoning yet. In The Twelfth International Conference on Learning Representations.
Huang et al. (2024b) Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, et al. 2024b. Planning, creation, usage: Benchmarking llms for comprehensive tool utilization in real-world complex scenarios. arXiv preprint arXiv:2401.17167.
Ilharco et al. (2022) Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Ludwig Schmidt, Hannaneh Hajishirzi, and Ali Farhadi. 2022. Editing models with task arithmetic. In The Eleventh International Conference on Learning Representations.
Jiang et al. (2023) Shuyang Jiang, Yuhao Wang, and Yu Wang. 2023. Selfevolve: A code evolution framework via large language models. arXiv preprint arXiv:2306.02907.
Kim et al. (2023) Geunwoo Kim, Pierre Baldi, and Stephen McAleer. 2023. Language models can solve computer tasks. arXiv preprint arXiv:2303.17491.
Kirkpatrick et al. (2017) James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, et al. 2017. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, 114(13):3521–3526.
Koa et al. (2024) Kelvin JL Koa, Yunshan Ma, Ritchie Ng, and Tat-Seng Chua. 2024. Learning to generate explainable stock predictions using self-reflective large language models. arXiv preprint arXiv:2402.03659.
Lee et al. (2024) Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W Mahoney, Kurt Keutzer, and Amir Gholami. 2024. Llm2llm: Boosting llms with novel iterative data enhancement. arXiv preprint arXiv:2403.15042.
Leike and Sutskever (2023) Jan Leike and Ilya Sutskever. 2023. Introducing superalignment. Accessed: 2024-04-01.
Li et al. (2024a) Jia Li, Ge Li, Xuanming Zhang, Yihong Dong, and Zhi Jin. 2024a. Evocodebench: An evolving code generation benchmark aligned with real-world code repositories. arXiv preprint arXiv:2404.00599.
Li et al. (2024b) Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Jiuxiang Gu, and Tianyi Zhou. 2024b. Selective reflection-tuning: Student-selected data recycling for llm instruction-tuning. arXiv preprint arXiv:2402.10110.
Li et al. (2023a) Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, and Jing Xiao. 2023a. From quantity to quality: Boosting llm performance with self-guided data selection for instruction tuning. arXiv preprint arXiv:2308.12032.
Li et al. (2024c) Shimin Li, Tianxiang Sun, and Xipeng Qiu. 2024c. Agent alignment in evolving social norms. arXiv preprint arXiv:2401.04620.
Li et al. (2023b) Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, and Mike Lewis. 2023b. Self-alignment with instruction backtranslation. arXiv preprint arXiv:2308.06259.
Li and Qiu (2023) Xiaonan Li and Xipeng Qiu. 2023. Mot: Memory-of-thought enables chatgpt to self-improve. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 6354–6374.
Lin (2004) Chin-Yew Lin. 2004. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81.
Lin et al. (2024) Yong Lin, Hangyu Lin, Wei Xiong, Shizhe Diao, Jianmeng Liu, Jipeng Zhang, Rui Pan, Haoxiang Wang, Wenbin Hu, Hanning Zhang, Hanze Dong, Renjie Pi, Han Zhao, Nan Jiang, Heng Ji, Yuan Yao, and Tong Zhang. 2024. Mitigating the alignment tax of rlhf. In arXiv.
Liu et al. (2024a) Aiwei Liu, Haoping Bai, Zhiyun Lu, Xiang Kong, Simon Wang, Jiulong Shan, Meng Cao, and Lijie Wen. 2024a. Direct large language model alignment through self-rewarding contrastive prompt distillation. arXiv preprint arXiv:2402.11907.
Liu et al. (2024b) Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, and Lingming Zhang. 2024b. Is your code generated by chatgpt really correct? rigorous evaluation of large language models for code generation. Advances in Neural Information Processing Systems, 36.
Liu et al. (2023a) Lei Liu, Xiaoyan Yang, Yue Shen, Binbin Hu, Zhiqiang Zhang, Jinjie Gu, and Guannan Zhang. 2023a. Think-in-memory: Recalling and post-thinking enable llms with long-term memory. arXiv preprint arXiv:2311.08719.
Liu et al. (2023b) Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, et al. 2023b. Agentbench: Evaluating llms as agents. arXiv preprint arXiv:2308.03688.
Liu et al. (2021) Yuqiao Liu, Yanan Sun, Bing Xue, Mengjie Zhang, Gary G Yen, and Kay Chen Tan. 2021. A survey on evolutionary neural architecture search. IEEE transactions on neural networks and learning systems, 34(2):550–570.
Longpre et al. (2023) Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. 2023. The flan collection: Designing data and methods for effective instruction tuning. In International Conference on Machine Learning, pages 22631–22648. PMLR.
Lu et al. (2023) Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Fei Mi, Baojun Wang, Weichao Wang, Lifeng Shang, and Qun Liu. 2023. Self: Language-driven self-evolution for large language model. arXiv preprint arXiv:2310.00533.
Lu et al. (2024a) Keming Lu, Bowen Yu, Chang Zhou, and Jingren Zhou. 2024a. Large language models are superpositions of all characters: Attaining arbitrary role-play via self-alignment. arXiv preprint arXiv:2401.12474.
Lu et al. (2024b) Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu, Le Sun, Xianpei Han, and Yongbin Li. 2024b. Sofa: Shielded on-the-fly alignment via priority rule following. arXiv preprint arXiv:2402.17358.
Luo et al. (2024) Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. 2024. Wizardcoder: Empowering code large language models with evol-instruct. In The Twelfth International Conference on Learning Representations.
Madaan et al. (2023) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, and Peter Clark. 2023. Self-refine: Iterative refinement with self-feedback. arXiv preprint arXiv:2303.17651.
Miret and Krishnan (2024) Santiago Miret and NM Krishnan. 2024. Are llms ready for real-world materials discovery? arXiv preprint arXiv:2402.05200.
Noukhovitch et al. (2024) Michael Noukhovitch, Samuel Lavoie, Florian Strub, and Aaron C Courville. 2024. Language model alignment with elastic reset. Advances in Neural Information Processing Systems, 36.
Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744.
Packer et al. (2023) Charles Packer, Vivian Fang, Shishir G Patil, Kevin Lin, Sarah Wooders, and Joseph E Gonzalez. 2023. Memgpt: Towards llms as operating systems. arXiv preprint arXiv:2310.08560.
Pang et al. (2023) Jing-Cheng Pang, Pengyuan Wang, Kaiyuan Li, Xiong-Hui Chen, Jiacheng Xu, Zongzhang Zhang, and Yang Yu. 2023. Language model self-improvement by reinforcement learning contemplation. arXiv preprint arXiv:2305.14483.
Papineni et al. (2002) Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318.
Peng et al. (2023) Keqin Peng, Liang Ding, Qihuang Zhong, Yuanxin Ouyang, Wenge Rong, Zhang Xiong, and Dacheng Tao. 2023. Token-level self-evolution training for sequence-to-sequence learning. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 841–850.
Perez et al. (2022) Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, and Geoffrey Irving. 2022. Red teaming language models with language models. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 3419–3448.
Qian et al. (2024) Cheng Qian, Shihao Liang, Yujia Qin, Yining Ye, Xin Cong, Yankai Lin, Yesai Wu, Zhiyuan Liu, and Maosong Sun. 2024. Investigate-consolidate-exploit: A general strategy for inter-task agent self-evolution. arXiv preprint arXiv:2401.13996.
Qiao et al. (2024) Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, and Huajun Chen. 2024. Autoact: Automatic agent learning from scratch via self-planning. arXiv preprint arXiv:2401.05268.
Raffel et al. (2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67.
Ramé et al. (2024) Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, and Johan Ferret. 2024. Warm: On the benefits of weight averaged reward models. arXiv preprint arXiv:2401.12187.
Roziere et al. (2023) Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, et al. 2023. Code llama: Open foundation models for code. arXiv preprint arXiv:2308.12950.
Saunders et al. (2022) William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, and Jan Leike. 2022. Self-critiquing models for assisting human evaluators. arXiv preprint arXiv:2206.05802.
Schoenegger et al. (2024) Philipp Schoenegger, Peter S Park, Ezra Karger, and Philip E Tetlock. 2024. Ai-augmented predictions: Llm assistants improve human forecasting accuracy. arXiv preprint arXiv:2402.07862.
Schön (2017) Donald A Schön. 2017. The reflective practitioner: How professionals think in action. Routledge.
Searle (1986) John R Searle. 1986. Minds, brains and science. Harvard university press.
Shinn et al. (2024) Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. 2024. Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36.
Shinn et al. (2023) Noah Shinn, Beck Labash, and Ashwin Gopinath. 2023. Reflexion: an autonomous agent with dynamic memory and self-reflection. arXiv preprint arXiv:2303.11366.
Shumailov et al. (2023) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, and Ross Anderson. 2023. The curse of recursion: Training on generated data makes models forget. arXiv preprint arXiv:2305.17493.
Silver et al. (2016) David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. 2016. Mastering the game of go with deep neural networks and tree search. nature, 529(7587):484–489.
Silver et al. (2017) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. 2017. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
Singh et al. (2023) Avi Singh, John D Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, et al. 2023. Beyond human data: Scaling self-training for problem-solving with language models. arXiv preprint arXiv:2312.06585.
Song et al. (2023) Chenyang Song, Xu Han, Zheni Zeng, Kuai Li, Chen Chen, Zhiyuan Liu, Maosong Sun, and Tao Yang. 2023. Conpet: Continual parameter-efficient tuning for large language models. arXiv preprint arXiv:2309.14763.
Song et al. (2024) Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, and Bill Yuchen Lin. 2024. Trial and error: Exploration-based trajectory optimization for llm agents. arXiv preprint arXiv:2403.02502.
Stammer et al. (2023) Wolfgang Stammer, Felix Friedrich, David Steinmann, Hikaru Shindo, and Kristian Kersting. 2023. Learning by self-explaining.
Sun et al. (2023) Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, and Chuang Gan. 2023. Salmon: Self-alignment with principle-following reward models. arXiv preprint arXiv:2310.05910.
Sun et al. (2024) Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, and Chuang Gan. 2024. Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.
Tan et al. (2023) Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, and Guilin Qi. 2023. Evaluation of chatgpt as a question answering system for answering complex questions. arXiv preprint arXiv:2303.07992.
Tao et al. (2024a) Zhengwei Tao, Xiancai Chen, Zhi Jin, Xiaoying Bai, Haiyan Zhao, and Yiwei Lou. 2024a. Evit: Event-oriented instruction tuning for event reasoning.
Tao et al. (2024b) Zhengwei Tao, Zhi Jin, Junqiang Huang, Xiancai Chen, Xiaoying Bai, Haiyan Zhao, Yifan Zhang, and Chongyang Tao. 2024b. Meel: Multi-modal event evolution learning.
Taubenfeld et al. (2024) Amir Taubenfeld, Yaniv Dover, Roi Reichart, and Ariel Goldstein. 2024. Systematic biases in llm simulations of debates. arXiv preprint arXiv:2402.04049.
Team et al. (2023) Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805.
Tong et al. (2024) Yongqi Tong, Dawei Li, Sizhe Wang, Yujia Wang, Fei Teng, and Jingbo Shang. 2024. Can llms learn from previous mistakes? investigating llms’ errors to boost for reasoning. arXiv preprint arXiv:2403.20046.
Touvron et al. (2023a) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023a. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
Touvron et al. (2023b) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023b. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
Tu et al. (2024) Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, et al. 2024. Towards conversational diagnostic ai. arXiv preprint arXiv:2401.05654.
Ulmer et al. (2024) Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, and Yi Zhang. 2024. Bootstrapping llm-based task-oriented dialogue agents via self-talk. arXiv preprint arXiv:2401.05033.
Wan et al. (2024) Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, and Shuming Shi. 2024. Knowledge fusion of large language models. In The Twelfth International Conference on Learning Representations.
Wang et al. (2024a) Bo Wang, Tianxiang Sun, Hang Yan, Siyin Wang, Qingyuan Cheng, and Xipeng Qiu. 2024a. In-memory learning: A declarative learning framework for large language models. arXiv preprint arXiv:2403.02757.
Wang et al. (2024b) Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, and Yu Su. 2024b. Llms in the imaginarium: Tool learning through simulated trial and error. arXiv preprint arXiv:2403.04746.
Wang et al. (2024c) Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, et al. 2024c. Step-on-feet tuning: Scaling self-alignment of llms via bootstrapping. arXiv preprint arXiv:2402.07610.
Wang et al. (2024d) Jiuniu Wang, Zehua Du, Yuyuan Zhao, Bo Yuan, Kexiang Wang, Jian Liang, Yaxi Zhao, Yihen Lu, Gengliang Li, Junlong Gao, et al. 2024d. Aesopagent: Agent-driven evolutionary system on story-to-video production. arXiv preprint arXiv:2403.07952.
Wang et al. (2023a) Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, and Yelong Shen. 2023a. Adapting llm agents through communication. arXiv preprint arXiv:2310.01444.
Wang et al. (2024e) Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, and Hao Zhu. 2024e. Sotopia- $\pi$ : Interactive learning of socially intelligent language agents. arXiv preprint arXiv:2403.08715.
Wang et al. (2022) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2022. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.
Wang et al. (2023b) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2023b. Self-instruct: Aligning language models with self-generated instructions. In The 61st Annual Meeting Of The Association For Computational Linguistics.
Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837.
Weng et al. (2023) Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Shengping Liu, Bin Sun, Kang Liu, and Jun Zhao. 2023. Large language models are better reasoners with self-verification. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 2550–2575.
Wortsman et al. (2022) Mitchell Wortsman, Gabriel Ilharco, Samir Ya Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, et al. 2022. Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time. In International conference on machine learning, pages 23965–23998. PMLR.
Wu et al. (2023) Shengguang Wu, Keming Lu, Benfeng Xu, Junyang Lin, Qi Su, and Chang Zhou. 2023. Self-evolved diverse data sampling for efficient instruction tuning. arXiv preprint arXiv:2311.08182.
Wu et al. (2024) Tongtong Wu, Linhao Luo, Yuan-Fang Li, Shirui Pan, Thuy-Trang Vu, and Gholamreza Haffari. 2024. Continual learning for large language models: A survey. arXiv preprint arXiv:2402.01364.
Xu et al. (2023a) Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, and Daxin Jiang. 2023a. Wizardlm: Empowering large language models to follow complex instructions. arXiv preprint arXiv:2304.12244.
Xu et al. (2024a) Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Qingwei Lin, and Daxin Jiang. 2024a. WizardLM: Empowering large pre-trained language models to follow complex instructions. In The Twelfth International Conference on Learning Representations.
Xu et al. (2024b) Jie Xu, Hanbo Zhang, Xinghang Li, Huaping Liu, Xuguang Lan, and Tao Kong. 2024b. Sinvig: A self-evolving interactive visual agent for human-robot interaction. arXiv preprint arXiv:2402.11792.
Xu et al. (2023b) Yuzhuang Xu, Shuo Wang, Peng Li, Fuwen Luo, Xiaolong Wang, Weidong Liu, and Yang Liu. 2023b. Exploring large language models for communication games: An empirical study on werewolf. arXiv preprint arXiv:2309.04658.
Yadav et al. (2024) Prateek Yadav, Derek Tam, Leshem Choshen, Colin A Raffel, and Mohit Bansal. 2024. Ties-merging: Resolving interference when merging models. Advances in Neural Information Processing Systems, 36.
Yang et al. (2023a) Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, and Yuandong Tian. 2023a. Rlcd: Reinforcement learning from contrastive distillation for lm alignment. In The Twelfth International Conference on Learning Representations.
Yang et al. (2024a) Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, and Ying Shan. 2024a. Gpt4tools: Teaching large language model to use tools via self-instruction. Advances in Neural Information Processing Systems, 36.
Yang et al. (2023b) Zeyuan Yang, Peng Li, and Yang Liu. 2023b. Failures pave the way: Enhancing large language models through tuning-free rule accumulation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 1751–1777.
Yang et al. (2024b) Zhaorui Yang, Qian Liu, Tianyu Pang, Han Wang, Haozhe Feng, Minfeng Zhu, and Wei Chen. 2024b. Self-distillation bridges distribution gap in language model fine-tuning. arXiv preprint arXiv:2402.13669.
Yang et al. (2024c) Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, and Yang Liu. 2024c. React meets actre: Autonomous annotations of agent trajectories for contrastive self-training. arXiv preprint arXiv:2403.14589.
Yang et al. (2024d) Zonghan Yang, An Liu, Zijun Liu, Kaiming Liu, Fangzhou Xiong, Yile Wang, Zeyuan Yang, Qingyuan Hu, Xinrui Chen, Zhenhe Zhang, et al. 2024d. Towards unified alignment between agents, humans, and environment. arXiv preprint arXiv:2402.07744.
Yao et al. (2024) Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. 2024. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36.
Yao et al. (2022) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. 2022. React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629.
Yu et al. (2023a) Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, and Yongbin Li. 2023a. Language models are super mario: Absorbing abilities from homologous models as a free lunch. arXiv preprint arXiv:2311.03099.
Yu et al. (2023b) Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. 2023b. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284.
Yuan et al. (2024) Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, and Jason Weston. 2024. Self-rewarding language models. arXiv preprint arXiv:2401.10020.
Yuan et al. (2023) Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, and Chang Zhou. 2023. Scaling relationship on learning mathematical reasoning with large language models. arXiv preprint arXiv:2308.01825.
Zelikman et al. (2023) Eric Zelikman, Eliana Lorch, Lester Mackey, and Adam Tauman Kalai. 2023. Self-taught optimizer (stop): Recursively self-improving code generation. arXiv preprint arXiv:2310.02304.
Zelikman et al. (2022) Eric Zelikman, Jesse Mu, Noah D Goodman, and Yuhuai Tony Wu. 2022. Star: Self-taught reasoner bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems (NeurIPS).
Zhang et al. (2024a) Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, et al. 2024a. Proagent: building proactive cooperative agents with large language models. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pages 17591–17599.
Zhang et al. (2024b) Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, and Jie Tang. 2024b. Sciglm: Training scientific language models with self-reflective instruction annotation and tuning. arXiv preprint arXiv:2401.07950.
Zhang et al. (2024c) Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, and Weiming Lu. 2024c. Self-contrast: Better reflection through inconsistent solving perspectives.
Zhang et al. (2024d) Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, and Weiming Lu. 2024d. Agent-pro: Learning to evolve via policy-level reflection and optimization. arXiv preprint arXiv:2402.17574.
Zhang et al. (2024e) Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Lifeng Jin, Linfeng Song, Haitao Mi, and Helen Meng. 2024e. Self-alignment for factuality: Mitigating hallucinations in llms via self-evaluation. arXiv preprint arXiv:2402.09267.
Zheng et al. (2023) Haoqi Zheng, Qihuang Zhong, Liang Ding, Zhiliang Tian, Xin Niu, Changjian Wang, Dongsheng Li, and Dacheng Tao. 2023. Self-evolution learning for mixup: Enhance data augmentation on few-shot text classification tasks. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 8964–8974.
Zheng et al. (2024a) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. 2024a. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36.
Zheng et al. (2024b) Tianyu Zheng, Shuyue Guo, Xingwei Qu, Jiawei Guo, Weixu Zhang, Xinrun Du, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu, et al. 2024b. Kun: Answer polishment for chinese self-alignment with instruction back-translation. arXiv preprint arXiv:2401.06477.
Zhong et al. (2024a) Li Zhong, Zilong Wang, and Jingbo Shang. 2024a. Ldb: A large language model debugger via verifying runtime execution step-by-step. arXiv preprint arXiv:2402.16906.
Zhong et al. (2023) Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, and Dacheng Tao. 2023. Self-evolution learning for discriminative language model pretraining. In Findings of the Association for Computational Linguistics: ACL 2023, pages 4130–4145.
Zhong et al. (2024b) Wanjun Zhong, Lianghong Guo, Qiqi Gao, He Ye, and Yanlin Wang. 2024b. Memorybank: Enhancing large language models with long-term memory. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pages 19724–19731.
Zhou et al. (2024) Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, et al. 2024. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36.
Zhou et al. (2023a) Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, et al. 2023a. Sotopia: Interactive evaluation for social intelligence in language agents. In The Twelfth International Conference on Learning Representations.
Zhou et al. (2023b) Zhehua Zhou, Jiayang Song, Kunpeng Yao, Zhan Shu, and Lei Ma. 2023b. Isr-llm: Iterative self-refined large language model for long-horizon sequential task planning. arXiv preprint arXiv:2308.13724.
Zhu et al. (2024) Yuqi Zhu, Shuofei Qiao, Yixin Ou, Shumin Deng, Ningyu Zhang, Shiwei Lyu, Yue Shen, Lei Liang, Jinjie Gu, and Huajun Chen. 2024. Knowagent: Knowledge-augmented planning for llm-based agents. arXiv preprint arXiv:2403.03101.