未来6-12个月，大语言模型在控制、记忆、工具集成和多模态方面会有哪些突破？：原理解析、实操步骤、常见问题与优化建议

大型语言模型（LLM）正以前所未有的势头席卷科技行业，其驱动的体验堪称神奇——从几秒钟内生成一周的代码，到进行比人类对话更具同理心的交流。这些模型基于数万亿的标记数据进行训练，动用了成千上万的GPU集群，展现了卓越的自然语言理解能力，并彻底改变了文案和代码等领域，将我们推入激动人心的生成式AI新时代。与任何新兴技术一样，生成式AI也面临一些批评。尽管部分批评确实反映了LLM当前能力的局限，但我们认为这些障碍并非技术的根本缺陷，而是进一步创新的机遇。

为了更好地理解LLM近期可能取得的技术突破，并为创始人和运营者指明方向，我们与几位顶尖的生成式AI研究者进行了交流，他们正在积极构建和训练一些最大、最前沿的模型：Anthropic的CEO Dario Amodei、Cohere的CEO Aidan Gomez、Character.AI的CEO Noam Shazeer以及AI21 Labs的Yoav Shoham。这些对话揭示了地平线上的四大关键创新：驾驭、记忆、“赋予手脚” 以及 多模态。本文将探讨这些关键创新在未来6到12个月内将如何演变，以及希望将AI整合到自身业务中的创始人如何利用这些新进展。

驾驭

许多创始人对在其产品和流程中应用LLM持谨慎态度是可以理解的，因为这些模型存在“幻觉”和复制偏见的潜在风险。为了解决这些问题，几家领先的模型公司正在致力于改进驾驭——一种对LLM输出施加更好控制的方法——以聚焦模型输出，并帮助模型更好地理解和执行复杂的用户需求。Noam Shazeer在这方面将LLM与儿童进行了类比：“问题在于如何更好地引导[模型]……我们面临LLM的这个问题，我们只是需要正确的方法来告诉它们做我们想做的事。小孩子也是这样——他们有时会编造东西，对幻想和现实没有牢固的把握。”尽管模型提供商在可驾驭性方面取得了显著进展，并且出现了像Guardrails和LMQL这样的工具，但研究人员仍在继续取得进步，我们认为这对于最终用户更好地产品化LLM至关重要。

改进的驾驭在企业公司中变得尤为重要，因为不可预测行为的后果可能代价高昂。Amodei指出，LLM的不可预测性“让人抓狂”，作为API提供商，他希望能够“直视客户的眼睛说‘不，模型不会这样做’，或者至少很少这样做。”通过优化LLM的输出，创始人可以更有信心地认为模型的性能将符合客户需求。改进的驾驭也将为在广告等对准确性和可靠性要求更高的其他行业更广泛地采用铺平道路，因为广告投放的风险很高。Amodei还看到了从“法律用例、医疗用例、存储财务信息和管理财务投注，到需要维护公司品牌”的各种用例。“你不希望整合的技术是不可预测或难以预测或描述的。”通过更好的驾驭，LLM将能够用更少的提示工程完成更复杂的任务，因为它们将能更好地理解整体意图。

LLM驾驭方面的进步也有潜力在敏感的消费者应用中解锁新的可能性，用户期望在这些应用中获得量身定制且准确的回应。虽然用户在为了对话或创意目的与LLM互动时可能愿意容忍较低准确性的输出，但当使用LLM协助日常任务、为重大决策提供建议或增强生活教练、治疗师和医生等专业人士时，用户希望获得更准确的输出。有人指出，LLM有望取代像搜索这样根深蒂固的消费者应用，但在这种可能性成为现实之前，我们可能需要更好的驾驭来改进模型输出并建立用户信任。

关键解锁：用户可以更好地定制LLM的输出。

记忆

由LLM驱动的文案撰写和广告生成应用已经取得了巨大成功，在营销人员、广告商和精明的创业者中迅速普及。然而，目前大多数LLM的输出相对通用，这使得在需要个性化和上下文理解的应用场景中难以利用它们。虽然提示工程和微调可以提供一定程度的个性化，但提示工程的可扩展性较差，而微调往往成本高昂，因为它需要一定程度的重新训练，并且通常需要与大多是闭源的LLM紧密合作。为每个用户微调一个模型通常既不可行也不可取。

上下文学习——LLM从你的公司产生的内容、你公司的特定术语和你的特定上下文中汲取信息——是圣杯，它能创造出更精细、更贴合你特定用例的输出。为了解锁这一点，LLM需要增强的记忆能力。LLM记忆有两个主要组成部分：上下文窗口和检索。上下文窗口是模型除了其训练数据语料库之外，可以处理并用于指导其输出的文本。检索指的是从模型训练数据语料库之外的庞大数据体中检索和引用相关信息及文档（“上下文数据”）。目前，大多数LLM的上下文窗口有限，并且无法原生检索额外信息，因此生成的输出个性化程度较低。然而，通过更大的上下文窗口和改进的检索，LLM可以直接提供更精细、更贴合个体用例的输出。

特别是随着上下文窗口的扩大，模型将能够处理更大量的文本并更好地保持上下文，包括在对话中保持连续性。这将反过来显著增强模型执行需要更深入理解较长输入的任务的能力，例如总结长篇文章或在长时间对话中生成连贯且上下文准确的回应。我们已经看到上下文窗口的显著改进——GPT-4拥有8k和32k标记的上下文窗口，高于GPT-3.5和ChatGPT的4k和16k标记上下文窗口，而Claude最近将其上下文窗口扩展到了惊人的100k标记。

仅靠扩大的上下文窗口并不能充分改善记忆，因为推理的成本和时间与提示的长度呈准线性甚至二次方增长。检索机制通过用与提示最相关的上下文数据来增强和优化LLM的原始训练语料库。由于LLM是在一个信息体上训练的且通常难以更新，Shoham认为检索有两个主要好处：“首先，它允许你访问训练时没有的信息源。其次，它使你能够将语言模型聚焦在你认为与任务相关的信息上。”像Pinecone这样的向量数据库已经成为高效检索相关信息的事实标准，并作为LLM的记忆层，使模型能够更轻松、快速、准确地在海量信息中搜索和引用正确的数据。

增加的上下文窗口和检索相结合，对于导航大型知识库或复杂数据库等企业用例将是无价的。公司将能够更好地利用其专有数据，如内部知识、历史客户支持工单或财务结果，作为LLM的输入，而无需进行微调。改进LLM的记忆将带来在培训、报告、内部搜索、数据分析和商业智能以及客户支持等领域改进和深度定制的能力。

在消费者领域，改进的上下文窗口和检索将实现强大的个性化功能，从而彻底改变用户体验。Noam Shazeer认为，“一个重大的解锁将是开发一个既具有非常高的记忆容量来为每个用户定制，又能以成本效益大规模服务的模型。你希望你的治疗师了解你生活中的一切；你希望你的老师理解你已经知道什么；你希望一个生活教练能就你正在发生的事情给你建议。他们都需要上下文。”Aidan Gomez同样对这一发展感到兴奋。“通过让模型访问你独有的数据，比如你的电子邮件、日历或直接消息，”他说，“模型将了解你与不同人的关系，以及你喜欢如何与朋友或同事交谈，并可以在那个上下文中帮助你，使其效用最大化。”

关键解锁：LLM将能够考虑大量相关信息，并提供更个性化、量身定制和有用的输出。

“赋予手脚”：让模型具备使用工具的能力

LLM的真正力量在于使自然语言成为行动的媒介。LLM对常见且有良好文档记录的系统有深刻的理解，但它们无法执行从这些系统中提取的任何信息。例如，OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班，但它们本身无法原生地预订该航班（尽管像ChatGPT插件这样的进步正在开始突破这一界限）。“有一个大脑在理论上拥有所有这些知识，只是缺少从名称到你所按按钮的映射，”Amodei说。“把这些‘线缆’连接起来不需要太多训练。你有一个脱离实体的、知道如何移动的大脑，但它还没有连接上手臂或腿。”

我们看到公司们一直在稳步提高LLM使用工具的能力。像Bing和Google这样的老牌公司以及像Perplexity和You.com这样的初创公司引入了搜索API。AI21 Labs推出了Jurassic-X，它通过将模型与一组预定的工具（包括计算器、天气API、维基API和数据库）相结合，解决了独立LLM的许多缺陷。OpenAI测试了允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具交互的插件——这一解锁被比作苹果的“App Store”时刻。最近，OpenAI在GPT-3.5和GPT-4中引入了函数调用，允许开发者将GPT的能力连接到他们想要的任何外部工具。

通过将范式从知识挖掘转向行动导向，赋予手脚有潜力解锁跨公司和用户类型的各种用例。对于消费者，LLM可能很快就能给你提供食谱创意，然后订购你需要的食材，或者推荐一个早午餐地点并为你预订座位。在企业领域，创始人

常见问题（FAQ）

生成式AI的四大关键创新具体指什么？

根据顶尖AI研究人员的观点，四大关键创新是：驾驭（控制模型输出）、记忆（存储和调用信息）、工具集成（让模型使用外部工具）以及多模态（处理多种类型数据）。

AI模型如何实现更好的控制以避免错误？

通过“驾驭”技术，研究人员正在开发方法对LLM输出施加更好控制，减少幻觉和偏见，帮助模型更准确地理解和执行复杂用户需求，这对企业应用至关重要。

这些创新什么时候能实际应用？

研究人员预测这些创新将在未来6-12个月内逐步实现，使AI应用更加可靠、个性化和可操作，为企业和消费者提供更实用的解决方案。

未来6-12个月，大语言模型在控制、记忆、工具集成和多模态方面会有哪些突破？

AIAI Summary (BLUF)

驾驭

记忆

“赋予手脚”：让模型具备使用工具的能力

常见问题（FAQ）

生成式AI的四大关键创新具体指什么？

AI模型如何实现更好的控制以避免错误？

这些创新什么时候能实际应用？

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

驾驭

记忆

“赋予手脚”：让模型具备使用工具的能力

常见问题（FAQ）

生成式AI的四大关键创新具体指什么？

AI模型如何实现更好的控制以避免错误？

这些创新什么时候能实际应用？

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择