COMIC：智能体驱动的喜剧小品生成

论文信息

标题: COMIC: Agentic Sketch Comedy Generation

作者: Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, et al.

发布日期: 2026-03-11

PDF链接: 下载PDF

从脚本到荧幕：COMIC系统如何用多智能体架构自动化生成喜剧小品

在当今内容为王的时代，短视频和喜剧内容的需求呈爆炸式增长。然而，高质量喜剧创作——尤其是像《周六夜现场》那样的专业小品——高度依赖创意、表演、导演和后期制作的复杂协作，成本高昂且难以规模化。传统的人工智能内容生成模型往往侧重于单一模态（如文本或图像），难以驾驭喜剧这种融合了创意剧本、角色表演、时机把握和视听呈现的综合性艺术形式。在此背景下，论文《COMIC: Agentic Sketch Comedy Generation》提出并实现了一个革命性的目标：构建一个全自动的AI系统，从角色设定开始，直接生成完整的、高质量的喜剧短视频。这不仅是一个技术挑战，更是对AI在复杂、高创意要求领域能力的一次重要探索。

核心架构：模拟制片厂的多智能体竞赛与协作

COMIC系统的核心创新在于其架构设计。它没有采用单一的、庞大的端到端模型，而是巧妙地模拟了一个真实的影视制作工作室，将整个创作流程分解为由多个大型语言模型驱动的“智能体”角色。这些智能体各司其职，通过迭代的竞争、评估和改进循环来优化产出。整个系统流程可以概括为以下几个关键阶段：

1. 角色驱动的创意生成与竞赛 系统始于用户提供的角色参考（例如，“一个紧张的面试官”和“一个穿着恐龙服装的求职者”）。随后，一个“编剧智能体”种群被激活。每个编剧智能体都是一个独立的LLM实例，它们基于相同的角色设定，独立生成多个简短的小品创意或剧本草稿。这一步并非简单的单次生成，而是引入了“种群”和“竞赛”概念，旨在初始阶段就最大化创意的多样性。

2. 基于真实观众偏好的自动化幽默评估 这是论文的一项关键贡献。如何让AI评估“幽默”？COMIC系统没有采用预设的、可能带有偏见的规则，而是选择让AI学习真实人类的偏好。研究者构建了一个来自YouTube的喜剧视频语料库，并分析了其元数据（如点赞、不喜欢、评论情感）来近似反映观众偏好。随后，他们训练了一个专门的“评论家LLM”，使其评分与这些真实观众偏好对齐。在流程中，这个评论家智能体会对编剧种群产生的所有创意草案进行评分，筛选出最具潜力的几个方案。这相当于在创作的第一个环节就引入了市场化的筛选机制。

3. 迭代式改进与多专业智能体协作 优胜的创意草案不会直接进入制作，而是进入一个改进循环。一个独立的“改进者智能体”会分析评论家的反馈，并对剧本进行修改和增强。修改后的剧本会再次接受评论家的评估。这种“生成-批评-改进”的循环可能进行多轮，直到剧本达到满意的质量。此后，系统会调用其他专业智能体，如“分镜智能体”将剧本转化为视觉描述，“视频生成智能体”根据描述生成最终视频。整个流程模拟了从编剧、剧本医生、导演到后期制作的完整链条，但全部由自主协作的AI智能体完成。

创新突破与核心贡献解析

COMIC系统的贡献是多维度的，它不仅在应用层面展示了AI生成复杂内容的潜力，更在方法论上提供了重要见解。

第一，多智能体模拟生产流程的范式。 这是该系统最根本的创新。它将一个复杂的创造性任务分解为序列化、专业化的子任务，并由不同的智能体负责。这种架构的优势非常明显：它提高了系统的可解释性和可控性（我们可以追踪是哪个环节的问题），允许对特定环节进行独立优化（例如升级视频生成模型），并且通过智能体间的交互（如竞争与批评）自然地引入了多样性和质量优化机制，避免了单一模型可能产生的单调输出。

第二，数据驱动的、对齐人类偏好的AI评论家。 自动评估生成内容的“幽默感”或“质量”一直是AIGC领域的难点。COMIC系统创造性地利用互联网上大量存在的用户反馈数据（如视频的互动数据），训练出一个能够模拟人类群体偏好的LLM评论家。这种方法绕过了为幽默这种主观感受手动设计评估指标的困境，实现了评估标准的“从数据中来，到模型中去”，使其更贴近真实世界的接受度。这个评论家智能体是整个系统质量的核心守门员。

第三，端到端的全自动视频喜剧生成。 尽管之前的研究在AI写笑话、生成图像或视频方面各有进展，但COMIC是首个公开报道的、能够将角色概念自动转化为完整喜剧短视频的集成系统。它证明了将当前最先进的LLM和视频生成模型（如扩散模型）通过精心设计的流程整合起来，可以处理极其复杂的多模态创意任务。

实验结果与性能分析

论文通过一系列实验验证了COMIC系统的有效性。

在客观评估方面，研究者采用了基于学习到的评论家模型进行评分的方式。实验表明，经过多轮迭代改进后生成的剧本，其评分显著高于初始草案。更重要的是，当将最终生成的视频与人类专业制作的《周六夜现场》短片混合，并让众包人员进行盲测评估时，COMIC生成的视频在“幽默性”、“连贯性”和“整体质量”等维度上，获得了接近专业作品的评分。这直接证明了系统产出的实际效果。

在技术性能上，系统在视频生成的保真度、与剧本的一致性方面展现了当前最先进（state-of-the-art）的水平。这得益于其模块化架构：当有更强大的视频生成模型出现时，可以无缝替换其中的“视频生成智能体”，从而提升最终输出质量。

实验结果也揭示了一些局限性。例如，系统生成的内容有时在逻辑的长期一致性上可能出现微小偏差，或者某些非常依赖文化背景和微妙肢体语言的幽默形式仍具挑战性。然而，这些结果整体上强烈支持了该框架的可行性和优越性。

实践应用与未来发展方向

对于AI与内容创作行业的实践建议：

采用智能体工作流分解复杂任务：COMIC的成功范式可以扩展到其他复杂内容创作领域，如教育视频制作、广告创意、互动游戏剧情生成等。从业者可以借鉴其思路，将业务流程分解为由不同AI智能体负责的环节，构建企业专属的“自动化内容生产线”。
重视“AI批评家”的构建：在开发任何AIGC应用时，构建一个与目标用户偏好对齐的评估模型至关重要。这需要精心收集和利用用户反馈数据，无论是显式的评分还是隐式的互动数据，将其作为优化AI产出的“指南针”。
人机协作的新模式：COMIC系统并非旨在完全取代人类创作者，而是可以作为一种强大的协作工具。例如，人类创作者可以提供初始创意或角色设定，由系统快速生成多个变体以供选择和启发；人类导演可以介入改进循环，提供关键反馈，引导AI的修改方向。

未来研究方向展望：

个性化与自适应生成：未来的系统可以引入用户画像，使评论家智能体能够学习个体或特定受众群体的幽默偏好，从而生成定制化的喜剧内容。
多模态智能体的深度整合：目前的流程相对序列化。未来可以探索更紧密的多模态协作，例如，视频生成智能体在制作过程中发现表演时机问题，可以反向向剧本智能体提出修改建议。
实时交互与即兴创作：将此类系统与实时技术结合，或许可以创造出能够与观众进行简单互动、甚至进行即兴喜剧表演的AI角色。
跨文化幽默的理解与生成：这是更大的挑战。需要构建包含多元文化背景的语料库，并让AI学会理解不同语境下的幽默逻辑和敏感边界。

总结与展望

《COMIC: Agentic Sketch Comedy Generation》论文展示了一个高度集成和创新的AI系统，它通过模拟真实世界创作流程的多智能体架构，结合数据驱动的幽默评估模型，实现了从概念到成品的喜剧短视频全自动生成。其意义远不止于“AI讲笑话”，它为我们提供了一个如何用现有AI技术解决复杂、开放式创意任务的蓝图。

这项研究标志着AIGC正从生成单一的文本、图像或声音，迈向能够协调多种模态、完成具有明确叙事和情感目标（如引人发笑）的复杂任务的阶段。它揭示了未来内容创作的一种可能图景：人类负责提供最高层的创意愿景和审美判断，而将构思、草拟、制作和初步筛选等耗时耗力的环节交给一个由多个专业AI智能体组成的“数字制片团队”去高效执行。尽管前路仍有挑战，但COMIC系统无疑在通往更具创造力、更通用人工智能的道路上，迈出了坚实而令人印象深刻的一步。