← 返回首页

COMIC:智能体驱动的喜剧小品生成

arXiv: 2603.11048v1

论文信息

标题: COMIC: Agentic Sketch Comedy Generation

作者: Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, et al.

发布日期: 2026-03-11

arXiv ID: 2603.11048v1

PDF链接: 下载PDF

从脚本到荧幕:COMIC系统如何用多智能体架构自动化生成喜剧小品

在当今内容为王的时代,短视频和喜剧内容的需求呈爆炸式增长。然而,高质量喜剧创作——尤其是像《周六夜现场》那样的专业小品——高度依赖创意、表演、导演和后期制作的复杂协作,成本高昂且难以规模化。传统的人工智能内容生成模型往往侧重于单一模态(如文本或图像),难以驾驭喜剧这种融合了创意剧本、角色表演、时机把握和视听呈现的综合性艺术形式。在此背景下,论文《COMIC: Agentic Sketch Comedy Generation》提出并实现了一个革命性的目标:构建一个全自动的AI系统,从角色设定开始,直接生成完整的、高质量的喜剧短视频。这不仅是一个技术挑战,更是对AI在复杂、高创意要求领域能力的一次重要探索。

核心架构:模拟制片厂的多智能体竞赛与协作

COMIC系统的核心创新在于其架构设计。它没有采用单一的、庞大的端到端模型,而是巧妙地模拟了一个真实的影视制作工作室,将整个创作流程分解为由多个大型语言模型驱动的“智能体”角色。这些智能体各司其职,通过迭代的竞争、评估和改进循环来优化产出。整个系统流程可以概括为以下几个关键阶段:

1. 角色驱动的创意生成与竞赛 系统始于用户提供的角色参考(例如,“一个紧张的面试官”和“一个穿着恐龙服装的求职者”)。随后,一个“编剧智能体”种群被激活。每个编剧智能体都是一个独立的LLM实例,它们基于相同的角色设定,独立生成多个简短的小品创意或剧本草稿。这一步并非简单的单次生成,而是引入了“种群”和“竞赛”概念,旨在初始阶段就最大化创意的多样性。

2. 基于真实观众偏好的自动化幽默评估 这是论文的一项关键贡献。如何让AI评估“幽默”?COMIC系统没有采用预设的、可能带有偏见的规则,而是选择让AI学习真实人类的偏好。研究者构建了一个来自YouTube的喜剧视频语料库,并分析了其元数据(如点赞、不喜欢、评论情感)来近似反映观众偏好。随后,他们训练了一个专门的“评论家LLM”,使其评分与这些真实观众偏好对齐。在流程中,这个评论家智能体会对编剧种群产生的所有创意草案进行评分,筛选出最具潜力的几个方案。这相当于在创作的第一个环节就引入了市场化的筛选机制。

3. 迭代式改进与多专业智能体协作 优胜的创意草案不会直接进入制作,而是进入一个改进循环。一个独立的“改进者智能体”会分析评论家的反馈,并对剧本进行修改和增强。修改后的剧本会再次接受评论家的评估。这种“生成-批评-改进”的循环可能进行多轮,直到剧本达到满意的质量。此后,系统会调用其他专业智能体,如“分镜智能体”将剧本转化为视觉描述,“视频生成智能体”根据描述生成最终视频。整个流程模拟了从编剧、剧本医生、导演到后期制作的完整链条,但全部由自主协作的AI智能体完成。

创新突破与核心贡献解析

COMIC系统的贡献是多维度的,它不仅在应用层面展示了AI生成复杂内容的潜力,更在方法论上提供了重要见解。

第一,多智能体模拟生产流程的范式。 这是该系统最根本的创新。它将一个复杂的创造性任务分解为序列化、专业化的子任务,并由不同的智能体负责。这种架构的优势非常明显:它提高了系统的可解释性和可控性(我们可以追踪是哪个环节的问题),允许对特定环节进行独立优化(例如升级视频生成模型),并且通过智能体间的交互(如竞争与批评)自然地引入了多样性和质量优化机制,避免了单一模型可能产生的单调输出。

第二,数据驱动的、对齐人类偏好的AI评论家。 自动评估生成内容的“幽默感”或“质量”一直是AIGC领域的难点。COMIC系统创造性地利用互联网上大量存在的用户反馈数据(如视频的互动数据),训练出一个能够模拟人类群体偏好的LLM评论家。这种方法绕过了为幽默这种主观感受手动设计评估指标的困境,实现了评估标准的“从数据中来,到模型中去”,使其更贴近真实世界的接受度。这个评论家智能体是整个系统质量的核心守门员。

第三,端到端的全自动视频喜剧生成。 尽管之前的研究在AI写笑话、生成图像或视频方面各有进展,但COMIC是首个公开报道的、能够将角色概念自动转化为完整喜剧短视频的集成系统。它证明了将当前最先进的LLM和视频生成模型(如扩散模型)通过精心设计的流程整合起来,可以处理极其复杂的多模态创意任务。

实验结果与性能分析

论文通过一系列实验验证了COMIC系统的有效性。

客观评估方面,研究者采用了基于学习到的评论家模型进行评分的方式。实验表明,经过多轮迭代改进后生成的剧本,其评分显著高于初始草案。更重要的是,当将最终生成的视频与人类专业制作的《周六夜现场》短片混合,并让众包人员进行盲测评估时,COMIC生成的视频在“幽默性”、“连贯性”和“整体质量”等维度上,获得了接近专业作品的评分。这直接证明了系统产出的实际效果。

技术性能上,系统在视频生成的保真度、与剧本的一致性方面展现了当前最先进(state-of-the-art)的水平。这得益于其模块化架构:当有更强大的视频生成模型出现时,可以无缝替换其中的“视频生成智能体”,从而提升最终输出质量。

实验结果也揭示了一些局限性。例如,系统生成的内容有时在逻辑的长期一致性上可能出现微小偏差,或者某些非常依赖文化背景和微妙肢体语言的幽默形式仍具挑战性。然而,这些结果整体上强烈支持了该框架的可行性和优越性。

实践应用与未来发展方向

对于AI与内容创作行业的实践建议:

  1. 采用智能体工作流分解复杂任务:COMIC的成功范式可以扩展到其他复杂内容创作领域,如教育视频制作、广告创意、互动游戏剧情生成等。从业者可以借鉴其思路,将业务流程分解为由不同AI智能体负责的环节,构建企业专属的“自动化内容生产线”。
  2. 重视“AI批评家”的构建:在开发任何AIGC应用时,构建一个与目标用户偏好对齐的评估模型至关重要。这需要精心收集和利用用户反馈数据,无论是显式的评分还是隐式的互动数据,将其作为优化AI产出的“指南针”。
  3. 人机协作的新模式:COMIC系统并非旨在完全取代人类创作者,而是可以作为一种强大的协作工具。例如,人类创作者可以提供初始创意或角色设定,由系统快速生成多个变体以供选择和启发;人类导演可以介入改进循环,提供关键反馈,引导AI的修改方向。

未来研究方向展望:

  1. 个性化与自适应生成:未来的系统可以引入用户画像,使评论家智能体能够学习个体或特定受众群体的幽默偏好,从而生成定制化的喜剧内容。
  2. 多模态智能体的深度整合:目前的流程相对序列化。未来可以探索更紧密的多模态协作,例如,视频生成智能体在制作过程中发现表演时机问题,可以反向向剧本智能体提出修改建议。
  3. 实时交互与即兴创作:将此类系统与实时技术结合,或许可以创造出能够与观众进行简单互动、甚至进行即兴喜剧表演的AI角色。
  4. 跨文化幽默的理解与生成:这是更大的挑战。需要构建包含多元文化背景的语料库,并让AI学会理解不同语境下的幽默逻辑和敏感边界。

总结与展望

《COMIC: Agentic Sketch Comedy Generation》论文展示了一个高度集成和创新的AI系统,它通过模拟真实世界创作流程的多智能体架构,结合数据驱动的幽默评估模型,实现了从概念到成品的喜剧短视频全自动生成。其意义远不止于“AI讲笑话”,它为我们提供了一个如何用现有AI技术解决复杂、开放式创意任务的蓝图。

这项研究标志着AIGC正从生成单一的文本、图像或声音,迈向能够协调多种模态、完成具有明确叙事和情感目标(如引人发笑)的复杂任务的阶段。它揭示了未来内容创作的一种可能图景:人类负责提供最高层的创意愿景和审美判断,而将构思、草拟、制作和初步筛选等耗时耗力的环节交给一个由多个专业AI智能体组成的“数字制片团队”去高效执行。尽管前路仍有挑战,但COMIC系统无疑在通往更具创造力、更通用人工智能的道路上,迈出了坚实而令人印象深刻的一步。