模态与多模态模型

概念 · AI 模型与工具生态

模态：文本、视觉、音频、代码，以及"多模态"。

本条目定义模型的模态是什么，为何"多模态"是一个谱系而非一个勾选项，以及如何推断一个模型实际能处理哪些输入与输出——这样你在担心"做得多好"之前，先选到一个能尝试你问题的模型。

STEP 1

模态 = 数据的种类，区分输入与输出。

模态是一种数据类型：文本、图像、音频、视频等等。关键的微妙之处在于输入模态与输出模态是分开的。一个模型可以接受图像但只产出文本（很常见），或接受文本产出音频，或多种皆可。当规格说"多模态"时，永远要问：是输入多模态、输出多模态，还是两者皆是？

文本。基线。几乎每个大语言模型其内核都是文本进/文本出。
视觉（图像输入）。模型在文本之外接受图像——图表、截图、照片、文档、示意图——并以文本对其进行推理。在前沿家族中现已常见。
音频。语音（有时还有一般声音）作为输入、输出或两者。无需单独的语音转文字阶段即可实现低延迟语音界面。
视频。帧序列，有时带音频。最苛刻的输入模态；支持更参差。
代码。并非单独的感官模态，但实践中值得当作一种来看待——代码有自己的评测体系，"擅长代码"与"擅长散文"是不同的能力维度。
图像/音频生成。产出像素或波形，常由专门的生成模型而非通用 LLM 处理，尽管界限正在模糊。

STEP 2

"多模态"是谱系，不是二元。

两个系统都可被称为"多模态"，工作方式却大相径庭：

流水线式（适配器）多模态

把若干独立组件串起来：语音转文字模型转写音频，文本 LLM 对转写文本推理，文字转语音模型说出答案。每一阶段可替换、可调试，但在每个边界处都会丢失信息——语气、迟疑、重叠说话都过不了转写，且延迟会叠加。

原生（联合）多模态

单个模型被训练成让不同模态共享一个表示空间。这样的模型能跨模态推理——例如把"说了什么"与"显示了什么"关联起来，或保留语气——并且通常因没有阶段间跳转而响应延迟更低。代价是中间步骤的可检查性更差。

这个区别对设计很重要。如果你的应用需要推理某句话怎么说的，或把答案落到图像的某个具体区域，原生多模态在做流水线无法复制的真活。如果你大多只需要转写加文本推理，流水线更便宜、更可调试，并让你能独立替换每一阶段。

STEP 3

你会真正遇到的实践含义。

token 对非文本同样适用。图像和音频也会被转换为模型 token。一张高分辨率图像可耗费数百到数千 token；长音频累加得很快。多模态上下文不是免费的——像任何上下文一样为它做预算。
能力在各模态间并不均匀。一个文本与视觉强的模型可能在音频上更弱，而基准通常按模态分别给出。规格表上的"多模态"并不承诺各模态质量一致。
输出模态约束架构。多数"多模态" LLM 是输入多模态、输出文本。若你需要生成图像或语音，通常要另取一个专门模型并把两者编排起来。
视觉不等于 OCR。视觉模型对图像整体推理；它们很擅长"这张截图里在发生什么"，但仍可能读错小字或密集表格。对高风险的精确文本抽取，要校验或配一个专门的抽取步骤。

模态支持是版图中变动最快的部分之一。一年前还是研究演示的能力——实时语音、视频理解、长文档视觉——会以数月为周期进入主流 API。请重新核对当前的模型卡片，而非依赖上一周期为真的内容。

STEP 4

决策问题。

在比较质量或价格之前，先回答一个准入问题：什么进去，什么必须出来？列出你真实的输入模态（用户会发截图吗？语音？PDF？）与所需输出（文本？结构化数据？语音？）。这会立刻淘汰大半候选名单，并避免那个经典错误——去基准评测一些物理上根本无法摄入你数据的模型。只有在幸存者之中，成本、质量与延迟才成为决定因素——这些由后续条目讨论。