模态与多模态模型

E3
概念 · AI 模型与工具生态

模态:文本、视觉、音频、代码,以及"多模态"。

本条目定义模型的模态是什么,为何"多模态"是一个谱系而非一个勾选项,以及如何推断一个模型实际能处理哪些输入与输出——这样你在担心"做得多好"之前,先选到一个能尝试你问题的模型。

STEP 1

模态 = 数据的种类,区分输入与输出。

模态是一种数据类型:文本、图像、音频、视频等等。关键的微妙之处在于输入模态与输出模态是分开的。一个模型可以接受图像但只产出文本(很常见),或接受文本产出音频,或多种皆可。当规格说"多模态"时,永远要问:是输入多模态、输出多模态,还是两者皆是?

  • 文本。基线。几乎每个大语言模型其内核都是文本进/文本出。
  • 视觉(图像输入)。模型在文本之外接受图像——图表、截图、照片、文档、示意图——并以文本对其进行推理。在前沿家族中现已常见。
  • 音频。语音(有时还有一般声音)作为输入、输出或两者。无需单独的语音转文字阶段即可实现低延迟语音界面。
  • 视频。帧序列,有时带音频。最苛刻的输入模态;支持更参差。
  • 代码。并非单独的感官模态,但实践中值得当作一种来看待——代码有自己的评测体系,"擅长代码"与"擅长散文"是不同的能力维度。
  • 图像/音频生成。产出像素或波形,常由专门的生成模型而非通用 LLM 处理,尽管界限正在模糊。
STEP 2

"多模态"是谱系,不是二元。

两个系统都可被称为"多模态",工作方式却大相径庭:

流水线式(适配器)多模态

把若干独立组件串起来:语音转文字模型转写音频,文本 LLM 对转写文本推理,文字转语音模型说出答案。每一阶段可替换、可调试,但在每个边界处都会丢失信息——语气、迟疑、重叠说话都过不了转写,且延迟会叠加。

原生(联合)多模态

单个模型被训练成让不同模态共享一个表示空间。这样的模型能模态推理——例如把"说了什么"与"显示了什么"关联起来,或保留语气——并且通常因没有阶段间跳转而响应延迟更低。代价是中间步骤的可检查性更差。

这个区别对设计很重要。如果你的应用需要推理某句话怎么说的,或把答案落到图像的某个具体区域,原生多模态在做流水线无法复制的真活。如果你大多只需要转写加文本推理,流水线更便宜、更可调试,并让你能独立替换每一阶段。

STEP 3

你会真正遇到的实践含义。

  • token 对非文本同样适用。图像和音频也会被转换为模型 token。一张高分辨率图像可耗费数百到数千 token;长音频累加得很快。多模态上下文不是免费的——像任何上下文一样为它做预算。
  • 能力在各模态间并不均匀。一个文本与视觉强的模型可能在音频上更弱,而基准通常按模态分别给出。规格表上的"多模态"并不承诺各模态质量一致。
  • 输出模态约束架构。多数"多模态" LLM 是输入多模态、输出文本。若你需要生成图像或语音,通常要另取一个专门模型并把两者编排起来。
  • 视觉不等于 OCR。视觉模型对图像整体推理;它们很擅长"这张截图里在发生什么",但仍可能读错小字或密集表格。对高风险的精确文本抽取,要校验或配一个专门的抽取步骤。

模态支持是版图中变动最快的部分之一。一年前还是研究演示的能力——实时语音、视频理解、长文档视觉——会以数月为周期进入主流 API。请重新核对当前的模型卡片,而非依赖上一周期为真的内容。

STEP 4

决策问题。

在比较质量或价格之前,先回答一个准入问题:什么进去,什么必须出来?列出你真实的输入模态(用户会发截图吗?语音?PDF?)与所需输出(文本?结构化数据?语音?)。这会立刻淘汰大半候选名单,并避免那个经典错误——去基准评测一些物理上根本无法摄入你数据的模型。只有在幸存者之中,成本、质量与延迟才成为决定因素——这些由后续条目讨论。