modelmultimodalvisionllm type: concept 创建: 2026-04-27 更新: 2026-04-27

Multimodal Models

多模态大模型,能够同时处理和理解多种类型的数据(文本、图像、音频、视频等)。

核心类型

Vision-Language Models (VLM)

音频-文本模型

3D / Video

关键技术

  • 对齐层:将图像 token 对齐到 LLM 空间
  • 视觉编码器:CLIP、ViT
  • 跨注意力:Cross-attention 机制

游戏开发应用

  • NPC 视觉感知
  • 游戏场景理解
  • AI 游戏助手(截图分析)

相关