Multimodal Models
多模态大模型,能够同时处理和理解多种类型的数据(文本、图像、音频、视频等)。
核心类型
Vision-Language Models (VLM)
音频-文本模型
3D / Video
- NeRF — 神经辐射场
- stable-video-diffusion — 视频扩散
关键技术
- 对齐层:将图像 token 对齐到 LLM 空间
- 视觉编码器:CLIP、ViT
- 跨注意力:Cross-attention 机制
游戏开发应用
- NPC 视觉感知
- 游戏场景理解
- AI 游戏助手(截图分析)
相关
- vision-language-models — 视觉-语言模型
- LLaVA — 代表 VLM
- image-generation — 图像生成