Ollama 上线自主多模态 AI 引擎

Ollama 最近推出了自主研发的多模态 AI 引擎,标志着其在本地 AI 推理领域的重大进展。这一新引擎旨在提升图像处理、内存管理和推理速度,尤其在处理大型视觉模型(如 Meta 的 Llama 4、Google 的 Gemini 3、阿里巴巴的 Qwen 2.5 VL 和 Mistral Small 3.1)时表现出色。

核心技术亮点

  • 自主研发引擎:Ollama 团队使用 Go 语言独立开发新引擎,摆脱了对 llama.cpp 框架的直接依赖。
  • 图像处理优化:引擎引入图像处理附加元数据,优化批量处理和位置数据管理,避免图像分割错误导致输出质量下降。
  • 内存管理提升:新增图像缓存功能,确保图像处理后可重复使用,避免提前丢弃。
  • 硬件优化支持:与 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨头合作,通过精准检测硬件元数据,优化内存估算。
  • 高级推理技术:支持分块注意力(chunked attention)和 2D 旋转嵌入(2D rotary embedding)等技术,提升模型推理效率。

版本更新与功能增强

在最新发布的 v0.7.0 版本中,Ollama 引入了新引擎以支持多模态模型,并支持 WebP 图像作为输入。 此外,还修复了 Windows 上运行模型出现的空白终端窗口问题,提升了导入 safetensors 模型的性能,并优化了 Qwen3 MoE 在 macOS 上的提示处理速度。


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注