Ollama 最近推出了自主研发的多模态 AI 引擎,标志着其在本地 AI 推理领域的重大进展。这一新引擎旨在提升图像处理、内存管理和推理速度,尤其在处理大型视觉模型(如 Meta 的 Llama 4、Google 的 Gemini 3、阿里巴巴的 Qwen 2.5 VL 和 Mistral Small 3.1)时表现出色。
核心技术亮点
- 自主研发引擎:Ollama 团队使用 Go 语言独立开发新引擎,摆脱了对 llama.cpp 框架的直接依赖。
- 图像处理优化:引擎引入图像处理附加元数据,优化批量处理和位置数据管理,避免图像分割错误导致输出质量下降。
- 内存管理提升:新增图像缓存功能,确保图像处理后可重复使用,避免提前丢弃。
- 硬件优化支持:与 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨头合作,通过精准检测硬件元数据,优化内存估算。
- 高级推理技术:支持分块注意力(chunked attention)和 2D 旋转嵌入(2D rotary embedding)等技术,提升模型推理效率。
版本更新与功能增强
在最新发布的 v0.7.0 版本中,Ollama 引入了新引擎以支持多模态模型,并支持 WebP 图像作为输入。 此外,还修复了 Windows 上运行模型出现的空白终端窗口问题,提升了导入 safetensors 模型的性能,并优化了 Qwen3 MoE 在 macOS 上的提示处理速度。
发表回复