ollama v0.31.1发布：Apple Silicon平台Gemma 4提速近90% 默认开启无感升级

佚名 2026-07-03 08:25:00

Ollama v0.31.1重磅更新，为Apple Silicon用户带来近90%的Gemma 4提速，体验升级无感开启。
核心内容：
1. 性能飞跃：Gemma 4在Apple Silicon上通过多token预测机制实现显著加速
2. 无感体验：优化默认开启，无需配置即可享受更快的模型生成速度
3. 底层加固：伴随MLX等引擎更新，带来更稳定可靠的运行环境

前言

ollama v0.31.1 已正式发布，发布时间为 2026 年 7 月 1 日。虽然这次版本更新从表面上看并不是一次“大而全”的功能堆叠式升级，但从实际价值来看，它非常有分量，尤其是对使用 Apple Silicon 设备运行 Gemma 4 的用户来说，这次更新意义非常直接：更快、更稳、更省心。

这次版本更新的核心关键词非常清晰，那就是：Faster Gemma 4 on Apple Silicon。根据发布内容，Gemma 4 现在在 Ollama 的 Apple Silicon 环境中获得了显著加速，依靠 multi-token prediction，也就是 MTP，多 token 预测机制，在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。这个提升幅度非常醒目，因为它不是轻微优化，也不是个别场景下的偶然加速，而是一次足以让用户明显感知到体验变化的版本更新。

更重要的是，这次性能提升并不要求用户额外学习新的使用方式。Ollama 会在运行过程中自动调整要 draft 的 token 数量，也就是说，整个加速过程是自动完成的，默认开启、无需配置，并且不会改变模型输出。对于很多用户来说，这样的优化才是真正高价值的优化：不用折腾，不用改参数，不用适配流程，更新后就能直接享受到收益。

下面我们就围绕这次 v0.31.1 的发布内容，做一次详细解读。

一、版本信息概览

本次更新版本为：

• v0.31.1 Latest• 发布时间：2026 年 7 月 1 日从公开信息来看，v0.31.1 的重点主要集中在以下几个方面：

• Gemma 4 在 Apple Silicon 上显著提速• 通过 multi-token prediction 提升生成性能• Ollama 自动调节 draft token 数量• 该加速默认启用，无需配置• 该优化不会改变模型输出• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载• MLX 引擎升级到最新版本• 新版本 MLX 引擎包含新的 small-batch matmul kernel• 底层 llama.cpp 引擎更新到 build 9840• 改进 Gemma 4 的 MTP 性能可以看到，这次更新并不是单点优化，而是围绕 Gemma 4 在 Apple Silicon 上的运行体验，进行了多层面的联合改进：既有推理速度层面的提升，也有底层引擎层面的更新，还有模型加载环节的收紧优化。这些变化组合在一起，构成了 v0.31.1 的核心价值。

二、最值得关注的升级：Apple Silicon 上的 Gemma 4 更快了

如果只用一句话概括这次更新，那就是：

Gemma 4 在 Ollama 的 Apple Silicon 环境中，生成 token 的速度平均提升接近 90%。

这是此次更新最亮眼的部分。

在实际使用本地大模型时，用户最敏感的体验之一就是“输出快不快”。不管是代码生成、问答、总结、翻译，还是长文本推理，只要 token 生成速度提升，用户等待时间就会缩短，交互流畅度就会明显变好。而这次 Ollama v0.31.1 的提升并不是几个百分点，而是“nearly 90% faster on average”，也就是平均接近 90% 的提升，这个数字足以说明此次优化的力度相当大。

这里还有两个关键限定条件不能忽略：

• 提升对象是 Gemma 4• 运行环境是 Apple Silicon也就是说，这次更新的重点受益群体，就是在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户而言，v0.31.1 的更新价值非常明确，不仅是功能层面的“支持”，而是实际性能层面的“显著变快”。

三、为什么会更快：核心来自 MTP

这次速度提升的关键技术点，是 multi-token prediction，也就是 MTP，多 token 预测。

从发布内容来看，Ollama 正是通过这一机制，让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。这里最值得注意的是，官方并不是简单说“做了优化”，而是明确指出是借助 MTP，实现了在 coding-agent benchmark 上平均接近 90% 的 token 生成提速。

这意味着什么？

意味着这次性能提升不是一个笼统的“代码优化”概念，而是有明确技术路径的：通过多 token 预测来提高生成效率。

更关键的是，这种优化并不是要求用户手动调整运行方式。Ollama 的处理方式是：

• 在运行过程中自动调整要 draft 的 token 数量• 这一过程自动完成• 用户不需要自己设置参数• 用户不需要理解复杂配置• 性能收益默认可用这背后的产品思路非常清楚：把复杂性留在系统内部，把速度提升直接交给用户。

对技术用户来说，这种设计非常友好。因为很多优化方案虽然理论上很好，但如果需要用户自己反复调试参数、分析场景、做兼容测试，那么它的实际落地价值就会被打折。而 Ollama 在 v0.31.1 中给出的方式是自动调优，这意味着用户升级版本之后，基本可以直接获得收益，而不需要增加新的使用负担。

四、自动调优是这次升级的一大亮点

在这次更新说明中，有一句非常重要的话：

Ollama auto-tunes how many tokens to draft as it runs

这句话的信息量很大。

它说明 Ollama 并不是固定使用某个静态的 draft token 数，而是在运行时自动调整。这种“边运行边调优”的方式，意味着系统会根据实际过程选择更合适的 token draft 数量，以达到更好的速度表现。

从用户视角看，这种能力带来的好处主要体现在三个层面：

第一，无需手动配置

很多性能优化最怕的就是“需要配置”。一旦涉及额外参数，用户就得花时间理解每个设置项的意义，甚至还要为不同模型、不同任务、不同设备分别测试。而这次更新的一个直接好处就是：不需要配置。

第二，默认即可享受加速

发布内容中已经明确说明，这项提速是 on by default。也就是说，用户不必主动开启，也不需要担心“是不是还没启用优化”。只要更新到对应版本，这项能力就是可用状态。

第三，不改变模型输出

这是很多用户非常关心的一点。性能提升如果以输出质量变化为代价，很多生产场景并不愿意接受。而 v0.31.1 给出的明确信息是：does not change the model's output。也就是说，这次速度提升并不会改变模型输出结果。

这点很关键，因为它意味着此次优化的价值，不只是“跑得更快”，而是“在不改变输出的前提下跑得更快”。这对于追求结果一致性的场景来说，意义尤其大。

五、接近90%的提升意味着什么

发布内容中提到，Gemma 4 在 Apple Silicon 上，借助 MTP，在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。

这里虽然只给出了一个概括性的结果，但这个结果本身已经非常有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在很多交互式任务中，生成速度越快，使用体验就越接近“实时反馈”。

接近 90% 的平均提升，可以从以下角度理解其意义：

• 同样的任务，等待输出的时间会缩短• 连续交互的节奏会更顺畅• 代码相关场景中的反馈速度更高• 本地模型运行时的“卡顿感”会明显下降• 用户对 Apple Silicon 本地部署的信心会更强需要注意的是，发布内容描述的是 across a coding-agent benchmark，也就是在一个 coding-agent benchmark 上取得的平均结果。这里最重要的是不要误读：官方给出的是基于该 benchmark 的平均表现。它清楚说明了提速的衡量场景，也使这个数字更具可参考性。

六、默认开启且不改变输出，这一点为什么很重要

在本地模型领域，很多用户升级新版本时会担心两个问题：

• 优化之后会不会引入新的配置复杂度• 加速之后会不会影响模型输出一致性而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答：

• 默认开启• 无需配置• 不改变模型输出这三点放在一起，其实就是这次更新最具传播力的卖点。

默认开启，意味着用户几乎没有迁移成本。
无需配置，意味着用户不需要额外学习和试错。
不改变输出，意味着用户可以放心接受这次性能提升。

从产品体验角度来看，这种升级模式很理想。因为真正好的优化，不应该让用户在“性能”和“稳定使用方式”之间二选一。v0.31.1 的亮点就在于，它把这两者结合在一起了。

七、What’s Changed 全量解读：这次更新到底改了什么

除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外，本次版本更新还列出了几个重要变更项。下面逐条来看。

1. Tightened Gemma 4 MoE model loading in the MLX engine

也就是：

在 MLX 引擎中收紧了 Gemma 4 MoE 模型加载。

这是一条很值得注意的更新。虽然发布内容没有展开更多说明，但它明确指出了调整对象和调整方向：

• 对象是 Gemma 4 MoE model loading• 环境是 MLX engine• 调整方向是 tightened从版本说明来看，这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更收紧的处理。对于版本稳定性和运行行为而言，这通常是一项非常关键的底层改动，因为模型加载是推理流程开始前的重要环节。此次更新没有把重点只放在“生成更快”上，也同时覆盖到了“加载环节更紧致”的部分，这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做优化，而不是单纯做某一个点的速度提升。

2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel

也就是：

将 MLX 引擎更新到最新版本，其中包括新的 small-batch matmul kernel。

这一条同样非常重要。因为它说明这次更新并不只是对 Ollama 自身逻辑进行调整，也包含了对底层依赖引擎的同步升级。

这里包含两层信息：

• MLX 引擎已更新到最新版本• 最新版本中包含新的 small-batch matmul kernel为什么这条信息值得重视？因为它是底层性能基础的一部分。发布内容虽然没有继续展开这个 kernel 的具体细节，但可以明确看出，v0.31.1 的性能提升并不是孤立存在的。它背后有底层引擎升级作为支撑。

也就是说，这次版本更新并不是“只在表面上做提速描述”，而是在引擎层面同步引入了新的能力。尤其是 small-batch matmul kernel 这样的更新，进一步说明这次版本不仅有上层行为优化，也有底层计算路径上的改进支撑。

3. Updated the underlying llama.cpp engine to build 9840

也就是：

底层 llama.cpp 引擎更新到 build 9840。

这条变更说明，Ollama v0.31.1 还同步更新了底层的 llama.cpp 引擎构建版本。对于很多关注本地推理生态的开发者来说，底层引擎版本的变化通常都非常值得关注，因为它会影响到整体运行基础。

从本次更新内容看，官方没有展开 build 9840 的具体细项，因此我们只需要准确把握一件事：

v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。

这意味着此次版本发布不只是局部修补，而是涉及到底层推理引擎的持续同步。这一点和 MLX 引擎更新结合起来看，更能体现出这次版本更新的完整性：上层有 Gemma 4 的 MTP 提升，下层有 MLX 和 llama.cpp 的同步升级。

4. Improved Gemma 4 multi-token prediction performance

也就是：

改进了 Gemma 4 的多 token 预测性能。

这条更新可以看作是和此次版本主题最直接对应的变更项之一。前面提到的 Apple Silicon 上 Gemma 4 显著提速，核心就来自 MTP；而在 What’s Changed 中，官方又单独列出了对 Gemma 4 MTP performance 的改进，这进一步强化了这次更新的主线非常明确：

围绕 Gemma 4 的多 token 预测能力做性能增强。

这说明此次发布不是偶然获得速度提升，而是在 MTP 层面进行了明确、定向的优化。对用户来说，可以直接把这条理解为：这次版本让 Gemma 4 的多 token 预测机制表现更好了，而这正是 Apple Silicon 上提速的重要来源。

八、把所有更新串起来看，v0.31.1的技术逻辑非常清晰

如果把本次更新拆开来看，每一条都很重要；但如果把它们串起来看，就会发现 v0.31.1 的优化路径其实非常统一。

它的整体逻辑大致可以归纳为：

• 围绕 Gemma 4 做重点优化• 重点提升 Apple Silicon 上的实际生成性能• 核心采用 MTP，也就是多 token 预测• 通过自动调节 draft token 数量获得更优运行效果• 该优化默认启用，用户无需配置• 在不改变模型输出的前提下实现加速• 同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载• 再通过更新 MLX 引擎和 llama.cpp 底层引擎，为整体优化提供支撑这样的版本更新有一个明显特点：目标集中、收益明确、落地成本极低。

对用户来说，这种更新是非常受欢迎的。因为它不要求用户改变习惯，不要求用户新增操作，只是在原有使用方式上，直接提供更快的体验。

九、为什么说这次更新很适合做“立即升级”

从发布内容看，v0.31.1 很适合被归类为“值得尽快升级”的版本，原因也很简单：

第一，收益明确。
Gemma 4 在 Apple Silicon 上显著提速，这是可以直接感知的收益。

第二，使用成本低。
默认开启，无需配置，不需要额外适配使用方法。

第三，输出不变。
不会改变模型输出，这对稳定使用尤为重要。

第四，底层同步升级。
MLX 引擎更新到最新版本，包含新的 small-batch matmul kernel；底层 llama.cpp 更新到 build 9840；Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧；Gemma 4 的 MTP 性能进一步改进。

这些点叠加起来，让 v0.31.1 不是一个“可升可不升”的小版本，而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说，这次更新的价值更加突出。

十、适合重点关注的用户群体

虽然这次更新内容不算特别长，但适合重点关注的用户其实很明确：

• 在 Apple Silicon 上运行 Ollama 的用户• 使用 Gemma 4 的用户• 关注本地模型生成速度的用户• 希望升级后无需重新配置的用户• 对输出一致性有要求的用户• 关注 MLX 与底层引擎更新的技术用户尤其是前两类用户，可以说是这次版本最直接的受益群体。因为更新说明已经明确指出，Gemma 4 在 Apple Silicon 上的速度提升非常明显，而且提升是默认开启的。

十一、这次更新最值得传播的几个关键信息

如果要把 v0.31.1 的亮点浓缩成几句最适合传播的话，那么可以概括为下面这些重点：

• ollama v0.31.1 于 2026 年 7 月 1 日发布• Gemma 4 在 Apple Silicon 上显著加速• 在 coding-agent benchmark 上，token 生成速度平均提升接近 90%• 提速依靠 multi-token prediction• Ollama 会在运行时自动调优 draft token 数量• 加速默认开启• 无需任何配置• 不改变模型输出• 收紧 Gemma 4 MoE 在 MLX 引擎中的模型加载• MLX 引擎更新到最新版本，并带来新的 small-batch matmul kernel• 底层 llama.cpp 引擎更新到 build 9840• Gemma 4 的 MTP 性能进一步提升这几条信息，几乎就是这次版本更新的完整核心。

十二、总结

代码地址：github.com/ollama/ollama

ollama v0.31.1 虽然是一个小版本号更新，但从实际影响来看，它绝对不是一个可以轻易忽略的版本。

这次更新最核心的突破，在于让 Gemma 4 在 Apple Silicon 上变得更快，而且不是小幅提升，而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是，这种提速依赖的 MTP 机制由 Ollama 自动调优，整个过程默认开启、无需配置、不会改变模型输出，让性能提升真正变成了一种“开箱即得”的能力。

与此同时，v0.31.1 还完成了多项底层与配套更新：

• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载• 将 MLX 引擎更新到最新版本• 引入新的 small-batch matmul kernel• 将底层 llama.cpp 引擎更新到 build 9840• 改进 Gemma 4 的多 token 预测性能综合来看，v0.31.1 的更新方向非常聚焦，围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级，形成了一套完整且直接有效的优化路径。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

登录查看剩余 70% 内容

专题三国战纪-风云再起整合版
专题三国战纪-乱世枭雄

热门阅读

官宣：宇树科技：IPO注册获批

07.03
AI产业链冰火两重天：上游吃撑下游亏麻

07.03
Agent 怎么沉淀技能:把一个好 prompt 变成全队资产

07.03

推荐下载

下载
《神剑伏魔录》（神剑风云）游戏音乐合集

其他游戏|7.73 MB

一款非常好玩的武侠闯关游戏
下载
《行尸走肉第一章》免安装中文汉化硬盘版下载

单机|436 MB

一款以动作冒险为主题的游戏
下载
《街头霸王X铁拳》免安装中文汉化硬盘版下载

单机|111MB

一款非常好玩的格斗游戏
下载
《生化危机：浣熊市行动》免安装中文硬盘版下载

单机|6310 MB

一款以动作射击为主题的游戏
下载
《暗黑破坏神3》免安装繁体中文正式版下载

单机|7630 MB

一款以角色扮演为主题的游戏
下载
《马克思佩恩3》免安装硬盘版下载

单机|27033 MB

一款以第三人称射击为主题的游戏

详情

ollama v0.31.1发布：Apple Silicon平台Gemma 4提速近90% 默认开启无感升级

梦幻西游华光玉之伤任务怎么完成-华光玉之伤任务的领取条件

梦幻西游炼兽笼与烧双速度对比-不同等级宝宝选择建议

《梦幻西游》坐骑怎么快速升级-快速提升坐骑等级的技巧

梦幻西游花草种子怎么获取-花草种子的种植方法及获取途径

《梦幻西游》如何快速找到各门派入口-各门派起点坐标和传送方法

DNF究极能量誓约套装数据总览

蜜阅

功夫对决

mojipopai卡通表情生成器

刀塔传奇2变态版

露比餐厅

掌上海关

罗布变身模拟器

iTime

育儿科普

记加班记工

跳跃冲刺物语(高空赛道跑酷

传存

深海伐木计划

暖暖猫(猫咪养护应用)

蛋皮小说

斧头帮大乱斗

时旅相机

白蛇

Savana背单词听力阅读

美妆日记

刀塔传奇2官方版

电充营地

AliceReCode

跨语识新知2026

详情

导航

详情

ollama v0.31.1发布：Apple Silicon平台Gemma 4提速近90% 默认开启无感升级

梦幻西游华光玉之伤任务怎么完成-华光玉之伤任务的领取条件

梦幻西游炼兽笼与烧双速度对比-不同等级宝宝选择建议

《梦幻西游》坐骑怎么快速升级-快速提升坐骑等级的技巧

梦幻西游花草种子怎么获取-花草种子的种植方法及获取途径

《梦幻西游》如何快速找到各门派入口-各门派起点坐标和传送方法

DNF究极能量誓约套装数据总览

蜜阅

功夫对决

mojipopai卡通表情生成器

刀塔传奇2变态版

露比餐厅

掌上海关

罗布变身模拟器

iTime

育儿科普

记加班记工

跳跃冲刺物语(高空赛道跑酷

传存

深海伐木计划

暖暖猫(猫咪养护应用)

蛋皮小说

斧头帮大乱斗

时旅相机

白蛇

Savana背单词听力阅读

美妆日记

刀塔传奇2官方版

电充营地

AliceReCode

跨语识新知2026