Ollama v0.31.1重磅更新,为Apple Silicon用户带来近90%的Gemma 4提速,体验升级无感开启。核心内容:1. 性能飞跃:Gemma 4在Apple Silicon上通过多token预测机制实现显著加速2. 无感体验:优化默认开启,无需配置即可享受更快的模型生成速度3. 底层加固:伴随MLX等引擎更新,带来更稳定可靠的运行环境
前言ollama v0.31.1 已正式发布,发布时间为 2026 年 7 月 1 日。虽然这次版本更新从表面上看并不是一次“大而全”的功能堆叠式升级,但从实际价值来看,它非常有分量,尤其是对使用 Apple Silicon 设备运行 Gemma 4 的用户来说,这次更新意义非常直接:更快、更稳、更省心。这次版本更新的核心关键词非常清晰,那就是:Faster Gemma 4 on Apple Silicon。根据发布内容,Gemma 4 现在在 Ollama 的 Apple Silicon 环境中获得了显著加速,依靠 multi-token prediction,也就是 MTP,多 token 预测机制,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。这个提升幅度非常醒目,因为它不是轻微优化,也不是个别场景下的偶然加速,而是一次足以让用户明显感知到体验变化的版本更新。更重要的是,这次性能提升并不要求用户额外学习新的使用方式。Ollama 会在运行过程中自动调整要 draft 的 token 数量,也就是说,整个加速过程是自动完成的,默认开启、无需配置,并且不会改变模型输出。对于很多用户来说,这样的优化才是真正高价值的优化:不用折腾,不用改参数,不用适配流程,更新后就能直接享受到收益。下面我们就围绕这次 v0.31.1 的发布内容,做一次详细解读。一、版本信息概览本次更新版本为:• v0.31.1 Latest• 发布时间:2026 年 7 月 1 日从公开信息来看,v0.31.1 的重点主要集中在以下几个方面:• Gemma 4 在 Apple Silicon 上显著提速• 通过 multi-token prediction 提升生成性能• Ollama 自动调节 draft token 数量• 该加速默认启用,无需配置• 该优化不会改变模型输出• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载• MLX 引擎升级到最新版本• 新版本 MLX 引擎包含新的 small-batch matmul kernel• 底层 llama.cpp 引擎更新到 build 9840• 改进 Gemma 4 的 MTP 性能可以看到,这次更新并不是单点优化,而是围绕 Gemma 4 在 Apple Silicon 上的运行体验,进行了多层面的联合改进:既有推理速度层面的提升,也有底层引擎层面的更新,还有模型加载环节的收紧优化。这些变化组合在一起,构成了 v0.31.1 的核心价值。二、最值得关注的升级:Apple Silicon 上的 Gemma 4 更快了如果只用一句话概括这次更新,那就是:Gemma 4 在 Ollama 的 Apple Silicon 环境中,生成 token 的速度平均提升接近 90%。这是此次更新最亮眼的部分。在实际使用本地大模型时,用户最敏感的体验之一就是“输出快不快”。不管是代码生成、问答、总结、翻译,还是长文本推理,只要 token 生成速度提升,用户等待时间就会缩短,交互流畅度就会明显变好。而这次 Ollama v0.31.1 的提升并不是几个百分点,而是“nearly 90% faster on average”,也就是平均接近 90% 的提升,这个数字足以说明此次优化的力度相当大。这里还有两个关键限定条件不能忽略:• 提升对象是 Gemma 4• 运行环境是 Apple Silicon也就是说,这次更新的重点受益群体,就是在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户而言,v0.31.1 的更新价值非常明确,不仅是功能层面的“支持”,而是实际性能层面的“显著变快”。三、为什么会更快:核心来自 MTP这次速度提升的关键技术点,是 multi-token prediction,也就是 MTP,多 token 预测。从发布内容来看,Ollama 正是通过这一机制,让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。这里最值得注意的是,官方并不是简单说“做了优化”,而是明确指出是借助 MTP,实现了在 coding-agent benchmark 上平均接近 90% 的 token 生成提速。这意味着什么?意味着这次性能提升不是一个笼统的“代码优化”概念,而是有明确技术路径的:通过多 token 预测来提高生成效率。更关键的是,这种优化并不是要求用户手动调整运行方式。Ollama 的处理方式是:• 在运行过程中自动调整要 draft 的 token 数量• 这一过程自动完成• 用户不需要自己设置参数• 用户不需要理解复杂配置• 性能收益默认可用这背后的产品思路非常清楚:把复杂性留在系统内部,把速度提升直接交给用户。对技术用户来说,这种设计非常友好。因为很多优化方案虽然理论上很好,但如果需要用户自己反复调试参数、分析场景、做兼容测试,那么它的实际落地价值就会被打折。而 Ollama 在 v0.31.1 中给出的方式是自动调优,这意味着用户升级版本之后,基本可以直接获得收益,而不需要增加新的使用负担。四、自动调优是这次升级的一大亮点在这次更新说明中,有一句非常重要的话:Ollama auto-tunes how many tokens to draft as it runs这句话的信息量很大。它说明 Ollama 并不是固定使用某个静态的 draft token 数,而是在运行时自动调整。这种“边运行边调优”的方式,意味着系统会根据实际过程选择更合适的 token draft 数量,以达到更好的速度表现。从用户视角看,这种能力带来的好处主要体现在三个层面:第一,无需手动配置很多性能优化最怕的就是“需要配置”。一旦涉及额外参数,用户就得花时间理解每个设置项的意义,甚至还要为不同模型、不同任务、不同设备分别测试。而这次更新的一个直接好处就是:不需要配置。第二,默认即可享受加速发布内容中已经明确说明,这项提速是 on by default。也就是说,用户不必主动开启,也不需要担心“是不是还没启用优化”。只要更新到对应版本,这项能力就是可用状态。第三,不改变模型输出这是很多用户非常关心的一点。性能提升如果以输出质量变化为代价,很多生产场景并不愿意接受。而 v0.31.1 给出的明确信息是:does not change the model's output。也就是说,这次速度提升并不会改变模型输出结果。这点很关键,因为它意味着此次优化的价值,不只是“跑得更快”,而是“在不改变输出的前提下跑得更快”。这对于追求结果一致性的场景来说,意义尤其大。五、接近90%的提升意味着什么发布内容中提到,Gemma 4 在 Apple Silicon 上,借助 MTP,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。这里虽然只给出了一个概括性的结果,但这个结果本身已经非常有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在很多交互式任务中,生成速度越快,使用体验就越接近“实时反馈”。接近 90% 的平均提升,可以从以下角度理解其意义:• 同样的任务,等待输出的时间会缩短• 连续交互的节奏会更顺畅• 代码相关场景中的反馈速度更高• 本地模型运行时的“卡顿感”会明显下降• 用户对 Apple Silicon 本地部署的信心会更强需要注意的是,发布内容描述的是 across a coding-agent benchmark,也就是在一个 coding-agent benchmark 上取得的平均结果。这里最重要的是不要误读:官方给出的是基于该 benchmark 的平均表现。它清楚说明了提速的衡量场景,也使这个数字更具可参考性。六、默认开启且不改变输出,这一点为什么很重要在本地模型领域,很多用户升级新版本时会担心两个问题:• 优化之后会不会引入新的配置复杂度• 加速之后会不会影响模型输出一致性而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答:• 默认开启• 无需配置• 不改变模型输出这三点放在一起,其实就是这次更新最具传播力的卖点。默认开启,意味着用户几乎没有迁移成本。
无需配置,意味着用户不需要额外学习和试错。
不改变输出,意味着用户可以放心接受这次性能提升。从产品体验角度来看,这种升级模式很理想。因为真正好的优化,不应该让用户在“性能”和“稳定使用方式”之间二选一。v0.31.1 的亮点就在于,它把这两者结合在一起了。七、What’s Changed 全量解读:这次更新到底改了什么除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外,本次版本更新还列出了几个重要变更项。下面逐条来看。1. Tightened Gemma 4 MoE model loading in the MLX engine也就是:在 MLX 引擎中收紧了 Gemma 4 MoE 模型加载。这是一条很值得注意的更新。虽然发布内容没有展开更多说明,但它明确指出了调整对象和调整方向:• 对象是 Gemma 4 MoE model loading• 环境是 MLX engine• 调整方向是 tightened从版本说明来看,这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更收紧的处理。对于版本稳定性和运行行为而言,这通常是一项非常关键的底层改动,因为模型加载是推理流程开始前的重要环节。此次更新没有把重点只放在“生成更快”上,也同时覆盖到了“加载环节更紧致”的部分,这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做优化,而不是单纯做某一个点的速度提升。2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel也就是:将 MLX 引擎更新到最新版本,其中包括新的 small-batch matmul kernel。这一条同样非常重要。因为它说明这次更新并不只是对 Ollama 自身逻辑进行调整,也包含了对底层依赖引擎的同步升级。这里包含两层信息:• MLX 引擎已更新到最新版本• 最新版本中包含新的 small-batch matmul kernel为什么这条信息值得重视?因为它是底层性能基础的一部分。发布内容虽然没有继续展开这个 kernel 的具体细节,但可以明确看出,v0.31.1 的性能提升并不是孤立存在的。它背后有底层引擎升级作为支撑。也就是说,这次版本更新并不是“只在表面上做提速描述”,而是在引擎层面同步引入了新的能力。尤其是 small-batch matmul kernel 这样的更新,进一步说明这次版本不仅有上层行为优化,也有底层计算路径上的改进支撑。3. Updated the underlying llama.cpp engine to build 9840也就是:底层 llama.cpp 引擎更新到 build 9840。这条变更说明,Ollama v0.31.1 还同步更新了底层的 llama.cpp 引擎构建版本。对于很多关注本地推理生态的开发者来说,底层引擎版本的变化通常都非常值得关注,因为它会影响到整体运行基础。从本次更新内容看,官方没有展开 build 9840 的具体细项,因此我们只需要准确把握一件事:v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。这意味着此次版本发布不只是局部修补,而是涉及到底层推理引擎的持续同步。这一点和 MLX 引擎更新结合起来看,更能体现出这次版本更新的完整性:上层有 Gemma 4 的 MTP 提升,下层有 MLX 和 llama.cpp 的同步升级。4. Improved Gemma 4 multi-token prediction performance也就是:改进了 Gemma 4 的多 token 预测性能。这条更新可以看作是和此次版本主题最直接对应的变更项之一。前面提到的 Apple Silicon 上 Gemma 4 显著提速,核心就来自 MTP;而在 What’s Changed 中,官方又单独列出了对 Gemma 4 MTP performance 的改进,这进一步强化了这次更新的主线非常明确:围绕 Gemma 4 的多 token 预测能力做性能增强。这说明此次发布不是偶然获得速度提升,而是在 MTP 层面进行了明确、定向的优化。对用户来说,可以直接把这条理解为:这次版本让 Gemma 4 的多 token 预测机制表现更好了,而这正是 Apple Silicon 上提速的重要来源。八、把所有更新串起来看,v0.31.1的技术逻辑非常清晰如果把本次更新拆开来看,每一条都很重要;但如果把它们串起来看,就会发现 v0.31.1 的优化路径其实非常统一。它的整体逻辑大致可以归纳为:• 围绕 Gemma 4 做重点优化• 重点提升 Apple Silicon 上的实际生成性能• 核心采用 MTP,也就是多 token 预测• 通过自动调节 draft token 数量获得更优运行效果• 该优化默认启用,用户无需配置• 在不改变模型输出的前提下实现加速• 同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载• 再通过更新 MLX 引擎和 llama.cpp 底层引擎,为整体优化提供支撑这样的版本更新有一个明显特点:目标集中、收益明确、落地成本极低。对用户来说,这种更新是非常受欢迎的。因为它不要求用户改变习惯,不要求用户新增操作,只是在原有使用方式上,直接提供更快的体验。九、为什么说这次更新很适合做“立即升级”从发布内容看,v0.31.1 很适合被归类为“值得尽快升级”的版本,原因也很简单:第一,收益明确。
Gemma 4 在 Apple Silicon 上显著提速,这是可以直接感知的收益。第二,使用成本低。
默认开启,无需配置,不需要额外适配使用方法。第三,输出不变。
不会改变模型输出,这对稳定使用尤为重要。第四,底层同步升级。
MLX 引擎更新到最新版本,包含新的 small-batch matmul kernel;底层 llama.cpp 更新到 build 9840;Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧;Gemma 4 的 MTP 性能进一步改进。这些点叠加起来,让 v0.31.1 不是一个“可升可不升”的小版本,而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说,这次更新的价值更加突出。十、适合重点关注的用户群体虽然这次更新内容不算特别长,但适合重点关注的用户其实很明确:• 在 Apple Silicon 上运行 Ollama 的用户• 使用 Gemma 4 的用户• 关注本地模型生成速度的用户• 希望升级后无需重新配置的用户• 对输出一致性有要求的用户• 关注 MLX 与底层引擎更新的技术用户尤其是前两类用户,可以说是这次版本最直接的受益群体。因为更新说明已经明确指出,Gemma 4 在 Apple Silicon 上的速度提升非常明显,而且提升是默认开启的。十一、这次更新最值得传播的几个关键信息如果要把 v0.31.1 的亮点浓缩成几句最适合传播的话,那么可以概括为下面这些重点:• ollama v0.31.1 于 2026 年 7 月 1 日发布• Gemma 4 在 Apple Silicon 上显著加速• 在 coding-agent benchmark 上,token 生成速度平均提升接近 90%• 提速依靠 multi-token prediction• Ollama 会在运行时自动调优 draft token 数量• 加速默认开启• 无需任何配置• 不改变模型输出• 收紧 Gemma 4 MoE 在 MLX 引擎中的模型加载• MLX 引擎更新到最新版本,并带来新的 small-batch matmul kernel• 底层 llama.cpp 引擎更新到 build 9840• Gemma 4 的 MTP 性能进一步提升这几条信息,几乎就是这次版本更新的完整核心。十二、总结代码地址:github.com/ollama/ollamaollama v0.31.1 虽然是一个小版本号更新,但从实际影响来看,它绝对不是一个可以轻易忽略的版本。这次更新最核心的突破,在于让 Gemma 4 在 Apple Silicon 上变得更快,而且不是小幅提升,而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是,这种提速依赖的 MTP 机制由 Ollama 自动调优,整个过程默认开启、无需配置、不会改变模型输出,让性能提升真正变成了一种“开箱即得”的能力。与此同时,v0.31.1 还完成了多项底层与配套更新:• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载• 将 MLX 引擎更新到最新版本• 引入新的 small-batch matmul kernel• 将底层 llama.cpp 引擎更新到 build 9840• 改进 Gemma 4 的多 token 预测性能综合来看,v0.31.1 的更新方向非常聚焦,围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级,形成了一套完整且直接有效的优化路径。 ·我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
·
登录查看剩余 70% 内容