本地离线大模型实战:Ollama + Llama 3.1 8B 全流程部署:适配VSCode Continue代码助手
前言
之前一直依赖云端AI写代码、整理文案,但一是敏感代码不敢上传公网,二是网络波动经常卡顿。折腾一周,把Llama3.1 8B部署到普通Windows台式机,搭配Ollama一键调度,还打通了VSCode Continue插件实现本地AI编码助手。全程免费、完全离线、16G内存就能流畅跑,8G内存降负载也能凑合用,把踩坑全过程整理成保姆级教程。
一、环境前置说明
硬件门槛
- 最低:8G内存(仅聊天、短句问答,速度偏慢)
- 推荐:16G及以上内存(完整支持代码生成、Agent工具调用)
- 显卡:有无N卡都行,有显卡会自动加速,纯CPU也可运行
系统
Windows 10/11、macOS、Linux通用,本文以Windows为主操作演示
二、Ollama安装(改安装盘+模型存储盘,拒绝塞满C盘)
1. 本体安装到D盘
- 官网下载安装包
- 不要双击直接安装,打开下载文件夹,地址栏输入
cmd回车唤起命令行 - 执行安装命令,指定D盘安装路径
OllamaSetup.exe /DIR=D:Ollama
等待进度走完,程序本体就安装在D盘,不占用C盘空间。
2. 模型文件迁移至D盘(核心,模型体积动辄5GB+)
- D盘新建文件夹
D:ollama_models - 系统环境变量配置:
- Win+R输入
sysdm.cpl→ 高级 → 环境变量 - 系统变量→新建:变量名
OLLAMA_MODELS,变量值D:ollama_models
- Win+R输入
- 生效配置:重启电脑,或终端执行服务重启指令
net stop ollama
net start ollama
后续所有下载的模型都会自动存到D盘目录。
3. 拉取Llama3.1 8B模型
打开任意终端,执行拉取指令,自动下载量化好的8B基础模型
ollama pull llama3.1:8b
下载完成后验证模型列表
ollama list
输出能看到llama3.1:8b即代表下载成功。
4. 基础终端对话测试
直接运行模型开启对话,断网也能正常问答
ollama run llama3.1:8b
输入问题即可交互,输入/bye退出对话窗口。
三、VSCode Continue插件对接本地模型(踩坑重点)
很多人装完插件识别不了模型、Agent模式黄标报错,这里把实测可用的配置方案写死。
1. 基础安装
- VSCode扩展面板搜索
Continue,安装插件后重启编辑器 - 先后台启动Ollama服务(必须常驻窗口,关闭则连接失效)
ollama serve
2. 配置文件关键:新版Continue仅识别config.yaml
- 打开文件资源管理器,地址栏输入路径直达配置目录
%USERPROFILE%.continue
2. 删除残留config.json文件,只保留/新建config.yaml
3. 粘贴完整兼容配置(适配Llama3.1工具调用、Agent模式)
name: ollama-llama31
version: 0.0.1
schema: v1models:
- name: Llama 3.1 8B (Ollama)
provider: ollama
model: llama3.1:8b
apiBase:
roles:
- chat
- autocomplete
capabilities:
- tool_use
toolCallFormat: llama3
contextWindow: 8192
maxTokens: 2048tabAutocompleteModel:
name: Llama 3.1 8B (Ollama)
provider: ollama
model: llama3.1:8b
apiBase: selectedModel: Llama 3.1 8B (Ollama)systemMessage: |
你是编程助手,必须优先使用工具调用完成任务,例如查看文件、搜索代码、列出目录。请用中文回答。experimental:
ollamaCompatibleTools: true
3. 重启验证
- 保存yaml文件,完全关闭VSCode再重新打开
Ctrl+L唤起Continue侧边栏,底部模型下拉框选中Llama 3.1 8B (Ollama)- 切换模式:Chat普通对话、Agent智能工具模式
四、高频踩坑问题解决方案
问题1:Agent模式出现黄色感叹号
- 核心原因:插件判定模型未开启工具调用能力
- 排查步骤
- 第一步:cmd终端执行curl测试模型原生工具支持
curl -d "{"model":"llama3.1:8b","messages":[{"role":"user","content":"列出当前目录的文件"}],"stream":false,"tools":[{"type":"function","function":{"name":"listDir","description":"列出目录文件","parameters":{"type":"object","properties":{"dir":{"type":"string"}}}}}]}"
返回JSON包含tool_calls字段=模型本身支持;无则重装模型
ollama rm llama3.1:8b && ollama pull llama3.1:8b
- 第二步:核对yaml配置,确认存在
capabilities: [- tool_use]、toolCallFormat: llama3、experimental兼容开关 - 第三步:彻底卸载Continue插件清除缓存,重装后重新加载配置
问题2:VSCode识别不到配置里的模型
- 检查yaml模型节点使用
name字段(旧版title字段已失效) - 必须配置
roles: [chat,autocomplete],缺失会直接隐藏模型选项 - 确认无残留
config.json,插件优先读取json会覆盖yaml配置
问题3:C盘空间被模型占满
严格按照教程配置OLLAMA_MODELS环境变量迁移模型目录;已下载的模型可手动剪切.ollama/models文件夹到D盘路径,配置环境变量后重启服务即可无缝识别。
五、拓展优化与替代方案
- 图形化聊天界面:搭配Open WebUI,浏览器打开类ChatGPT页面管理多模型
docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问 可视化对话
- 低配8G内存优化:替换更小体量通义千问轻量模型
ollama pull qwen:2b
工具调用稳定、内存占用更低
- 代码专项模型:写代码为主可拉取深度求索代码模型,代码理解能力优于原生Llama3.1 8B
ollama pull deepseek-coder:6.7b
结尾总结
Ollama把本地部署的门槛压到极低,不用复杂CUDA、PyTorch环境编译,一行命令搞定模型调度。搭配Continue插件后,完全实现本地离线AI编码,代码隐私零泄露。16G内存是体验分水岭,日常写脚本、调试代码、文档总结,Llama3.1 8B的能力完全够用,对于注重数据隐私、经常断网办公的开发者,这套组合性价比拉满。
-
07.03
V社传送门2率先获取Steam Frame兼容性评级
-
07.03
未获授权售卖《传送门》主题机壳 国外3C厂遭Valve警告
-
07.03
PlayStation 抛弃实体媒介的未来不仅令人担忧 更是一种冒犯。
-
07.03
Apple TV 引用威廉·吉布森经典赛博朋克小说名句:预热《神经漫游者》改编剧集
-
07.03
“他是不是吃了安定片”:马特·史密斯难以置信基努·里维斯竟在飞机上看那部口碑崩塌的烂片《莫比亚斯》
-
07.03
火线战姬朱雀强度解析火线战姬朱雀实战表现与角色定位详述
-
-
下载
- 《神剑伏魔录》(神剑风云)游戏音乐合集
- 其他游戏|7.73 MB
- 一款非常好玩的武侠闯关游戏
-
-
下载
- 《行尸走肉第一章》免安装中文汉化硬盘版下载
- 单机|436 MB
- 一款以动作冒险为主题的游戏
-
-
下载
- 《街头霸王X铁拳》免安装中文汉化硬盘版下载
- 单机|111MB
- 一款非常好玩的格斗游戏
-
-
下载
- 《生化危机:浣熊市行动》免安装中文硬盘版下载
- 单机|6310 MB
- 一款以动作射击为主题的游戏
-
-
下载
- 《暗黑破坏神3》免安装繁体中文正式版下载
- 单机|7630 MB
- 一款以角色扮演为主题的游戏
-
-
下载
- 《马克思佩恩3》免安装硬盘版下载
- 单机|27033 MB
- 一款以第三人称射击为主题的游戏