硬件迷你主机+Windows系统到位,为方便后续研究学习方便,咱也本地部署跑一把火了几个月的DeepSeek R1模型玩玩,看看这台小机器最多能够跑多少参数的量化模型?🤣
什么是 Ollama
Ollama 是一款免费的开源项目,任何人都可以在他的系统上本地运行开放的 LLM。它支持 Linux(Systemd 驱动的发行版)、Windows 和 macOS(Apple 芯片)。
它是一个命令行界面 (CLI) 工具,可以方便地下载 LLM 并在本地运行。使用几条命令,就可以下载 Llama 3、Mixtral 等模型。
可以把 Ollama 想象成 Docker。使用 Docker,我们可以从镜像存储库下载各种映像并在容器中运行它们。同样,使用 Ollama,我们可以下载各种开源 LLM,然后在我们的终端中运行它们。
安装 Ollama
注意:你应该至少有 8GB 的 RAM 来运行 7B 模型,16GB 的 RAM 来运行13B模型,以及 32GB 的 RAM 来运行 32B 的模型。
*
Windows 11 不在需要WSL。
Ollama 现在作为原生 Windows 应用程序运行,支持 NVIDIA 和 AMD Radeon GPU。安装 Ollama for Windows 后,Ollama 将在后台运行,Ollama 命令行工具将在 cmd、powershell 或你习惯的终端应用程序中使用。Ollama API 将在 http://localhost:11434 上提供服务。
访问 Ollama 官网,下载 Windows 版本的安装包。如果你的设备是 Mac 系统,就下载 macOS 版即可。

Linux 系统通过以下命令安装部署:
curl -fsSL https://ollama.com/install.sh | sh
更改模型存储位置
前面默认安装到了C盘,由于本地模型都比较大,需要更改 Ollama 存储下载模型的位置。设置系统环境变量,添加 OLLAMA_MODELS。
启动设置(Windows 11),搜索环境变量,点击编辑系统环境变量。编辑或新建一个新的系统环境变量OLLAMA_MODELS
,设置为希望存储模型的路径。然后保存即可。

由于本地部署,不涉及外网安全问题。编辑或新建系统环境变量OLLAMA_HOST
,设置为 0.0.0.0:11434.

❕如果部署的环境外网能访问到,需要考虑 Ollama 的安全性,做相关的防火墙或访问权限限制。
如果 Ollama 已经运行,退出系统托盘中的应用程序。然后保存环境变量后启动新终端进行模型的下载和部署。
部署 DeepSeek-R1
由于电脑内存有 64GB,先来个 deepseek-r1 Q4 的量化版。打开终端,测试Ollama是否安装好,并且能在命令行使用。
ollama -v
如果能正常显示版本号,则进行下一步。
ollama run deepseek-r1
会自动下载 deepseek-r1 7B的模型,如果需要其他版本或者模型,可以去官网找对应模型名称即可。
等待下载完成后,会自动启动服务,就能在命令行进行模型对话了。

CPU 瓶颈
看了下进程,CPU模式下跑 7B 速度还可以(CPU占用也超80%)。后面跑 14B 的就有点吃力了,主要是一跑模型,CPU占用过高,就会影响其他线程和任务。

留个作业,如何利用 AMD Radeon 780M Graphics 这张集成显卡的 GPU 来跑 Ollama 本地大模型?🤔