Docker Compose 方式快速部署Ollama 本地部署大模型

0.环境说明:

①Ollama介绍:

Ollama是一款开源、轻量级的本地大模型运行工具,支持跨平台一键部署,让用户无需编程经验也能在个人电脑上安全、高效地运行和管理主流AI模型,有效保障数据隐私 。

当前流行模型一览:

模型系列参数量(可选)适配方向
DeepSeek-Coder1.3B / 1.5B/6.7B / 7B / 8B/14B/33B代码补全、基础问答、多语言编程、通用对话、代码生成
Llama 38B/70B通用对话、复杂推理、多语言任务、知识库、内容生成
Mistral (Ministral 3)3B/8B/14B离线推理、低成本嵌入式应用、并行架构、文本分析等
Mistral Large 3675B (MoE)长文档理解、Agent应用、顶尖助手
Gemma 312B通用任务,谷歌出品的高效模型
CodeLlama7B/13B/34B代码补全、代码分析及生成、代码专项优化
Yi-Coder1.5B轻量级Web开发辅助
Qwen-Coder9B/7B/14B全栈Web开发、多语言编程、中英双语编程、代码修复、算法实现等

①配置要求:

CPU2CORE
RAM4GB
Disk10GB
操作系统LINUX_X86-64
端口开放11434

1.Docker Compose 方式安装ollama

配置docker-compose文件:

mkdir ollama #建立存放目录
vi docker-compose.yml #编辑docker-compose文件

写入以下内容:

version: '3.8'

services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434" # 标准端口
- "21434:21434" # 可选API端口
volumes:
- ./ollama_data:/root/.ollama # 模型持久化存储
- /etc/localtime:/etc/localtime:ro # 时区同步
environment:
- OLLAMA_HOST=0.0.0.0 # 允许外部访问
- OLLAMA_KEEP_ALIVE=24h # 模型驻留时间
- OLLAMA_NUM_PARALLEL=4 # 并行请求数
- OLLAMA_GPU_LAYERS=999 # GPU加速层数(NVIDIA需配置)
- OLLAMA_CONTEXT_LENGTH=4096
- OLLAMA_FLASH_ATTENTION=true
deploy:
resources:
limits: # 硬性限制(必须满足)
cpus: "6" # 最多使用6个CPU核心(如50%)
memory: 6888M # 最大内存6888MB
reservations: # 软性预留(最低保障)
cpus: "2" # 至少分配2个CPU核心
memory: 2048M # 至少预留2048MB内存
restart: unless-stopped
networks:
- llm_network

networks:
llm_network:
driver: bridge

保存后启动容器

docker-compose up -d

2.拉取模型到本地

①进入容器,拉取模型:

进入容器

docker exec -it ollama bash

拉取模型,这里举个几个例子,实际情况可以根据配置自行选择

ollama pull gemma3:4b
ollama pull qwen2.5-coder:1.5b
ollama pull deepseek-r1:1.5b
ollama pull llama3.2:latest

②检验模型:

检验模型是否拉取成功,容器内执行:

ollama list

测试模型

# 测试 deepseek 模型
curl -X POST http://your-ip:11434/api/generate \
-d '{"model": "deepseek-r1:1.5b", "prompt": "Hello", "stream": false}'

这里的“your-ip”可以使用宿主机IP或者ollama容器IP

返回结果参考:

3.其它

①模型配置要求:

型系列参数量GPU显存需求 (VRAM)内存/CPU要求 (RAM)
DeepSeek-Coder1.3B / 1.5B无需独显 (CPU可运行)
可选:4GB+ VRAM (GPU加速)
8GB+ RAM
4核以上CPU
6.7B / 7B / 8B必需: 12GB+ VRAM (如 RTX 3060/4060)
量化可选:8GB+ VRAM
16GB+ RAM
8核以上CPU
14B必需: 16GB+ VRAM (如 RTX 4090/A5000)32GB+ RAM
12核以上CPU
33B必需: 24GB+ VRAM 或双卡 (如 RTX 4090 x2)
量化后 (AWQ) 可选:约18GB VRAM
32GB+ RAM
16核以上CPU
Llama 38B必需: 16GB+ VRAM (FP16)
量化可选:8GB+ VRAM (4-bit)
16GB+ RAM
8核以上CPU
70B必需: 140GB+ VRAM (多卡,如 2×A100 80GB)
量化可选:48GB+ VRAM (4-bit)
128GB+ RAM
32核以上CPU
Mistral (Ministral 3)3B无需独显 (CPU/边缘设备)
可选:8GB+ VRAM (FP8)
8GB+ RAM
4核以上CPU
8B可选: 12GB+ VRAM (FP8)16GB+ RAM
8核以上CPU
14B可选: 24GB+ VRAM (FP8)32GB+ RAM
12核以上CPU
Mistral Large 3675B (MoE)必需: 8×H100 (80GB) 或 8×H200 (141GB) 集群企业级服务器集群
Gemma 312B必需: 单张 A100 40GB+ 或 RTX 4090 24GB32GB+ RAM
12核以上CPU
CodeLlama7B必需: 16GB+ VRAM (FP16)
量化可选:8GB+ VRAM
16GB+ RAM
8核以上CPU
13B必需: 24GB+ VRAM (FP16)32GB+ RAM
12核以上CPU
34B必需: 多卡或大显存企业级GPU (如 A100 40GB x2)64GB+ RAM
16核以上CPU
Yi-Coder1.5B无需独显 (CPU可运行)8GB+ RAM
4核以上CPU
9B必需: 8GB+ VRAM (如 RTX 3070/4060)16GB+ RAM
8核以上CPU
Qwen-Coder7B必需: 16GB+ VRAM (FP16)
量化可选:8GB+ VRAM
16GB+ RAM
8核以上CPU
14B必需: 24GB+ VRAM (如 RTX 4090)32GB+ RAM
12核以上CPU

②Docker Compose 部署openclaw并接入本地模型的方式:

1 ping

  1. […] Docker Compose 方式快速部署Ollama 本地部署大模型 […]

发表回复

Your email address will not be published.