Docker Compose 方式快速部署Ollama 本地部署大模型

0.环境说明：

①Ollama介绍：

Ollama是一款开源、轻量级的本地大模型运行工具，支持跨平台一键部署，让用户无需编程经验也能在个人电脑上安全、高效地运行和管理主流AI模型，有效保障数据隐私。

当前流行模型一览：

模型系列	参数量（可选）	适配方向
DeepSeek-Coder	1.3B / 1.5B/6.7B / 7B / 8B/14B/33B	代码补全、基础问答、多语言编程、通用对话、代码生成
Llama 3	8B/70B	通用对话、复杂推理、多语言任务、知识库、内容生成
Mistral (Ministral 3)	3B/8B/14B	离线推理、低成本嵌入式应用、并行架构、文本分析等
Mistral Large 3	675B (MoE)	长文档理解、Agent应用、顶尖助手
Gemma 3	12B	通用任务，谷歌出品的高效模型
CodeLlama	7B/13B/34B	代码补全、代码分析及生成、代码专项优化
Yi-Coder	1.5B	轻量级Web开发辅助
Qwen-Coder	9B/7B/14B	全栈Web开发、多语言编程、中英双语编程、代码修复、算法实现等

①配置要求:

CPU	2CORE
RAM	4GB
Disk	10GB
操作系统	LINUX_X86-64
端口开放	11434

1.Docker Compose 方式安装ollama

配置docker-compose文件：

mkdir ollama #建立存放目录
vi docker-compose.yml #编辑docker-compose文件

写入以下内容：

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"       # 标准端口
      - "21434:21434"       # 可选API端口
    volumes:
      - ./ollama_data:/root/.ollama  # 模型持久化存储
      - /etc/localtime:/etc/localtime:ro  # 时区同步
    environment:
      - OLLAMA_HOST=0.0.0.0       # 允许外部访问
      - OLLAMA_KEEP_ALIVE=24h     # 模型驻留时间
      - OLLAMA_NUM_PARALLEL=4     # 并行请求数
      - OLLAMA_GPU_LAYERS=999     # GPU加速层数（NVIDIA需配置）
      - OLLAMA_CONTEXT_LENGTH=4096
      - OLLAMA_FLASH_ATTENTION=true
    deploy:
      resources:
        limits:                # 硬性限制（必须满足）
          cpus: "6"          # 最多使用6个CPU核心（如50%）
          memory: 6888M         # 最大内存6888MB
        reservations:          # 软性预留（最低保障）
          cpus: "2"         # 至少分配2个CPU核心
          memory: 2048M         # 至少预留2048MB内存
    restart: unless-stopped
    networks:
      - llm_network

networks:
  llm_network:
    driver: bridge

保存后启动容器

docker-compose up -d

2.拉取模型到本地

①进入容器，拉取模型：

进入容器

docker exec -it ollama bash

拉取模型，这里举个几个例子，实际情况可以根据配置自行选择

ollama pull gemma3:4b
ollama pull qwen2.5-coder:1.5b
ollama pull deepseek-r1:1.5b
ollama pull llama3.2:latest

②检验模型：

检验模型是否拉取成功，容器内执行：

ollama list

测试模型

# 测试 deepseek 模型
curl -X POST http://your-ip:11434/api/generate \
  -d '{"model": "deepseek-r1:1.5b", "prompt": "Hello", "stream": false}'

这里的“your-ip”可以使用宿主机IP或者ollama容器IP

返回结果参考：

3.其它

①模型配置要求：

型系列	参数量	GPU显存需求 (VRAM)	内存/CPU要求 (RAM)
DeepSeek-Coder	1.3B / 1.5B	无需独显 (CPU可运行) 可选：4GB+ VRAM (GPU加速)	8GB+ RAM 4核以上CPU
	6.7B / 7B / 8B	必需： 12GB+ VRAM (如 RTX 3060/4060) 量化可选：8GB+ VRAM	16GB+ RAM 8核以上CPU
	14B	必需： 16GB+ VRAM (如 RTX 4090/A5000)	32GB+ RAM 12核以上CPU
	33B	必需： 24GB+ VRAM 或双卡 (如 RTX 4090 x2) 量化后 (AWQ) 可选：约18GB VRAM	32GB+ RAM 16核以上CPU
Llama 3	8B	必需： 16GB+ VRAM (FP16) 量化可选：8GB+ VRAM (4-bit)	16GB+ RAM 8核以上CPU
	70B	必需： 140GB+ VRAM (多卡，如 2×A100 80GB) 量化可选：48GB+ VRAM (4-bit)	128GB+ RAM 32核以上CPU
Mistral (Ministral 3)	3B	无需独显 (CPU/边缘设备) 可选：8GB+ VRAM (FP8)	8GB+ RAM 4核以上CPU
	8B	可选： 12GB+ VRAM (FP8)	16GB+ RAM 8核以上CPU
	14B	可选： 24GB+ VRAM (FP8)	32GB+ RAM 12核以上CPU
Mistral Large 3	675B (MoE)	必需： 8×H100 (80GB) 或 8×H200 (141GB) 集群	企业级服务器集群
Gemma 3	12B	必需：单张 A100 40GB+ 或 RTX 4090 24GB	32GB+ RAM 12核以上CPU
CodeLlama	7B	必需： 16GB+ VRAM (FP16) 量化可选：8GB+ VRAM	16GB+ RAM 8核以上CPU
	13B	必需： 24GB+ VRAM (FP16)	32GB+ RAM 12核以上CPU
	34B	必需：多卡或大显存企业级GPU (如 A100 40GB x2)	64GB+ RAM 16核以上CPU
Yi-Coder	1.5B	无需独显 (CPU可运行)	8GB+ RAM 4核以上CPU
	9B	必需： 8GB+ VRAM (如 RTX 3070/4060)	16GB+ RAM 8核以上CPU
Qwen-Coder	7B	必需： 16GB+ VRAM (FP16) 量化可选：8GB+ VRAM	16GB+ RAM 8核以上CPU
	14B	必需： 24GB+ VRAM (如 RTX 4090)	32GB+ RAM 12核以上CPU

②Docker Compose 部署openclaw并接入本地模型的方式：

全网最详细 Docker Compose 安装 ClawBot/OpenClaw

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

分类

Docker Compose 方式快速部署Ollama 本地部署大模型

0.环境说明：

1.Docker Compose 方式安装ollama

2.拉取模型到本地

1 ping

发表回复取消回复

其他操作

近期评论

归档

近期文章

分类

分类

Docker Compose 方式快速部署Ollama 本地部署大模型

0.环境说明：

1.Docker Compose 方式安装ollama

2.拉取模型到本地

1 ping

发表回复 取消回复

其他操作

近期评论

归档

近期文章

分类

标签

发表回复取消回复