零基础部署DeepSeek-R1-Distill-Qwen-1.5B:图文详解每一步

张开发
2026/4/6 21:18:34 15 分钟阅读

分享文章

零基础部署DeepSeek-R1-Distill-Qwen-1.5B:图文详解每一步
零基础部署DeepSeek-R1-Distill-Qwen-1.5B图文详解每一步1. 模型简介与准备工作1.1 DeepSeek-R1-Distill-Qwen-1.5B模型特点DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型通过知识蒸馏技术优化而来的轻量级版本。这个模型特别适合需要在本地部署运行的中文场景主要优势包括轻量化设计模型参数量压缩至1.5B级别内存占用比原版减少75%垂直领域优化在数学推理、法律文书、医疗问诊等场景表现突出硬件友好支持INT8量化可在NVIDIA T4等边缘设备上流畅运行1.2 部署前准备在开始部署前请确保你的环境满足以下要求硬件要求GPUNVIDIA显卡推荐8GB以上显存内存至少16GB存储20GB以上可用空间软件要求Linux系统推荐Ubuntu 20.04Python 3.8CUDA 11.8vLLM 0.3.02. 环境配置与安装2.1 安装CUDA和驱动首先安装NVIDIA驱动和CUDA工具包# 添加NVIDIA官方仓库 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ / # 安装CUDA 11.8 sudo apt-get update sudo apt-get install -y cuda-11-8安装完成后验证CUDA是否安装成功nvidia-smi nvcc --version2.2 创建Python虚拟环境建议使用conda创建独立的Python环境conda create -n deepseek python3.10 -y conda activate deepseek2.3 安装vLLM在虚拟环境中安装vLLM及其依赖pip install vllm验证安装是否成功python -c import vllm; print(vllm.__version__)3. 模型下载与准备3.1 下载模型权重可以从ModelScope或Hugging Face下载模型权重。这里以ModelScope为例git lfs install git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git cd DeepSeek-R1-Distill-Qwen-1.5B3.2 检查模型文件确保模型目录包含以下关键文件config.json model-00001-of-00002.safetensors model-00002-of-00002.safetensors tokenizer.json tokenizer_config.json4. 启动模型服务4.1 使用vLLM启动服务运行以下命令启动模型服务vllm serve /path/to/DeepSeek-R1-Distill-Qwen-1.5B \ --gpu-memory-utilization 0.9 \ --max-model-len 8192 \ --port 8000参数说明--gpu-memory-utilization设置GPU显存利用率--max-model-len设置最大上下文长度--port指定服务端口4.2 验证服务启动查看启动日志确认服务是否正常运行cat /root/workspace/deepseek_qwen.log如果看到类似下面的输出表示服务已成功启动INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit) INFO: Application startup complete.5. 测试模型服务5.1 使用Python客户端测试创建一个测试脚本test_model.pyfrom openai import OpenAI client OpenAI( base_urlhttp://localhost:8000/v1, api_keynone ) response client.chat.completions.create( modelDeepSeek-R1-Distill-Qwen-1.5B, messages[ {role: user, content: 请用中文解释一下量子计算的基本原理} ], temperature0.6, max_tokens1024 ) print(response.choices[0].message.content)运行测试脚本python test_model.py5.2 流式对话测试修改测试脚本支持流式输出from openai import OpenAI client OpenAI( base_urlhttp://localhost:8000/v1, api_keynone ) stream client.chat.completions.create( modelDeepSeek-R1-Distill-Qwen-1.5B, messages[ {role: user, content: 写一首关于春天的七言绝句} ], temperature0.6, max_tokens256, streamTrue ) for chunk in stream: content chunk.choices[0].delta.content if content is not None: print(content, end, flushTrue) print()6. 使用建议与优化6.1 模型使用最佳实践根据官方建议使用该模型时应注意温度设置推荐0.5-0.7之间避免过高导致重复输出提示工程数学问题建议包含请逐步推理等指令输出控制在提示开头添加\n可避免模型跳过推理6.2 性能优化技巧如果遇到性能问题可以尝试以下优化降低--gpu-memory-utilization参数值减小--max-model-len设置添加--enforce-eager参数减少内存占用7. 总结通过本文的步骤我们完成了DeepSeek-R1-Distill-Qwen-1.5B模型的本地部署全过程。这个轻量级模型特别适合需要离线运行中文NLP任务的场景具有以下优势部署简单使用vLLM可以快速启动服务资源友好对硬件要求相对较低性能优秀在数学推理等任务上表现突出未来可以进一步探索模型微调、与其他工具链集成等进阶用法。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章