手把手教你用llama.cpp转换Huggingface模型到GGUF格式（附tokenizer.model缺失解决方案）

张开发

• 2026/4/15 17:35:21 • 15 分钟阅读

分享文章

手把手教你用llama.cpp转换Huggingface模型到GGUF格式（附tokenizer.model缺失解决方案）

手把手解决LoRA微调模型转换GGUF时的Tokenizer缺失问题当你兴奋地将LoRA微调后的模型权重与基础模型合并准备转换为高效的GGUF格式时突然遭遇FileNotFoundError: tokenizer.model missing的报错——这就像在马拉松终点线前被绊倒。别担心这个问题比你想象的更常见也更容易解决。作为经历过多次模型转换的老手我将带你深入理解问题根源并提供三种不同场景下的解决方案。1. 问题诊断为什么合并后的模型会丢失tokenizer.model让我们先解剖这个看似简单的报错背后隐藏的机制。当你使用Hugging Face的AutoTokenizer.from_pretrained()加载基础模型的分词器时默认参数use_fastTrue会启用所谓的快速分词器。这个设计本意是提升处理速度但却带来了意想不到的副作用# 典型的问题代码 tokenizer AutoTokenizer.from_pretrained(base_model_dir) # 隐含use_fastTrue快速分词器依赖的tokenizers库Rust实现与原始LLaMA的SentencePiece分词器有本质区别。当保存分词器时快速模式只会生成以下文件tokenizer_config.jsonspecial_tokens_map.jsontokenizer.json而原始模型必需的tokenizer.model文件SentencePiece的二进制模型却消失了。这就是后续转换GGUF格式时报错的根本原因。验证方法检查你的合并模型目录如果发现缺少.model后缀的文件而只有上述JSON文件就确认遇到了这个问题。2. 基础解决方案强制使用慢速分词器最直接的修复方案是在合并脚本中明确指定use_fastFalse# 修正后的代码片段 tokenizer AutoTokenizer.from_pretrained( base_model_dir, use_fastFalse, # 关键修改 trust_remote_codeTrue # 某些模型需要此参数 ) model AutoModelForCausalLM.from_pretrained(base_model_dir, torch_dtypetorch.float16) model PeftModel.from_pretrained(model, lora_model_dir) model model.merge_and_unload() # 保存时确保创建完整目录 output_dir.mkdir(parentsTrue, exist_okTrue) model.save_pretrained(output_dir, safe_serializationTrue) tokenizer.save_pretrained(output_dir)执行此修改后你的输出目录应该包含以下关键文件merged_model/ ├── config.json ├── generation_config.json ├── pytorch_model.bin ├── tokenizer.model # 现在这个文件出现了 ├── tokenizer_config.json └── special_tokens_map.json注意某些基座模型如部分Chinese-LLaMA变体可能需要额外传递revision参数指定正确的分支。3. 进阶场景处理当基础模型也没有tokenizer.model时有时即便正确设置了use_fastFalse问题仍然存在——这可能是因为你的基础模型本身就缺少tokenizer.model。这种情况常见于二次分发的模型或某些社区改编版本。此时你需要3.1 从原始来源获取分词器找到模型对应的原始发布渠道如Meta官方或可信的Hugging Face仓库下载完整的tokenizer.model文件。将其手动复制到你的基础模型目录cp /path/to/original/tokenizer.model /path/to/your/base_model/3.2 使用llama.cpp内置的分词器转换工具如果无法获取原始文件llama.cpp提供了应急方案# 在llama.cpp目录下 python convert.py /path/to/your_model --vocab-only这个命令会尝试从现有分词器文件重建tokenizer.model。虽然不如原始文件完美但在大多数情况下可以工作。4. 完整转换流程示范让我们整合所有步骤展示一个从LoRA微调到GGUF量化的完整示例# 步骤1合并LoRA权重merge_lora.py from transformers import AutoModelForCausalLM, AutoTokenizer from peft import PeftModel from pathlib import Path base_model meta-llama/Llama-2-7b-hf lora_model ./lora_finetuned output_dir Path(./merged_model) tokenizer AutoTokenizer.from_pretrained(base_model, use_fastFalse) model AutoModelForCausalLM.from_pretrained(base_model, torch_dtypetorch.float16) model PeftModel.from_pretrained(model, lora_model) model model.merge_and_unload() output_dir.mkdir(exist_okTrue) model.save_pretrained(output_dir, safe_serializationTrue) tokenizer.save_pretrained(output_dir)# 步骤2转换为GGUF格式 cd llama.cpp python convert-hf-to-gguf.py ./merged_model --outtype f16 --outfile ./converted/llama2-7b-finetuned.f16.gguf # 步骤3量化以Q5_K_M为例 ./quantize ./converted/llama2-7b-finetuned.f16.gguf ./quantized/llama2-7b-finetuned.Q5_K_M.gguf Q5_K_M5. 验证与调试技巧转换完成后强烈建议运行基础测试# 测试加载GGUF模型 ./main -m ./quantized/llama2-7b-finetuned.Q5_K_M.gguf -p 介绍一下你自己 # 检查分词器是否正常工作 ./tokenize -m ./quantized/llama2-7b-finetuned.Q5_K_M.gguf -p hello常见问题排查表症状可能原因解决方案转换时报KeyError模型结构不匹配检查config.json中的architectures字段量化后输出乱码分词器不兼容重新转换并验证tokenizer.model内存不足模型太大尝试先转换为f16格式再量化记住模型转换过程中保持目录结构清晰非常重要。建议采用如下标准布局project/ ├── base_models/ │ └── llama-2-7b-hf/ ├── lora_adapters/ │ └── my_lora/ ├── merged_models/ │ └── my_merged_model/ ├── gguf_converted/ └── gguf_quantized/这种结构不仅方便管理还能在出现问题时快速定位各阶段产物。

更多文章

前端开发 2026/4/15 17:33:56

奇迹MU开服必看：Data文件夹里这20个文件，到底哪个管爆率哪个管商店？

奇迹MU开服指南：Data文件夹核心文件功能速查手册刚接触奇迹MU服务端的新手GM们，面对Data文件夹里密密麻麻的文件时，总会感到无从下手。这份指南将帮你快速定位关键配置文件，解决开服过程中最常见的调整需求。我们按照功能场景分类…

很多团队一聊到 SAP Fiori Launchpad 定制，脑子里跳出来的还是首页换 Logo、改主题色、挪一挪磁贴位置。真到项目里做久了就会发现，这个理解太浅了。SAP 官方把 SAP Fiori Launchpad 定义成一个基于 SAPUI5 的 shell，它不是单独的一张主页，而是一个承载多种应用技术的运行容…

张开发

前端开发 2026/4/15 17:24:36

SAP Fiori launchpad，不只是首页，而是企业业务入口的总控台

很多人每天打开 SAP 系统时，看到的只是一个有磁贴、有链接、有搜索框的界面，于是很容易把 SAP Fiori launchpad 理解成一个漂亮一点的首页。可一旦把真实业务放进去，这个判断就会立刻显得太轻了。采购经理早上进入系统，不是为了欣赏首页布局，而是要先看到待处理合同、异常…

张开发

手把手教你用llama.cpp转换Huggingface模型到GGUF格式（附tokenizer.model缺失解决方案）

最新文章

VBA年终奖双计税最优对比宏，推翻挨个口算两种计税方式旧套路，代码一键切换单独/合并计税，直观显税额差值选最优，几秒对比碾压反复手算试错。

AIGlasses OS Pro 实战：5步完成交通信号识别，新手也能轻松搞定

SITS2026选型决策树：9大维度对比GitHub Copilot、Tabnine、CodeWhisperer与国产新锐（附ROI测算模板）

【源码拆解】手把手教你搭建一套高可用互联网医院系统架构

密度峰值聚类算法(DPC)的优化策略与实践应用

ncmdumpGUI终极指南：三步完成网易云音乐NCM文件解密转换

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

奇迹MU开服必看：Data文件夹里这20个文件，到底哪个管爆率哪个管商店？

逆向某多Anti-Content时，我是如何定位并绕过Webpack打包代码的？

ArcGIS导入OSM数据报错（未将对象引用设置到对象的实例）的实战排查指南

终极指南：用OpenCore Legacy Patcher让老旧Mac焕发新生，支持最新macOS系统

3分钟快速解密网易云NCM文件：免费开源工具终极指南

GPT-6震撼来袭！OpenAI孤注一掷，能否击退Claude Code？

3分钟搞定网易云音乐NCM文件转换：ncmdumpGUI零基础上手指南

Zed编辑器AI功能配置避坑指南：从API Key获取到模型测试的完整流程（附常见错误排查）

手把手教你用ESP32-S3 DIY一个会聊天的智能音箱（支持文心一言/豆包双模型切换）

终极数字手写笔记解决方案：Xournal++让PDF批注变得简单高效

把 SAP Fiori Launchpad 改到真正顺手，企业里该动的不是首页皮肤，而是角色入口、导航逻辑和工作节奏

SAP Fiori launchpad，不只是首页，而是企业业务入口的总控台

手把手教你用llama.cpp转换Huggingface模型到GGUF格式（附tokenizer.model缺失解决方案）

最新文章

VBA年终奖双计税最优对比宏，推翻挨个口算两种计税方式旧套路，代码一键切换单独/合并计税，直观显税额差值选最优，几秒对比碾压反复手算试错。

AIGlasses OS Pro 实战：5步完成交通信号识别，新手也能轻松搞定

SITS2026选型决策树：9大维度对比GitHub Copilot、Tabnine、CodeWhisperer与国产新锐（附ROI测算模板）

【源码拆解】手把手教你搭建一套高可用互联网医院系统架构​

密度峰值聚类算法(DPC)的优化策略与实践应用

ncmdumpGUI终极指南：三步完成网易云音乐NCM文件解密转换

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【源码拆解】手把手教你搭建一套高可用互联网医院系统架构

【信息安全概论实验报告1】隐写技术