2025年大模型应用落地深度实践:Training Recipe、Omni与Agent技术栈全解析

张开发
2026/4/8 1:54:46 15 分钟阅读

分享文章

2025年大模型应用落地深度实践:Training Recipe、Omni与Agent技术栈全解析
基于大模型进行应用开发或提供服务一般来说具有两种模式模式一大模型由第三方构建和维护应用开发者团队一般不需要了解模型构建和部署的相关细节不必了解 Transformer 架构不必了解模型的训练过程遵循既定协议调用模型 API 即可。模式二大模型由开发者构建和维护应用开发者团队的门槛会更高一些需要懂得如何将模型进行加载和运行甚至从头进行训练和微调Transformer、DataSet、PyTorch/TensorFlow 等机器学习和神经网络的机制原理知识恐怕也是多多益善。初步计划通过两篇笔记来说一说大模型工程环境相关的话题第一篇如何加载和运行一个已经训练好的大模型通过简单的实践开始感受实践相关的知识。第二篇如何从头训练、微调和部署一个大模型更贴近于真实的生产过程但门槛更高一些。这是第一篇。1.1 PyTorch 和 CUDA深度学习库 PyTorch 是最基本但也是最核心的依赖包。PyTorch开源的深度学习库由 Meta AI Research 开发广泛用于自然语言处理、计算机视觉和语音识别等领域。TorchVision计算机视觉任务处理库提供图像处理的相关功能基于 PyTorch 构建。TorchAudio计算机音频任务处理库提供音频信号处理的相关功能基于 PyTorch 构建。CUDA并行计算编程框架由 NVIDIA 开发用于在 NVIDIA GPU 上加速计算速可被 PyTorch、TensorFlow 等深度学习库进行调用。PyTorch 和 Python 有一定的版本依赖关系Python 至少需要 3.8 版本但不能太高比如当前 3.12 版本就没有对应的 PyTorchPyTorch 一般至少需要 2.0 版本。需要注意的是PyTorch 有 GPU 和 CPU 版本之分。绝大部分时候大模型都会在 GPU 环境中运行需要使用匹配 GPU 的 PyTorch 版本但需要在系统中提前安装 CUDA Toolkit纯 CPU 环境一般用于个人开发与调测的情况可以选用匹配 CPU 的 PyTorch 版本。PyTorch 官网提供了一个自动生成 PyTorch、TorchVision、TorchAudio、CUDA 安装脚本的功能选择合适的 PyTorch 版本、操作系统、包管理系统、CUDA 版本即可。可以通过 Conda 在线安装 PyTorch如果不指定 pytorch-cuda默认会安装 CPU 版本。GPU 环境conda install pytorch torchvision torchaudio pytorch-cuda11.8 -c pytorch -c nvidiaCPU 环境conda install pytorch torchvision torchaudio cpuonly -c pytorch还可以通过下载 .whl 文件离线安装 PyTorch、TorchVision、TorchAudio但需要正确选择合适的版本其中 cu121 表示 CUDA12.1 cp310 表示 python3.10。1.2 TransformerTransformer 是 LLMs 的基础框架能够方便的训练、加载和运行各类大模型的 CheckPoint可以简单理解为模型配置参数权重。如果没有这样一个框架就要自己去实现整个深度神经网络的代码。 而这里所说的 Transformer特指 HuggingFace 的 Transformer。HuggingFace 本来打算做一个聊天机器人并在 GitHub上开源了自己实现的 Transformers 和训练数据集。结果聊天机器人的业务没搞起来但这个 Transformer 却在深度学习社区迅速火爆起来成为 Transformer 事实上的标准以及大模型领域的 GitHub目前已经共享超过 46 万个模型9.6 万个数据集。HuggingFace Transformer 框架向上可以兼容 BERT、GPT、T5、LLaMA、Alpaca、Baichuan 等数千个预训练大模型向下可以兼容 PyTorch、TensorFlow、JAX 三个最热门的深度学习库可以直接使用一个框架训练模型然后用另一个加载和推理。架构优雅每个定义的 Python 模块均完全独立方便使用者修改和快速研究实验。拥有统一的接口规范使用者可以很方便的进行模型下载、使用和共享。可以使用 pip 或 conda 安装 Transformer 包。pip install transformersconda install transformers(Python310) loaclhost:~ andy$ conda search transformersLoading channels: doneName Version Build Channeltransformers 2.1.1 pyhd3eb1b0_0 pkgs/maintransformers 4.14.1 pyhd3eb1b0_0 pkgs/maintransformers 4.18.0 py310hecd8cb5_0 pkgs/maintransformers 4.18.0 py310hecd8cb5_1 pkgs/maintransformers 4.18.0 py37hecd8cb5_0 pkgs/maintransformers 4.18.0 py37hecd8cb5_1 pkgs/maintransformers 4.18.0 py38hecd8cb5_0 pkgs/maintransformers 4.18.0 py38hecd8cb5_1 pkgs/maintransformers 4.18.0 py39hecd8cb5_0 pkgs/maintransformers 4.18.0 py39hecd8cb5_1 pkgs/maintransformers 4.24.0 py310hecd8cb5_0 pkgs/maintransformers 4.24.0 py37hecd8cb5_0 pkgs/maintransformers 4.24.0 py38hecd8cb5_0 pkgs/maintransformers 4.24.0 py39hecd8cb5_0 pkgs/maintransformers 4.29.2 py310hecd8cb5_0 pkgs/maintransformers 4.29.2 py38hecd8cb5_0 pkgs/maintransformers 4.29.2 py39hecd8cb5_0 pkgs/maintransformers 4.31.0 py310hecd8cb5_0 pkgs/maintransformers 4.31.0 py311hecd8cb5_0 pkgs/maintransformers 4.31.0 py38hecd8cb5_0 pkgs/maintransformers 4.31.0 py39hecd8cb5_0 pkgs/maintransformers 4.32.1 py310hecd8cb5_0 pkgs/maintransformers 4.32.1 py311hecd8cb5_0 pkgs/maintransformers 4.32.1 py38hecd8cb5_0 pkgs/maintransformers 4.32.1 py39hecd8cb5_0 pkgs/main1.3 其他依赖包一般清况下大模型在发布时都会给出必要的依赖包查看 requirements.txt 即可。下面分别是 ChatGLM-6B 和 Baichuan-7B 的依赖关系除了前面两节提到的 PyTorch 和 Transformer其他依赖包一般情况下也需要安装。Baichuan-7B requirements.txtdeepspeed0.9.2numpy1.23.5sentencepiece0.1.97torch2.0.0transformers4.29.1xformers0.0.20ChatGLM-6B requirements.txtprotobuftransformers4.27.1cpm_kernelstorch1.10gradiomdtex2htmlsentencepieceaccelerate简要介绍一下可能会涉及的依赖包不同的模型情况不同 根据情况进行安装即可1资源优化相关Bitsandbytes位操作和字节操作库当资源无法满足大模型要求可以使用 Bitsandbytes 降低参数权重精度降低显存/内存的资源消耗。xFormersMeta AI 开源的深度学习优化库专为 NVIDIA GPU 设计的通过优化算法减少显存使用提升任务执行性能。Deepspeed微软开源的深度学习优化库针对大型语言模型和其他深度神经网络进行了优化提升训练效率和可扩展性。AccelerateHugging Face 开源的深度学习优化库旨在简化和加速 PyTorch 深度学习模型的训练过程。它提供了一套易于使用的 API 来处理分布式训练、混合精度以及跨多个 GPU 或多节点集群上的模型优化任务。TritonNVIDIA 开源的高性能推理服务平台用于在云端、本地数据中心或边缘设备上部署和运行深度学习模型。它支持多种框架如 TensorFlow, PyTorch, ONNX, MXNet 等生成的模型并通过优化实现了跨多种 GPU 和 CPU 硬件平台的高效推理服务。2数据处理相关SentencepieceGoogle 开源的一个文本处理库能够将原始文本切分成一组有意义的、可重用的符号或Token这些符号可以是字、词语片段或者整个词汇表之外的自定义Token。ProtobufGoogle 开发的一种灵活、高效且与语言无关的结构化数据序列化协议用于通信协议、数据存储等场景的数据交换格式。NumPy一个开源的数学、科学计算、数据分析库提供了强大的N维数组对象以及大量的数学函数是众多科学计算、机器学习和数据分析库的基础如 SciPy、Pandas、Matplotlib 等都依赖于NumPy。3操作运行相关Gradio用于快速创建交互式 UI以便展示和演示机器学习模型的工作方式。通过 Gradio 可以轻松地搭建 Web 界面接收用户输入查看模型预测结果。2. 模型文件下载可以在 HuggingFace 官网上下载所需任务模态的模型模型类别如下自然语言处理Natural Language ProcessingNLP包括文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成等任务场景。计算机视觉Computer VisionCV包括图像分类、目标检测等任务场景音频处理Audio包括自动语音识别和音频分类等任务场景。多模态Multimodal包括表格问答、光学字符识别、从扫描文档提取信息、视频分类和视觉问答等任务场景2026年大模型已经无处不在但幻觉hallucination仍是企业落地的最大杀手金融风控、医疗问诊、客服机器人动辄编造事实直接导致合规风险和信任崩盘。知识图谱Knowledge Graph的核心价值正是结构化知识把碎片化数据变成实体-关系-属性的三元组网络让大模型先查图谱再回答。行业价值支持复杂多跳推理、知识溯源、实时更新广泛用于推荐系统、智能搜索、企业大脑。大模型痛点纯向量RAG召回率低、无法处理逻辑关系知识图谱大模型GraphRAG可将准确率提升40%以上。图谱赋能意义把大模型从概率生成器变成可信知识引擎真正实现企业级私有化落地。核心知识点知识图谱不是又一个数据库而是大模型的长期记忆和推理大脑。为方便大家学习 这里给大家整理了一份学习资料包 需要的同学 根据下图自取即可

更多文章