【星海出品】智能科普(三)

张开发
2026/4/17 22:42:04 15 分钟阅读

分享文章

【星海出品】智能科普(三)
真理有其时间、范围、和对象的限制The Article was writing in 2026-04-15注册公司今天有腾讯云的一个活动刚好缺个测试环境99元1年一个还挺划算的。腾讯云https://console.cloud.tencent.com/lighthouse/instance/index?rid4Nous Research 正式发布了开源AI Agent项目 Hermes Agent这个公司和 Anthropic有什么关联.本地跑 Nous 模型8B/36B/70B同样预算下台式机性能更强、可扩展、散热更稳。如果你只在云端跑模型不打算本地推理那轻薄本也够用可以不纠结台式机。本地跑 Hermes Agent Nous 本地模型瓶颈就三个显存VRAM决定你能跑多大的模型8B/36B/70B和上下文长度。Hermes Agent 要求至少 64K 上下文nxcode.io视频内存Video MemoryVideo Random Access MemoryGPUGraphics Processing Unit内存RAM不够会把模型或系统挤到硬盘交换速度骤降。硬盘SSD模型文件与技能库都要读。GPU的性能指标GPU的性能指标可以通过以下几个方面来衡量像素填充率Pixel Fill Rate像素填充率指的是GPU每秒钟可以绘制图像的像素数。这对于游戏等需要高清晰度图像的应用来说尤为重要。纹理填充率Texture Fill Rate纹理填充率指的是GPU每秒钟可以呈现的纹理像素数量也就是图形中所需的表面纹理贴图。纹理填充率越高计算机的图像处理速度也会更快。浮点运算能力Floating Point Operations Per Second浮点运算能力指的是GPU每秒钟可以进行多少次浮点数运算。这对于需要进行复杂的科学计算和图像处理的应用来说尤为重要。显卡价格参考网页: 英伟达型号CUDA 核心数显存容量显存类型显存位宽侧重点/适用场景RTX 406030728 GBGDDR6128‑bit入门光追/1080p、跑小模型8B techpowerup.comRTX 4070 / 4070 SUPER5888 / 716812 GBGDDR6X / 部分GDDR6192‑bit2K 高画质、多任务、轻中度模型/工具调用 techpowerup.com 1RTX 4080 / 4080 SUPER9728 / 1024016 GBGDDR6X256‑bit4K 游戏与创作、兼顾大模型中等批量、长上下文 techpowerup.com 1RTX 40901638424 GBGDDR6X384‑bit旗舰4K/8K、重渲染、大模型36B/70B的主力卡 techpowerup.com 14060 (8 GB)能轻松跑 8B勉强可试 13B 左右36B/70B 基本不现实会直接爆显存。4070 / 4070 SUPER (12 GB)8B 跑得很快、上下文也可以开得比较长13B~20B 可以玩36B 很勉强需要非常激进的量化体验一般。4080 / 4080 SUPER (16 GB)8B/13B/20B 都比较舒服36B 在 4‑bit 量化下有希望但要注意显存碎片和上下文长度70B 依然不现实。4090 (24 GB)36B4‑bit基本可以当“常驻本地”的主力档位70B 在 4‑bit 控制上下文长度的情况下可以跑是多卡/高配方案里最常见的一张卡4070 / 4070 SUPER (12 GB)区别增加一点功耗墙从 200W 提升到 220W。在游戏和常规图形渲染中4070 SUPER 比 4070 大约快 15% 左右。报错OOM CUDA out of memory 会导致停止也可以开启其他的功能框架提供的 CPU offload/ZeRO-Offload/KV cache offload 显存不够时把部分权重/优化器状态/KV 缓存放到系统内存需要时再搬回 GPU这种来回搬数据会带来明显的额外开销 统一内存UMA或 CUDA 统一内存 在一些架构上比如某些集成 GPU 或服务器上的 managed memory可以跨 CPU–GPU 共享一块更大的内存池并通过页面调度让 GPU“看上去”有更多内存 在 MAC 上结构上使用的是该方法。 当 GPU 真正需要的容量超出其本地缓存时会通过 PCIe 把数据放在主机内存里访问延迟增加性能下降但逻辑上仍然可以运行 一些应用/模型服务器提供了--cpu-offload-gb 之类的选项就是让模型/部分状态在内存和显存之间来回搬https://github.com/huggingface/diffusers/issues/11872https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/understanding-memory.htmlhttps://discuss.vllm.ai/t/deploy-a-big-llm-when-gpu-vram-not-enough/1354

更多文章