【星海出品】智能科普(三)

张开发

• 2026/4/17 22:42:04 • 15 分钟阅读

分享文章

真理有其时间、范围、和对象的限制The Article was writing in 2026-04-15注册公司今天有腾讯云的一个活动刚好缺个测试环境99元1年一个还挺划算的。腾讯云https://console.cloud.tencent.com/lighthouse/instance/index?rid4Nous Research 正式发布了开源AI Agent项目 Hermes Agent这个公司和 Anthropic有什么关联.本地跑 Nous 模型8B/36B/70B同样预算下台式机性能更强、可扩展、散热更稳。如果你只在云端跑模型不打算本地推理那轻薄本也够用可以不纠结台式机。本地跑 Hermes Agent Nous 本地模型瓶颈就三个显存VRAM决定你能跑多大的模型8B/36B/70B和上下文长度。Hermes Agent 要求至少 64K 上下文nxcode.io视频内存Video MemoryVideo Random Access MemoryGPUGraphics Processing Unit内存RAM不够会把模型或系统挤到硬盘交换速度骤降。硬盘SSD模型文件与技能库都要读。GPU的性能指标GPU的性能指标可以通过以下几个方面来衡量像素填充率Pixel Fill Rate像素填充率指的是GPU每秒钟可以绘制图像的像素数。这对于游戏等需要高清晰度图像的应用来说尤为重要。纹理填充率Texture Fill Rate纹理填充率指的是GPU每秒钟可以呈现的纹理像素数量也就是图形中所需的表面纹理贴图。纹理填充率越高计算机的图像处理速度也会更快。浮点运算能力Floating Point Operations Per Second浮点运算能力指的是GPU每秒钟可以进行多少次浮点数运算。这对于需要进行复杂的科学计算和图像处理的应用来说尤为重要。显卡价格参考网页: 英伟达型号CUDA 核心数显存容量显存类型显存位宽侧重点/适用场景RTX 406030728 GBGDDR6128‑bit入门光追/1080p、跑小模型8B techpowerup.comRTX 4070 / 4070 SUPER5888 / 716812 GBGDDR6X / 部分GDDR6192‑bit2K 高画质、多任务、轻中度模型/工具调用 techpowerup.com 1RTX 4080 / 4080 SUPER9728 / 1024016 GBGDDR6X256‑bit4K 游戏与创作、兼顾大模型中等批量、长上下文 techpowerup.com 1RTX 40901638424 GBGDDR6X384‑bit旗舰4K/8K、重渲染、大模型36B/70B的主力卡 techpowerup.com 14060 (8 GB)能轻松跑 8B勉强可试 13B 左右36B/70B 基本不现实会直接爆显存。4070 / 4070 SUPER (12 GB)8B 跑得很快、上下文也可以开得比较长13B~20B 可以玩36B 很勉强需要非常激进的量化体验一般。4080 / 4080 SUPER (16 GB)8B/13B/20B 都比较舒服36B 在 4‑bit 量化下有希望但要注意显存碎片和上下文长度70B 依然不现实。4090 (24 GB)36B4‑bit基本可以当“常驻本地”的主力档位70B 在 4‑bit 控制上下文长度的情况下可以跑是多卡/高配方案里最常见的一张卡4070 / 4070 SUPER (12 GB)区别增加一点功耗墙从 200W 提升到 220W。在游戏和常规图形渲染中4070 SUPER 比 4070 大约快 15% 左右。报错OOM CUDA out of memory 会导致停止也可以开启其他的功能框架提供的 CPU offload/ZeRO-Offload/KV cache offload 显存不够时把部分权重/优化器状态/KV 缓存放到系统内存需要时再搬回 GPU这种来回搬数据会带来明显的额外开销统一内存UMA或 CUDA 统一内存在一些架构上比如某些集成 GPU 或服务器上的 managed memory可以跨 CPU–GPU 共享一块更大的内存池并通过页面调度让 GPU“看上去”有更多内存在 MAC 上结构上使用的是该方法。当 GPU 真正需要的容量超出其本地缓存时会通过 PCIe 把数据放在主机内存里访问延迟增加性能下降但逻辑上仍然可以运行一些应用/模型服务器提供了--cpu-offload-gb 之类的选项就是让模型/部分状态在内存和显存之间来回搬https://github.com/huggingface/diffusers/issues/11872https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/understanding-memory.htmlhttps://discuss.vllm.ai/t/deploy-a-big-llm-when-gpu-vram-not-enough/1354

【星海出品】智能科普(三)

最新文章

【仅限前500名开发者】：2026奇点大会AI注释生成开源工具链抢先体验版（含VS Code插件+CI/CD校验模块）

如何快速配置微信支付证书：3步完成自动化下载与解密

ESXi 虚拟机厚置备转薄置备完整教程 | 官方命令一键操作，新手零踩坑

手把手教你用Python处理ConceptNet中文数据：从CSV读取到关系查询（附繁简体转换）

折叠波导慢波结构 CST 仿真全流程：从建模到注波互作用

【信息科学与工程学】【金融工程】第三十篇货币来源06

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

大模型智能体与MCP(三) 使用ollama本地部署Deepseek R1 32B模型

微软新 Xbox 负责人阿莎·夏尔马忙不停：Game Pass 定价待调，“螺旋计划”影响几何？

AI陪伴应用不是聊天机器人——SITS2026定义全新技术栈：情感记忆图谱、跨会话一致性引擎、脆弱性动态衰减模型

知光搜索系统

PHP SAAS 框架常见问题——配置问题——地图配置报错

终极指南：5分钟解决魔兽争霸III在Windows 10/11上的所有兼容性问题

若依WMS仓库管理系统：企业级仓储管理的现代化解决方案

从零搭建思澈科技SiFli-Solution开发环境：避坑指南与实战演练

m4s-converter：快速免费解锁B站缓存视频的完整指南

从源码到3D可视化：OpenCV 4.5.3 + VTK 9.0.3 一体化编译与配置实战

《学会这套指令方法，QClaw干活比同事还靠谱》

NewFileTime(修改文件时间戳工具) v8.21 单文件版

【星海出品】智能科普(三)

最新文章

【仅限前500名开发者】：2026奇点大会AI注释生成开源工具链抢先体验版（含VS Code插件+CI/CD校验模块）

如何快速配置微信支付证书：3步完成自动化下载与解密

ESXi 虚拟机厚置备转薄置备完整教程 | 官方命令一键操作，新手零踩坑

手把手教你用Python处理ConceptNet中文数据：从CSV读取到关系查询（附繁简体转换）

折叠波导慢波结构 CST 仿真全流程：从建模到注波互作用

【信息科学与工程学】【金融工程】第三十篇 货币来源06

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息科学与工程学】【金融工程】第三十篇货币来源06

【信息安全概论实验报告1】隐写技术