TensorFlow-v2.15快速上手：Jupyter中实时查看GPU状态的3种方法

张开发

• 2026/4/13 20:35:14 • 15 分钟阅读

分享文章

TensorFlow-v2.15快速上手Jupyter中实时查看GPU状态的3种方法1. 为什么需要监控GPU状态在深度学习开发中GPU资源就像汽车的发动机直接影响着模型训练的速度和效率。想象一下如果你开车时看不到油表和转速表就无法知道发动机是否在最佳状态工作。同样在TensorFlow开发中不了解GPU的使用情况可能会导致显存溢出导致程序崩溃GPU利用率低下浪费计算资源无法优化模型训练速度多卡训练时负载不均衡TensorFlow-v2.15镜像已经预装了所有必要的GPU驱动和监控工具让我们来看看如何在Jupyter环境中轻松查看这些关键指标。2. 方法一使用nvidia-smi命令行工具2.1 基础用法nvidia-smi是NVIDIA官方提供的GPU监控工具就像给GPU装了一个仪表盘。在Jupyter中只需在一个代码单元格中输入!nvidia-smi执行后会显示类似这样的信息----------------------------------------------------------------------------- | NVIDIA-SMI 525.85.12 Driver Version: 525.85.12 CUDA Version: 12.0 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | || | 0 NVIDIA RTX A5000 On | 00000000:65:00.0 Off | Off | | 30% 45C P8 18W / 230W | 0MiB / 24564MiB | 0% Default | ---------------------------------------------------------------------------2.2 高级用法如果想持续监控GPU状态可以创建一个定时刷新的监控面板import time from IPython.display import clear_output for i in range(10): # 刷新10次 clear_output(waitTrue) print(f第{i1}次刷新时间{time.strftime(%H:%M:%S)}) !nvidia-smi time.sleep(2) # 每2秒刷新一次这个简单的循环会每2秒刷新一次GPU状态非常适合在长时间训练时观察资源使用情况。3. 方法二使用TensorFlow内置API3.1 查看GPU设备信息TensorFlow本身也提供了一些API来查看GPU信息就像汽车的车载电脑import tensorflow as tf # 列出所有可用的GPU设备 gpus tf.config.list_physical_devices(GPU) print(f检测到 {len(gpus)} 块GPU) for i, gpu in enumerate(gpus): print(fGPU {i}: {gpu.name}) details tf.config.experimental.get_device_details(gpu) print(f设备详情: {details})3.2 监控显存使用情况虽然TensorFlow不直接提供GPU利用率数据但可以获取显存使用信息if gpus: try: mem_info tf.config.experimental.get_memory_info(GPU:0) print(f当前显存使用: {mem_info[current] / 1024**2:.2f} MB) print(f峰值显存使用: {mem_info[peak] / 1024**2:.2f} MB) except Exception as e: print(f无法获取显存信息: {e})4. 方法三使用pynvml库编程监控4.1 安装与基本使用pynvml是NVIDIA提供的Python接口可以获取更详细的GPU数据。首先安装!pip install pynvml然后使用以下代码获取GPU利用率from pynvml import * nvmlInit() handle nvmlDeviceGetHandleByIndex(0) # 第一块GPU util nvmlDeviceGetUtilizationRates(handle) mem_info nvmlDeviceGetMemoryInfo(handle) print(fGPU利用率: {util.gpu}%) print(f显存使用: {mem_info.used / 1024**2:.2f} MB / {mem_info.total / 1024**2:.2f} MB) print(f显存占用率: {mem_info.used / mem_info.total * 100:.2f}%) nvmlShutdown()4.2 创建实时监控面板结合IPython的显示功能可以创建一个漂亮的实时监控面板import time from pynvml import * from IPython.display import display, clear_output import ipywidgets as widgets nvmlInit() handle nvmlDeviceGetHandleByIndex(0) # 创建显示组件 util_output widgets.Output() mem_output widgets.Output() temp_output widgets.Output() display(widgets.VBox([ widgets.Label(GPU实时监控), widgets.HBox([widgets.Label(GPU利用率:), util_output]), widgets.HBox([widgets.Label(显存使用:), mem_output]), widgets.HBox([widgets.Label(温度:), temp_output]) ])) try: for i in range(20): # 监控20次 util nvmlDeviceGetUtilizationRates(handle) mem nvmlDeviceGetMemoryInfo(handle) temp nvmlDeviceGetTemperature(handle, NVML_TEMPERATURE_GPU) with util_output: util_output.clear_output() print(f{util.gpu}%) with mem_output: mem_output.clear_output() print(f{mem.used/1024**2:.1f}MB / {mem.total/1024**2:.1f}MB) with temp_output: temp_output.clear_output() print(f{temp}°C) time.sleep(1) finally: nvmlShutdown()5. 三种方法对比与选择建议方法优点缺点适用场景nvidia-smi简单直接信息全面需要解析文本输出快速查看GPU状态TensorFlow API原生集成无需额外依赖信息有限不支持利用率检查设备可用性pynvml数据精确可编程控制需要额外安装集成到训练脚本中使用建议快速检查时使用!nvidia-smi开发调试时使用pynvml创建监控面板生产环境中将pynvml集成到训练脚本中记录日志6. 总结6.1 核心要点回顾本文介绍了在TensorFlow-v2.15的Jupyter环境中监控GPU状态的三种实用方法nvidia-smi命令行工具最快速直接的方式适合快速检查TensorFlow内置API获取设备信息和基本显存使用情况pynvml编程接口最灵活强大的方式适合集成到代码中6.2 最佳实践建议在模型训练前先用!nvidia-smi确认GPU可用性开发过程中使用pynvml创建实时监控面板长期训练任务中记录GPU使用日志用于后续分析多卡环境下监控每块GPU的使用情况确保负载均衡掌握这些GPU监控技巧就像给深度学习开发装上了仪表盘让你随时了解计算资源的使用情况显著提升开发效率和模型性能。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/4/13 20:34:13

Go语言如何用GitHub Actions_Go语言GitHub Actions教程【秒懂】

应使用 actions/setup-gov4 显式指定 Go 版本（如 1.21.6），在 checkout 后执行；go test 需加 -timeout 30s、GO111MODULEon 和 -count1（若启用 -race）；go build 应用绝对路径输出并设 CGO_ENABLE…

本文用“培养天才学生”的比喻，将大模型训练过程分为四个阶段：博览群书（预训练）构建知识基础，教养规矩（后训练与对齐）学习人类价值观和指令理解，独立思考（推理增强&#…

张开发

前端开发 2026/4/13 20:20:46

工业质检实战：光度立体算法如何让手机外壳划痕‘无处遁形’（附效果对比）

工业质检实战：光度立体算法如何让手机外壳划痕‘无处遁形’（附效果对比） 在消费电子制造领域，手机外壳的质检环节一直是生产线的关键瓶颈。当你在产线上看到质检员拿着强光手电反复照射金属中框时，背后往往隐藏着一个行…

张开发

TensorFlow-v2.15快速上手：Jupyter中实时查看GPU状态的3种方法

最新文章

重新定义日期选择体验：Bootstrap-Datepicker的终极指南

10大精益设备管理系统盘点！主流的精益设备管理工具推荐

GLM-Image实际用途解析：助力中小企业内容营销提效

如何用mPDF在5分钟内构建企业级PDF生成系统：PHP开发者的终极指南

系统集成项目管理工程师证书的含金量解析：为什么它值得你考？

HPH构造详解核心部件与工作原理

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

Go语言如何用GitHub Actions_Go语言GitHub Actions教程【秒懂】

Apache日志文件也能被黑？手把手教你复现access.log文件包含漏洞（DVWA靶场实战）

TB6612FNG电机驱动库工程实践：H桥控制与STM32集成

基于FPGA的DDS信号发生器设计_设计示例保姆级教程及原理浅谈_NBU数字系统工程实践

2026年，这几种安卓插件化方案依然是开发者的首选

别再用矩形拼Tab页了！Axure动态面板的页签切换这样做更专业

2026 年企业自动化落地，最新实操指南与避坑大全丨Agent产品测评局

Rocky Linux 9 最小化安装后，我踩过的那些坑：从静态IP到SSH配置的保姆级排错指南

Linux CFS 的 throttled_cfs_rq：被限流任务组的管理与恢复

终极Stable Diffusion模型转换工具：Ckpt与Safetensors双向转换完整指南

收藏！小白也能看懂：用“天才学生”培养法揭秘大模型训练全过程

工业质检实战：光度立体算法如何让手机外壳划痕‘无处遁形’（附效果对比）

TensorFlow-v2.15快速上手：Jupyter中实时查看GPU状态的3种方法

最新文章

重新定义日期选择体验：Bootstrap-Datepicker的终极指南

10大精益设备管理系统盘点！主流的精益设备管理工具推荐

GLM-Image实际用途解析：助力中小企业内容营销提效

如何用mPDF在5分钟内构建企业级PDF生成系统：PHP开发者的终极指南

系统集成项目管理工程师证书的含金量解析：为什么它值得你考？

HPH构造详解 核心部件与工作原理

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

HPH构造详解核心部件与工作原理

【信息安全概论实验报告1】隐写技术