PyTorch-OpCounter终极指南：自定义算子计数与模型优化完整教程

张开发

• 2026/6/3 5:16:35 • 15 分钟阅读

分享文章

PyTorch-OpCounter终极指南自定义算子计数与模型优化完整教程【免费下载链接】pytorch-OpCounterCount the MACs / FLOPs of your PyTorch model.项目地址: https://gitcode.com/gh_mirrors/py/pytorch-OpCounterPyTorch-OpCounterTHOP是一款轻量级工具专为PyTorch模型设计可快速精确地计算模型的FLOPs和MACs帮助开发者优化模型性能。本文将带你掌握从基础安装到高级自定义算子计数的全流程让模型优化不再盲目。快速安装三步搞定PyTorch-OpCounter方法一通过PyPI安装推荐pip install thop方法二从源码安装获取最新特性pip install --upgrade githttps://gitcode.com/gh_mirrors/py/pytorch-OpCounter安装完成后可通过导入thop模块验证是否成功import thop print(PyTorch-OpCounter版本:, thop.__version__)核心概念解析MACs与FLOPs的区别在开始使用前我们需要明确两个关键指标FLOPsFloating Point Operations浮点运算次数包括乘法、加法、除法等所有浮点操作MACsMultiply-Accumulate Operations乘加操作次数即a b × c这样的复合操作根据benchmark/README.md的说明1个MACs包含1次乘法和1次加法因此FLOPs通常约为MACs的2倍。在THOP中默认统计的是乘法操作次数FLOPs可通过乘以2近似获取。基础使用一行代码统计模型参数与计算量标准模型计数示例以ResNet50为例只需几行代码即可完成计算from torchvision.models import resnet50 from thop import profile import torch model resnet50() input torch.randn(1, 3, 224, 224) # 模拟输入数据 (batch_size, channels, height, width) macs, params profile(model, inputs(input,)) print(f模型参数: {params/1e6:.2f}M | 计算量: {macs/1e9:.2f}G MACs)优化输出格式使用clever_format函数可将数值转换为更易读的格式from thop import clever_format macs, params clever_format([macs, params], %.3f) print(f模型参数: {params} | 计算量: {macs})高级技巧自定义算子计数规则当模型包含THOP未内置的自定义算子时可通过custom_ops参数扩展计数规则自定义算子计数示例import torch.nn as nn from thop import profile class YourModule(nn.Module): def __init__(self, in_features, out_features): super().__init__() self.fc nn.Linear(in_features, out_features) def forward(self, x): return self.fc(x) # 定义计数规则对于YourModule计算量输入特征数 × 输出特征数 def count_your_module(model, input, output): input_size input[0].shape[1] # 获取输入特征数 output_size output.shape[1] # 获取输出特征数 macs input_size * output_size params sum(p.numel() for p in model.parameters()) return macs, params # 使用自定义规则 model YourModule(1024, 512) input torch.randn(1, 1024) macs, params profile(model, inputs(input,), custom_ops{YourModule: count_your_module}) print(f自定义模块 - MACs: {macs/1e6:.2f}M | Params: {params/1e6:.2f}M)常见模型性能对比根据benchmark/evaluate_famous_models.py的测试结果主流模型的参数与计算量如下经典CNN模型性能表ModelParams(M)MACs(G)alexnet61.100.77vgg11132.867.74resnet5025.564.14mobilenet_v23.500.33shufflenet_v2_x1_02.280.15RNN模型性能表ModelParams(M)FLOPs(G)LSTM--BiLSTM--stacked-LSTM--注RNN模型的具体数据可通过benchmark/evaluate_rnn_models.py脚本生成实用工具函数THOP提供了多个实用工具函数位于thop/utils.py中clever_format格式化大数字为K/M/G等单位profile核心计数函数支持自定义算子zero_ops对无需计数的算子返回零值如池化层常见问题解决1. 遇到Cannot find rule for XXX警告这表示THOP无法识别该算子可通过两种方式解决忽略不计设置report_missingFalse自定义规则通过custom_ops参数添加计数函数2. 计算结果与论文不符不同框架对FLOPs的定义可能存在差异THOP遵循benchmark/README.md中的标准仅统计乘法操作FLOPs可近似为MACs×2。3. 如何处理动态输入尺寸对于输入尺寸可变的模型建议使用典型输入尺寸进行估算或在profile时传入实际应用中的输入张量。总结PyTorch-OpCounter助力模型优化PyTorch-OpCounter凭借其轻量、准确的特性已成为PyTorch模型优化的必备工具。通过本文介绍的基础使用、自定义规则和性能对比你可以快速评估模型计算复杂度针对性优化高耗能算子在模型设计阶段平衡性能与效率无论是学术研究还是工业应用掌握PyTorch-OpCounter都能让你的模型优化工作事半功倍【免费下载链接】pytorch-OpCounterCount the MACs / FLOPs of your PyTorch model.项目地址: https://gitcode.com/gh_mirrors/py/pytorch-OpCounter创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

更多文章

前端开发 2026/6/3 5:15:26

终极IoT安全指南：esp_wifi_repeater防火墙ACL规则配置与流量控制

终极IoT安全指南：esp_wifi_repeater防火墙ACL规则配置与流量控制【免费下载链接】esp_wifi_repeater A full functional WiFi Repeater (correctly: a WiFi NAT Router) 项目地址: https://gitcode.com/gh_mirrors/es/esp_wifi_repeater esp_wifi_repeater是…

张开发

前端开发 2026/5/8 6:47:44

2024年Plus Jakarta Sans开源字体完整指南：现代设计的最佳选择

2024年Plus Jakarta Sans开源字体完整指南：现代设计的最佳选择【免费下载链接】PlusJakartaSans Jakarta Sans is a open-source fonts. Designed for Jakarta "City of collaboration" program in 2020. 项目地址: https://gitcode.com/gh_mirrors/pl…

张开发

前端开发 2026/4/11 18:38:27

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

虽然大模型的输入和输出在人类看来都是“文本”，但在模型内部，它其实完全看不懂文字，只认识数字。Token 就是连接“人类文字”与“机器数字”的桥梁。简单来说，Token 是大模型处理文本的最小单位。你可以把它理解为语言世界的“积…

张开发

前端开发 2026/5/8 4:37:31

3个步骤解决跨平台应用安装难题：APK Installer的无缝集成方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在数字化办公与娱乐场景中，Window…

张开发

PyTorch-OpCounter终极指南：自定义算子计数与模型优化完整教程

最新文章

FPGA异步FIFO读写位宽转换实战：从8bit到32bit的数据拼接与拆分（Vivado+Modelsim）

从图像模糊到语音识别：卷积在AI中的实战应用与Python代码示例

车载OTA升级中Docker层缓存失效导致回滚失败？3步构建可复现、可签名、可审计的分层镜像流水线（含Sigstore+Notary v2集成）

盛合晶微科创板上市，开盘市值近1858亿，无锡国资投资回报率超600%

如何用AI大模型技术一键批量生成和发布短视频？MoneyPrinterPlus全攻略

一张“网”如何拯救生命？浅谈医疗系统集成平台iPaaS

推荐文章

相关文章

分享文章

更多文章

终极IoT安全指南：esp_wifi_repeater防火墙ACL规则配置与流量控制

2024年Plus Jakarta Sans开源字体完整指南：现代设计的最佳选择

[具身智能-305]：大模型输入和输出都是文本，Token是什么意思？文本转Token是哪个模块实现？ Token转文本又是哪个模块实现？

绝区零一条龙：5分钟掌握全自动游戏辅助的终极指南

Goreman RPC接口完全解析：远程控制进程的终极方案

Greenlight Flatpak安装指南：在Linux系统上的简单部署方法

学术会议合集征稿通知

vuejs-datepicker在真实项目中的应用：电商、预约、报表等场景实战

Mongoose OS终极入门指南：10分钟快速搭建你的第一个物联网设备

AlertKit核心组件详解：深入解析Done、Heart、Error等图标动画

GitHub加速插件完全指南：解决国内访问难题的效率工具

3个步骤解决跨平台应用安装难题：APK Installer的无缝集成方案