.NET 实战：调用千问视觉模型实现 OCR（车票识别完整教程）

张开发

• 2026/4/17 14:08:24 • 15 分钟阅读

分享文章

很多人第一次接入 AI OCR会踩几个典型坑❌ 直接调接口结果不稳定❌ AI 返回 JSON 不规范❌ 网络偶发失败没有兜底❌ 代码无法复用这篇直接带你做一件事写一套“可复用稳定可扩展”的 OCR 调用组件一、核心思路先搞清本质千问视觉模型 ≠ 传统 OCR它本质是“看图按你要求生成结构化文本”流程如下图片 → Base64 → 千问模型 → 文本(JSON) → 清洗 → DTO 二、请求结构必须理解请求体核心结构{ model: qwen-vl, messages: [ { role: user, content: [ { type: image_url, image_url: { url: data:image/jpeg;base64,xxx } }, { type: text, text: 你的Prompt } ] } ] } 重点图片必须 Base64Prompt 决定识别质量三、示例车票 OCR Prompt请识别图片中的火车票信息并严格按JSON格式输出 { PassengerName: , TrainNumber: , FromStation: , ToStation: , DepartureTime: , Seat: , Price: } 要求 1. 只输出JSON 2. 不要解释 3. 金额只保留数字 4. 时间格式 yyyy-MM-dd HH:mm:ss 5. 缺失字段返回空字符串四、核心设计工程级这一套你可以直接复用到发票水单提单合同✅ 关键设计点1. 通用泛型方法TaskT ExtractAsyncT() 一套代码支持所有 OCR 类型2. JSON 清洗必须处理中文引号尾逗号3. 重试机制防网络波动接口偶发失败4. DTO 强类型不要返回 string必须结构化️ 五、稳定性策略精华你这套代码真正值钱的地方在这里✅ 重试机制3次✅ JSON 修复✅ 文件大小限制✅ 临时文件自动清理✅ 反序列化兜底⚠️ 六、生产环境建议 Key 管理不要写死放环境变量配置文件⚡ 并发控制OCR 是重资源操作建议限流SemaphoreSlim 日志建议记录原始返回清洗后 JSON 七、完整可运行代码核心部分下面这份代码是精简工程可用版本 1. OCR Helperusing System; using System.IO; using System.Net.Http; using System.Text; using System.Text.Json; using System.Text.RegularExpressions; using System.Threading; using System.Threading.Tasks; public static class OcrHelper { private static readonly HttpClient _httpClient new HttpClient { Timeout TimeSpan.FromSeconds(60) }; private const string ApiUrl 你的API地址; private const string ApiKey 你的Key; private const string Model 你的模型名称; static OcrHelper() { _httpClient.DefaultRequestHeaders.Add(Authorization, $Bearer {ApiKey}); } public static async TaskT ExtractAsyncT(string imagePath, string prompt) { var json await ExtractRawAsync(imagePath, prompt); return JsonSerializer.DeserializeT(json, new JsonSerializerOptions { PropertyNameCaseInsensitive true }); } public static async Taskstring ExtractRawAsync(string imagePath, string prompt) { byte[] bytes await File.ReadAllBytesAsync(imagePath); if (bytes.Length 5 * 1024 * 1024) throw new Exception(图片不能超过5MB); var base64 Convert.ToBase64String(bytes); var requestBody new { model Model, messages new object[] { new { role user, content new object[] { new { type image_url, image_url new { url $data:image/jpeg;base64,{base64} } }, new { type text, text prompt } } } }, stream false, extra_body new { enable_thinking false } }; var content new StringContent( JsonSerializer.Serialize(requestBody), Encoding.UTF8, application/json ); var response await SendWithRetryAsync(content); var message ExtractContent(response); return CleanJson(message); } private static async Taskstring SendWithRetryAsync(StringContent content) { for (int i 0; i 3; i) { try { var response await _httpClient.PostAsync(ApiUrl, content); var text await response.Content.ReadAsStringAsync(); if (!response.IsSuccessStatusCode) throw new Exception(text); return text; } catch when (i 2) { await Task.Delay(1000 * (i 1)); } } throw new Exception(OCR请求失败); } private static string ExtractContent(string responseText) { using var doc JsonDocument.Parse(responseText); return doc.RootElement .GetProperty(choices)[0] .GetProperty(message) .GetProperty(content) .GetString(); } private static string CleanJson(string json) { if (string.IsNullOrWhiteSpace(json)) return {}; json json .Replace(json, ) .Replace(, ) .Replace(“, \) .Replace(”, \) .Trim(); json Regex.Replace(json, ,\\s*}, }); json Regex.Replace(json, ,\\s*], ]); return json; } } 2. DTO车票public class TrainTicketDto { public string PassengerName { get; set; } public string TrainNumber { get; set; } public string FromStation { get; set; } public string ToStation { get; set; } public string DepartureTime { get; set; } public string Seat { get; set; } public string Price { get; set; } } 3. 调用示例var prompt 请识别图片中的火车票信息并按JSON输出 { PassengerName: , TrainNumber: , FromStation: , ToStation: , DepartureTime: , Seat: , Price: }; var result await OcrHelper.ExtractAsyncTrainTicketDto( test.jpg, prompt ); Console.WriteLine(result.PassengerName); 最后总结一句话AI OCR 不难难的是把“不稳定输出”变成“稳定系统能力”。

更多文章

前端开发 2026/4/17 14:08:12

训练集含GPL代码=整个模型侵权？最高院新判例释放的3个致命信号

第一章：智能代码生成与知识产权问题 2026奇点智能技术大会(https://ml-summit.org) 智能代码生成工具（如GitHub Copilot、Tabnine、CodeWhisperer）已深度融入现代软件开发生命周期，但其训练数据来源、输出代码的权属归属及潜在侵…

告别 “文件在家” 尴尬！群晖 NAS 公网访问一步到位（cpolarWebDAV 实测） 前言周一下班前，老板突然甩来一句："那个上周的项目资料你发我一下，急要。“你打开电脑才发现，文件全存在家里 NAS…

张开发

前端开发 2026/4/17 13:52:50

从乐谱到数字音乐：Audiveris OMR技术7天实战全攻略

从乐谱到数字音乐：Audiveris OMR技术7天实战全攻略【免费下载链接】audiveris Latest generation of Audiveris OMR engine 项目地址: https://gitcode.com/gh_mirrors/au/audiveris 你是否曾面对堆积如山的纸质乐谱感到束手无策？是否渴望将那些…

张开发

.NET 实战：调用千问视觉模型实现 OCR（车票识别完整教程）

最新文章

网易智企x觅伊：用温暖陪伴连接真实社交

议题征集｜Community Over Code Asia 2026 期待你的声音！

H3C AC：跨三层网络实现AP与客户端同VLAN接入实战

告别30秒限制！用RecordRTC在微信小程序web-view里实现长视频录制与语音提示

高通CamX HAL3源码解析：configure_streams如何分配硬件资源与创建Pipeline？

智能编程新范式已上线（Gartner 2024确认：83%头部科技公司已部署混合编码引擎）

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

训练集含GPL代码=整个模型侵权？最高院新判例释放的3个致命信号

如何快速掌握缠论分析：开源缠论可视化插件的完整实战指南

JIRA仪表盘深度配置指南：从权限设置到自定义小程序订阅，打造团队专属数据墙

Winhance中文版：构建Windows系统优化的终极解决方案

Open WebUI 高效部署指南：从零到企业级实战应用

0 基础阿里云运维 Docker 保姆级全流程（2026 最新）

【企业级AIGC代码准入白皮书】：基于ISO/IEC 25010标准的7维质量评估模型落地实录

为什么92%的AI编程工具在中文+英文混合场景下生成失效？——全链路多语言上下文建模白皮书首发

如何快速构建中国车牌识别系统：CCPD数据集的完整实战指南

CDN架构全解（一图胜千言 + 核心原理剖析）

告别 “文件在家” 尴尬！群晖 NAS 公网访问一步到位（cpolar+WebDAV 实测）

从乐谱到数字音乐：Audiveris OMR技术7天实战全攻略

.NET 实战：调用千问视觉模型实现 OCR（车票识别完整教程）

最新文章

网易智企x觅伊：用温暖陪伴连接真实社交

议题征集｜Community Over Code Asia 2026 期待你的声音！

H3C AC：跨三层网络实现AP与客户端同VLAN接入实战

告别30秒限制！用RecordRTC在微信小程序web-view里实现长视频录制与语音提示

高通CamX HAL3源码解析：configure_streams如何分配硬件资源与创建Pipeline？

智能编程新范式已上线（Gartner 2024确认：83%头部科技公司已部署混合编码引擎）

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术