实战解析:从通达信本地数据文件高效提取全市场股票代码与名称

张开发
2026/4/21 11:26:19 15 分钟阅读

分享文章

实战解析:从通达信本地数据文件高效提取全市场股票代码与名称
1. 为什么需要本地解析股票数据作为量化交易开发者我经常遇到这样的尴尬场景网络突然中断但策略急需最新的股票代码表或者高频请求交易所接口时被限制访问。这时候才意识到过度依赖网络API是多么脆弱。其实像通达信这类主流交易软件早就把全市场数据缓存在本地了只是大多数人不知道如何利用。去年我在开发一个多账户管理工具时就深刻体会到了本地数据的价值。当时需要实时同步十几个账户的持仓股票名称如果每次都调用在线接口不仅速度慢还经常触发风控。后来发现通达信安装目录下的shm.tnf和szm.tnf文件包含了沪市和深市所有品种的代码与名称更新频率与行情软件同步。更重要的是这些数据随时可用完全不受网络环境影响。本地数据文件还有个隐藏优势——响应速度是微秒级的。我做过测试通过网络API获取3000只股票基础信息平均需要2.3秒而直接读取本地文件仅需8毫秒。对于需要批量处理全市场数据的场景比如盘后分析或策略回测这个差距会放大成小时与分钟的区别。2. 通达信数据文件结构详解2.1 文件存放位置与命名规则通达信的本地数据存放在安装目录的T0002/hq_cache子文件夹下这个路径可能会因版本不同略有变化。我建议用Everything这类文件搜索工具直接查找shm.tnf和szm.tnf这两个文件。其中shm.tnf 对应沪市数据代码以6/9开头szm.tnf 对应深市数据代码以0/3开头这两个文件通常有10MB左右大小包含了股票、基金、债券、指数等所有交易品种。有趣的是即使你不登录行情服务器只要曾经打开过通达信软件这些文件就会自动生成并更新。2.2 二进制文件结构解析用Hex编辑器打开文件可以看到明显的分段结构。经过反复测试验证我总结出以下格式规律文件头前50字节0-39字节最后连接的行情服务器IPASCII编码40-41字节端口号小端存储42-45字节最后更新日期YYYYMMDD格式46-49字节最后更新时间Hmmss格式数据体从第50字节开始 每条记录固定314字节像火车车厢一样紧密排列。关键字段的偏移量如下0-5字节股票代码ASCII编码23-40字节股票名称GB2312编码276-279字节昨日收盘价IEEE 754浮点数285-292字节拼音缩写如ZGPA对应中国平安这里有个坑要注意股票名称字段实际只用了18字节但测试发现部分科创板股票会出现超长名称被截断的情况。稳妥的做法是读取后手动去除\x00填充符。3. Python实现高效解析方案3.1 基础读取代码示例下面这个Python函数是我经过多次优化后的稳定版本加入了异常处理和编码转换import struct from pathlib import Path def parse_tdx_stock_file(file_path): stocks [] with open(file_path, rb) as f: # 跳过50字节文件头 f.seek(50) # 计算总记录数文件大小-头大小/314 file_size Path(file_path).stat().st_size total_records (file_size - 50) // 314 for _ in range(total_records): try: # 读取股票代码(6字节) code_bytes f.read(6) stock_code code_bytes.decode(ascii).strip() # 跳过无关字段到名称位置 f.seek(17, 1) # 相对当前位置移动 # 读取股票名称(18字节) name_bytes f.read(18) stock_name name_bytes.decode(gb2312, errorsignore).replace(\x00, ) # 存入结果列表 if stock_code and stock_name: stocks.append((stock_code, stock_name)) # 跳到下条记录开始位置 f.seek(314 - 6 - 17 - 18, 1) except Exception as e: print(f解析异常{e}) continue return stocks3.2 性能优化技巧当处理全市场数据时约4500只股票原始方案需要约120ms。通过以下优化可以提升到15ms以内批量读取一次性读取整个文件再处理减少IO操作with open(file_path, rb) as f: data f.read()[50:] # 跳过文件头内存视图使用memoryview避免切片复制mv memoryview(data) for i in range(0, len(data), 314): record mv[i:i314]并行处理对于多文件处理沪市深市可以用multiprocessing.Pool在我的ThinkPad X1上优化后的代码处理两个文件总共只需要9.2ms比通达信软件自身的刷新速度还快。4. 实际应用场景案例4.1 构建本地股票代码库我习惯用SQLite存储解析结果方便后续查询import sqlite3 def build_stock_database(): conn sqlite3.connect(stock_info.db) c conn.cursor() c.execute(CREATE TABLE IF NOT EXISTS stocks (code TEXT PRIMARY KEY, name TEXT, market TEXT)) sh_stocks parse_tdx_stock_file(shm.tnf) sz_stocks parse_tdx_stock_file(szm.tnf) # 批量插入沪市股票 c.executemany(INSERT INTO stocks VALUES (?,?,?), [(code, name, SH) for code, name in sh_stocks]) # 批量插入深市股票 c.executemany(INSERT INTO stocks VALUES (?,?,?), [(code, name, SZ) for code, name in sz_stocks]) conn.commit() conn.close()这个本地数据库可以支持各种灵活查询比如# 查找包含科技的创业板股票 SELECT code, name FROM stocks WHERE name LIKE %科技% AND code LIKE 3%4.2 与交易系统集成在我的自动化交易框架中会这样使用本地数据盘前加载股票代码映射表到内存字典收到行情推送时直接通过代码查名称避免网络请求定时任务每天收盘后更新本地文件特别是在处理Level2行情时上交所的原始数据只包含证券代码而不带名称这时本地查询的优势就非常明显了。实测在每秒处理3000笔逐笔委托时能节省约40%的CPU开销。5. 常见问题与解决方案5.1 文件更新机制通达信通常会在以下时机更新本地文件每日收盘后约15:30手动点击下载完整数据时新股上市首日开盘前建议在程序中加入版本检查逻辑def get_file_update_time(file_path): with open(file_path, rb) as f: # 读取42-45字节的日期字段 f.seek(42) date_bytes f.read(4) return struct.unpack(I, date_bytes)[0] # 小端解析5.2 特殊股票处理遇到这些情况需要特别注意退市股票代码虽在文件中但名称可能变为退市XX新股临时代码如688XXX在上市前会显示为新股申购转板股票深市的转板股票代码会发生变更我的做法是在入库时增加状态字段并通过定期与交易所列表对比来标记异常数据。5.3 多软件数据对比有时会发现不同软件间的名称不一致比如通达信中国平安同花顺中国平安(601318)东方财富中国平安SH601318建议建立标准化处理流程比如统一去除括号内容。对于量化交易来说更重要的是保持内部一致性而非绝对准确。

更多文章