实战指南：利用Python脚本高效筛选TT100K数据集中的45类关键图像并转换为VOC格式

张

张建站

2026/4/17 18:14:13

10分钟阅读

实战指南：利用Python脚本高效筛选TT100K数据集中的45类关键图像并转换为VOC格式

1. 理解TT100K数据集与VOC格式TT100K数据集是清华大学发布的交通标志识别数据集包含超过10万张中国道路场景图像。这个数据集特别适合训练交通标志检测模型但原始数据格式与常见的VOC格式不同需要转换后才能用于大多数目标检测框架。VOC格式是PASCAL VOC挑战赛采用的标准数据格式主要包括JPEGImages文件夹存放原始图片Annotations文件夹存放XML格式的标注文件ImageSets/Main文件夹存放训练集和验证集划分文件为什么要做格式转换我遇到过不少新手直接拿TT100K原始数据训练模型结果不是报错就是效果很差。VOC格式的优势在于主流框架如Faster R-CNN、YOLO等都内置支持XML标注结构清晰方便人工检查标准化的目录结构便于管理大型数据集2. 环境准备与数据下载2.1 安装必要依赖建议使用Python 3.7环境安装以下包pip install lxml pillow tqdm我测试过多个版本组合发现Python 3.7与lxml 4.6.3的兼容性最好。如果遇到XML写入问题可以尝试这个特定版本pip install lxml4.6.32.2 获取数据集和工具下载TT100K原始数据集约19.2GBwget http://cg.cs.tsinghua.edu.cn/traffic-sign/data_model_code/data.zip下载转换工具库git clone https://github.com/cqfdch/TT100K_to_VOC解压后目录结构应该是这样的TT100K_to_VOC/ ├── train/ ├── test/ ├── annotations.json └── TT100K_VOC_classes.json遇到过有同学把annotations.json放错位置导致脚本报错建议对照检查。数据集解压后占用约45GB空间确保磁盘有足够容量。3. 构建VOC标准目录先创建符合VOC2007规范的目录结构这个步骤虽然简单但很重要。我习惯用Python脚本自动创建避免手动建文件夹出错import os def make_voc_dir(): voc_dir VOC2007 os.makedirs(voc_dir, exist_okTrue) os.makedirs(f{voc_dir}/Annotations, exist_okTrue) os.makedirs(f{voc_dir}/JPEGImages, exist_okTrue) os.makedirs(f{voc_dir}/ImageSets/Main, exist_okTrue) if __name__ __main__: make_voc_dir()执行后会生成如下结构VOC2007/ ├── Annotations/ ├── JPEGImages/ └── ImageSets/ └── Main/注意JPEGImages文件夹名称必须完全一致大小写敏感。曾经有Windows用户因为文件夹名大小写问题导致后续步骤失败。4. 转换标注为XML格式4.1 解析原始标注TT100K的标注信息都存储在annotations.json中我们需要将其转换为VOC格式的XML文件。关键是要处理以下几个字段的映射关系import json from lxml import etree as ET def parse_annotation(img_id, annos): img_info annos[imgs][img_id] objects [] for obj in img_info[objects]: objects.append({ category: obj[category], bbox: { xmin: obj[bbox][xmin], ymin: obj[bbox][ymin], xmax: obj[bbox][xmax], ymax: obj[bbox][ymax] } }) return objects4.2 生成XML文件VOC格式的XML需要包含完整的图片信息和标注框数据。这里有个细节要注意TT100K的图片尺寸都是2048x2048但实际使用时可能需要调整def create_xml(img_id, objects, output_dir): root ET.Element(annotation) # 添加图片基本信息 ET.SubElement(root, folder).text VOC2007 ET.SubElement(root, filename).text f{img_id}.jpg # 图片尺寸信息 size ET.SubElement(root, size) ET.SubElement(size, width).text 2048 ET.SubElement(size, height).text 2048 ET.SubElement(size, depth).text 3 # 每个目标的标注信息 for obj in objects: obj_elem ET.SubElement(root, object) ET.SubElement(obj_elem, name).text obj[category] ET.SubElement(obj_elem, difficult).text 0 bndbox ET.SubElement(obj_elem, bndbox) ET.SubElement(bndbox, xmin).text str(obj[bbox][xmin]) ET.SubElement(bndbox, ymin).text str(obj[bbox][ymin]) ET.SubElement(bndbox, xmax).text str(obj[bbox][xmax]) ET.SubElement(bndbox, ymax).text str(obj[bbox][ymax]) # 美化XML格式并保存 tree ET.ElementTree(root) xml_str ET.tostring(root, encodingUTF-8, pretty_printTrue) with open(f{output_dir}/{img_id}.xml, wb) as f: f.write(xml_str)5. 筛选45类关键图像TT100K包含221类交通标志但我们通常只需要其中45类常见标志。筛选逻辑需要注意以下几点只保留包含45类标志的图片每类至少要有100个样本排除包含其他类别标志的图片def filter_tt45_classes(annos, min_samples100): with open(TT100K_VOC_classes.json) as f: tt45_classes set(json.load(f).keys()) # 统计每类样本数 class_counts {cls: 0 for cls in tt45_classes} valid_img_ids [] for img_id in annos[imgs]: objects annos[imgs][img_id][objects] if not objects: continue # 检查是否全部属于45类 valid True for obj in objects: if obj[category] not in tt45_classes: valid False break if valid: valid_img_ids.append(img_id) for obj in objects: class_counts[obj[category]] 1 # 筛选满足最小样本量的类别 final_classes [cls for cls, cnt in class_counts.items() if cnt min_samples] # 二次筛选图片 final_img_ids [] for img_id in valid_img_ids: objects annos[imgs][img_id][objects] categories {obj[category] for obj in objects} if categories.issubset(set(final_classes)): final_img_ids.append(img_id) return final_classes, final_img_ids6. 数据集划分与验证6.1 生成训练集和验证集建议按8:2的比例划分数据集可以使用以下脚本import random from sklearn.model_selection import train_test_split def split_dataset(img_ids, test_size0.2): train_ids, val_ids train_test_split( img_ids, test_sizetest_size, random_state42 ) # 保存划分结果 with open(VOC2007/ImageSets/Main/train.txt, w) as f: f.write(\n.join(train_ids)) with open(VOC2007/ImageSets/Main/val.txt, w) as f: f.write(\n.join(val_ids)) return train_ids, val_ids6.2 验证数据集完整性转换完成后建议进行以下检查确认每个XML文件都有对应的图片检查标注框是否超出图片边界验证类别名称是否一致这里提供一个简单的验证脚本from PIL import Image import xml.etree.ElementTree as ET def validate_annotation(xml_path, img_dir): try: tree ET.parse(xml_path) root tree.getroot() img_name root.find(filename).text img_path f{img_dir}/{img_name} # 检查图片是否存在 if not os.path.exists(img_path): return False # 检查图片尺寸 img Image.open(img_path) width, height img.size size root.find(size) xml_width int(size.find(width).text) xml_height int(size.find(height).text) if width ! xml_width or height ! xml_height: return False # 检查标注框 for obj in root.iter(object): bndbox obj.find(bndbox) xmin float(bndbox.find(xmin).text) ymin float(bndbox.find(ymin).text) xmax float(bndbox.find(xmax).text) ymax float(bndbox.find(ymax).text) if xmin 0 or ymin 0 or xmax width or ymax height: return False return True except Exception as e: print(fError validating {xml_path}: {str(e)}) return False7. 完整流程整合将上述步骤整合成一个完整的处理流程def main(): # 1. 准备目录 make_voc_dir() # 2. 加载原始标注 with open(annotations.json) as f: annos json.load(f) # 3. 筛选45类图像 classes, img_ids filter_tt45_classes(annos) print(fFound {len(img_ids)} valid images with {len(classes)} classes) # 4. 转换标注格式 for img_id in tqdm(img_ids): objects parse_annotation(img_id, annos) create_xml(img_id, objects, VOC2007/Annotations) # 复制图片到JPEGImages src ftrain/{img_id}.jpg if img_id in train_ids else ftest/{img_id}.jpg dst fVOC2007/JPEGImages/{img_id}.jpg shutil.copy(src, dst) # 5. 划分数据集 train_ids, val_ids split_dataset(img_ids) # 6. 验证 print(Validating annotations...) for xml_file in os.listdir(VOC2007/Annotations): if not validate_annotation(fVOC2007/Annotations/{xml_file}, VOC2007/JPEGImages): print(fInvalid annotation: {xml_file}) if __name__ __main__: main()8. 常见问题解决在实际操作中可能会遇到以下问题内存不足处理大型数据集时可以分批处理from itertools import islice def batch_process(items, batch_size1000): it iter(items) while True: batch list(islice(it, batch_size)) if not batch: return yield batch标注框越界添加边界检查逻辑def clip_bbox(bbox, img_width, img_height): xmin max(0, bbox[xmin]) ymin max(0, bbox[ymin]) xmax min(img_width, bbox[xmax]) ymax min(img_height, bbox[ymax]) return {xmin: xmin, ymin: ymin, xmax: xmax, ymax: ymax}类别不平衡可以统计各类别样本数并适当调整def analyze_class_distribution(annos, img_ids): class_counts defaultdict(int) for img_id in img_ids: for obj in annos[imgs][img_id][objects]: class_counts[obj[category]] 1 plt.bar(class_counts.keys(), class_counts.values()) plt.xticks(rotation90) plt.show()处理完的数据集现在可以直接用于训练目标检测模型了。在实际项目中我通常会先用几张小批量数据测试整个流程确认无误后再处理完整数据集这样可以节省大量调试时间。

CSS如何实现Bootstrap响应式间距控制_利用媒体查询设置padding

Bootstrap版本断点不匹配、CSS优先级不足或!important冲突、移动端触摸热区过小、CSS变量未配合媒体查询重赋值，是padding响应式失效的四大主因。padding在不同屏幕尺寸下不生效？检查媒体查询断点是否匹配Bootstrap版本Bootstrap 5 的默认断点是 sm&…...

2026/4/15 21:38:37 阅读更多 →

胡桃讲编程：混音教学第二步｜地下程序员 3 年实测！UVR5 + 万兴喵影，人声分离就该这么玩

作者：龙沅可各位音乐编程圈的兄弟们，我是胡桃。先亮明身份：我是深耕实战 3 年的地下程序员，不搞花里胡哨的技术噱头，只信真机跑出来的实测数据，所有人声分离的经验，都是靠自己的主力设备反复测试…...

2026/4/15 21:37:37 阅读更多 →

5分钟搞定！用扣子+飞连实战搭建企业级产品问答机器人（附完整配置流程）

企业级AI问答机器人实战：从飞连文档到智能客服的完整链路当企业IT团队每天要处理上百个重复性产品咨询时，人工客服的响应速度与知识储备往往成为瓶颈。某金融科技公司的运维主管曾向我展示过他们的工单系统——超过60%的咨询问题集中在VPN配置、权限管理…...

2026/4/17 10:10:33 阅读更多 →

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

1. 从地图到导航的关键跨越当你完成地图构建的那一刻，就像拿到了一张藏宝图，但要让小车真正动起来寻宝，还需要一套完整的导航系统。ROS中的amcl和move_base就是实现这一目标的核心组件。amcl负责定位，让小车知道"我在哪&quo…...

2026/4/17 11:10:51 阅读更多 →

如何构建高性能的消息队列系统

如何构建高性能的消息队列系统在当今高并发的互联网应用中，消息队列系统扮演着关键角色，它能够解耦服务、削峰填谷，并提升系统的整体吞吐量。随着业务规模的扩大，如何构建一个高性能、高可用的消息队列系统成为开发者面临的挑战…...

2026/4/17 10:12:00 阅读更多 →

Java Iterator

Java Iterator 在Java编程语言中，Iterator接口是Java集合框架的一部分，主要用于遍历集合中的元素。本文将详细介绍Java的Iterator接口，包括其定义、使用方法以及与ListIterator的区别。定义 Iterator是一个用于遍历集合中元素的接口。它提供了迭代器的基本操作，例如：检…...

2026/4/17 10:12:00 阅读更多 →