保姆级教程：用Python快速解析Charades和Action Genome数据标注（附避坑指南）

张

张建站

2026/4/18 11:57:36

10分钟阅读

保姆级教程用Python快速解析Charades和Action Genome数据标注附避坑指南第一次接触Charades或Action Genome数据集时面对各种.pkl、.csv文件格式和复杂的标注结构很多研究者都会感到无从下手。本文将手把手教你如何用Python高效解析这些数据集避开常见陷阱快速将原始标注转换为模型可用的结构化数据。1. 环境准备与数据下载在开始解析数据之前需要确保你的Python环境已经安装了必要的库。推荐使用conda创建一个新的虚拟环境conda create -n charades python3.8 conda activate charades pip install pandas numpy matplotlib opencv-python pickle5注意Action Genome的.pkl文件需要使用Python 3.8和pickle5库才能正确读取数据集下载地址Charades/CharadesEgo: [官方下载页面]Action Genome标注: [Google Drive链接]下载完成后建议保持原始文件结构不变。典型的数据目录结构如下charades_data/ ├── Charades_v1_480/ # 视频文件 ├── Charades_v1_train.csv # 训练集标注 ├── Charades_v1_test.csv # 测试集标注 └── Charades_v1_classes.txt # 行为类别 action_genome/ ├── person_bbox.pkl # 人物边界框 └── object_bbox_and_relationship.pkl # 物体及关系标注2. 解析Charades CSV标注文件Charades的主要标注信息存储在CSV文件中使用pandas可以轻松读取和处理import pandas as pd # 读取训练集标注 train_df pd.read_csv(Charades_v1_train.csv) print(train_df.head()) # 解析actions列最复杂的部分 def parse_actions(action_str): if pd.isna(action_str): return [] actions action_str.split(;) result [] for act in actions: parts act.strip().split() if len(parts) 3: # 格式: c092 11.90 21.20 result.append({ class_id: parts[0], start: float(parts[1]), end: float(parts[2]) }) return result train_df[parsed_actions] train_df[actions].apply(parse_actions)常见问题及解决方案编码问题如果遇到UnicodeDecodeError尝试指定编码pd.read_csv(file.csv, encodinglatin1)路径问题确保CSV中的视频ID与视频文件名匹配内存不足对于大文件使用chunksize参数分块读取3. 处理Action Genome的PKL标注Action Genome的标注以Python pickle格式存储需要使用特殊的加载方式import pickle5 as pickle def load_pkl(file_path): with open(file_path, rb) as f: data pickle.load(f) return data # 加载人物边界框标注 person_bbox load_pkl(person_bbox.pkl) # 查看第一个样本的标注 first_key next(iter(person_bbox)) print(fKey: {first_key}) print(fValue: {person_bbox[first_key]})对于物体关系标注数据结构更为复杂obj_relations load_pkl(object_bbox_and_relationship.pkl) # 解析单个帧的物体关系 def parse_frame_relations(frame_data): objects [] for obj in frame_data: obj_info { class: obj[class], bbox: obj[bbox], attention: obj[attention_relationship], spatial: obj[spatial_relationship], contact: obj[contacting_relationship] } objects.append(obj_info) return objects # 示例解析第一个帧的关系 sample_frame obj_relations[first_key] parsed_relations parse_frame_relations(sample_frame)4. 数据可视化与验证为了确保数据解析正确可视化是关键步骤。以下是绘制边界框和标注信息的示例import cv2 import matplotlib.pyplot as plt def draw_bboxes(image_path, person_data, obj_data): img cv2.imread(image_path) img cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 绘制人物边界框 for bbox in person_data[bbox]: x, y, w, h bbox cv2.rectangle(img, (x, y), (xw, yh), (255,0,0), 2) # 绘制物体边界框和关系 for obj in obj_data: x, y, w, h obj[bbox] cv2.rectangle(img, (x, y), (xw, yh), (0,255,0), 2) # 添加关系文本 relations , .join(obj[attention] obj[spatial] obj[contact]) cv2.putText(img, f{obj[class]}: {relations}, (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,255,0), 1) plt.figure(figsize(12, 8)) plt.imshow(img) plt.axis(off) plt.show() # 示例使用需要先提取对应帧图像 # draw_bboxes(frame.jpg, person_bbox[first_key], parsed_relations)5. 高级技巧与性能优化当处理大规模数据时效率变得至关重要。以下是几个提升处理速度的技巧并行处理使用multiprocessing加速数据加载from multiprocessing import Pool def process_frame(args): frame_id, data args # 处理逻辑 return processed_data with Pool(4) as p: # 使用4个进程 results p.map(process_frame, person_bbox.items())缓存中间结果将解析后的数据保存为更高效的格式import h5py # 保存为HDF5文件 with h5py.File(processed_data.h5, w) as f: for key, value in parsed_data.items(): f.create_dataset(key, datavalue)使用生成器处理大数据避免内存爆满def data_generator(pkl_file, batch_size32): data load_pkl(pkl_file) keys list(data.keys()) for i in range(0, len(keys), batch_size): batch_keys keys[i:ibatch_size] yield {k: data[k] for k in batch_keys}6. 常见问题解决方案在实际使用中你可能会遇到以下问题问题1pickle加载报错UnicodeDecodeError解决方案# 尝试指定编码 with open(file.pkl, rb) as f: data pickle.load(f, encodinglatin1)问题2视频帧与标注时间不同步解决方案# 计算最接近的帧号 def time_to_frame(time_sec, fps24): return int(time_sec * fps) # 应用到动作标注 action[start_frame] time_to_frame(action[start]) action[end_frame] time_to_frame(action[end])问题3物体关系标注中的空值处理解决方案def safe_get_relations(obj): return { attention: obj.get(attention_relationship, []), spatial: obj.get(spatial_relationship, []), contact: obj.get(contacting_relationship, []) }7. 数据转换实战案例最后我们来看一个将原始标注转换为模型训练所需格式的完整示例。假设我们需要准备一个动作识别任务的数据import json from tqdm import tqdm def prepare_training_data(csv_path, output_json): df pd.read_csv(csv_path) training_samples [] for _, row in tqdm(df.iterrows(), totallen(df)): video_id row[id] actions parse_actions(row[actions]) # 为每个动作创建样本 for act in actions: sample { video_id: video_id, class_id: act[class_id], start: act[start], end: act[end], metadata: { scene: row[scene], objects: row[objects] } } training_samples.append(sample) # 保存为JSON with open(output_json, w) as f: json.dump(training_samples, f) # 使用示例 prepare_training_data(Charades_v1_train.csv, train_data.json)对于Action Genome的关系检测任务转换过程类似但更复杂def prepare_relation_data(bbox_pkl, relation_pkl, output_path): person_data load_pkl(bbox_pkl) obj_data load_pkl(relation_pkl) relation_samples [] common_keys set(person_data.keys()) set(obj_data.keys()) for key in tqdm(common_keys): frame_relations [] for obj in obj_data[key]: relations { object_class: obj[class], bbox: obj[bbox], relations: { attention: obj[attention_relationship], spatial: obj[spatial_relationship], contact: obj[contacting_relationship] } } frame_relations.append(relations) sample { frame_id: key, person_bbox: person_data[key][bbox], relations: frame_relations } relation_samples.append(sample) # 保存结果 with open(output_path, wb) as f: pickle.dump(relation_samples, f)在实际项目中处理这些数据集最耗时的部分往往是数据清洗和验证。建议在开始模型训练前先花时间确保数据解析完全正确。一个小技巧是随机抽样检查100个样本人工验证标注解析的准确性。

告别理论推导！用CVX和MATLAB实战SDR算法：从QCQP问题到代码实现

从QCQP到SDR：用CVX和MATLAB实现工程级优化解决方案在通信系统设计、机器学习参数优化和组合问题求解中，二次约束二次规划（QCQP）问题频繁出现。这类问题往往因为非凸特性而难以直接求解，而半正定松弛（SDR&a…...

2026/4/18 11:54:23 阅读更多 →

$如何在5分钟内将Word文档完美转换为LaTeX：docx2tex完整指南$

如何在5分钟内将Word文档完美转换为LaTeX：docx2tex完整指南

如何在5分钟内将Word文档完美转换为LaTeX：docx2tex完整指南【免费下载链接】docx2tex Converts Microsoft Word docx to LaTeX 项目地址: https://gitcode.com/gh_mirrors/do/docx2tex 你是否曾经因为需要将Microsoft Word文档转换为LaTeX格式而感到头疼&am…...

2026/4/18 11:53:25 阅读更多 →

Adobe-GenP 3.0：如何轻松解锁Adobe全家桶的完整指南

Adobe-GenP 3.0：如何轻松解锁Adobe全家桶的完整指南【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 你是否曾因为Adobe Creative Cloud的高昂订阅费用而…...

2026/4/18 11:53:21 阅读更多 →

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

企业级OpenSSH 10.0自动化升级实战：从合规需求到批量落地当安全合规成为企业IT建设的刚性需求，基础组件的漏洞修复便从技术问题升级为战略任务。去年某次内部审计中，我们发现全公司237台服务器中，68%的OpenSSH版本存在高危漏洞&a…...

2026/4/16 22:05:04 阅读更多 →

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

EyeReal技术解析：三层LCDRTX 4090如何重构裸眼3D显示范式当24英寸显示器上跃然而出的立体影像不再需要特制眼镜时，我们或许正站在显示技术革命的临界点。复旦大学马炜杰博士团队发表在《Nature》的EyeReal方案，用三层普通LCD面板和消费级显卡…...

2026/4/16 14:29:57 阅读更多 →

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款功能强大的开源工具，专为…...

2026/4/18 10:31:36 阅读更多 →