Python defaultdict的5个隐藏用法：从数据清洗到机器学习预处理

张

张建站

2026/4/24 12:34:45

10分钟阅读

Python defaultdict的5个隐藏用法从数据清洗到机器学习预处理在数据科学和机器学习的工作流中字典是最基础也最常用的数据结构之一。但很多开发者可能不知道Python标准库中的collections.defaultdict远比表面看起来要强大。它不仅仅是一个能避免KeyError的便利工具更能在数据预处理、特征工程、图算法等场景中大幅提升代码效率和可读性。想象一下这样的场景你需要快速统计文本中的词频或者构建一个图结构来表示社交网络关系又或者需要处理嵌套的JSON数据。在这些情况下传统的字典操作往往需要大量样板代码来处理键不存在的情况。而defaultdict能让你专注于业务逻辑本身而不是这些边缘情况。1. 数据清洗中的自动归类与异常值处理数据清洗是任何数据分析项目中最耗时但也最关键的环节。defaultdict在这里可以发挥意想不到的作用特别是在处理不完整或结构不一致的数据时。假设我们有一组来自不同来源的销售记录其中某些字段可能缺失。传统方法需要大量if-else来检查键是否存在sales_data [ {product: A, region: North, amount: 100}, {product: B, amount: 200}, # 缺少region {region: South, amount: 150}, # 缺少product ] # 传统方法 stats {} for record in sales_data: product record.get(product, Unknown) if product not in stats: stats[product] {count: 0, total: 0} stats[product][count] 1 stats[product][total] record[amount]使用defaultdict可以大幅简化from collections import defaultdict stats defaultdict(lambda: {count: 0, total: 0}) for record in sales_data: product record.get(product, Unknown) stats[product][count] 1 stats[product][total] record[amount]更高级的用法是结合defaultdict和Counter来自动归类异常值from collections import Counter def detect_outliers(data, threshold3): values [x[amount] for x in data if amount in x] mean sum(values) / len(values) std (sum((x - mean)**2 for x in values) / len(values))**0.5 outliers defaultdict(list) for record in data: if amount not in record: outliers[missing].append(record) elif abs(record[amount] - mean) threshold * std: outliers[outlier].append(record) else: outliers[normal].append(record) return outliers2. 特征工程中的快速映射构建在机器学习特征工程中我们经常需要构建各种映射关系比如类别编码、特征交叉等。defaultdict能让这些操作变得异常简洁。2.1 类别特征编码假设我们有一个用户数据集需要将城市名称转换为数字编码users [ {name: Alice, city: New York}, {name: Bob, city: Chicago}, {name: Charlie, city: New York}, # ... 更多用户 ] # 传统方法 city_to_id {} current_id 0 for user in users: city user[city] if city not in city_to_id: city_to_id[city] current_id current_id 1 # 使用defaultdict from itertools import count city_counter count() city_to_id defaultdict(lambda: next(city_counter)) for user in users: city user[city] _ city_to_id[city] # 自动分配新ID2.2 特征交叉统计在构建推荐系统时我们可能需要统计用户-物品的交互频率interactions [ (user1, itemA), (user2, itemB), (user1, itemC), (user2, itemA), # ... 更多交互 ] # 构建用户到物品的映射 user_to_items defaultdict(set) for user, item in interactions: user_to_items[user].add(item) # 构建物品到用户的映射 item_to_users defaultdict(set) for user, item in interactions: item_to_users[item].add(user) # 计算物品共现矩阵 cooccurrence defaultdict(lambda: defaultdict(int)) for user, items in user_to_items.items(): items list(items) for i in range(len(items)): for j in range(i1, len(items)): item1, item2 items[i], items[j] cooccurrence[item1][item2] 1 cooccurrence[item2][item1] 13. 图算法中的邻接表表示图算法是数据科学中的重要工具而defaultdict是表示图结构的绝佳选择。无论是社交网络分析、网页排名还是路径规划邻接表都是最常用的图表示方法之一。3.1 构建无权图edges [(A, B), (B, C), (C, A), (B, D), (D, E)] graph defaultdict(set) for src, dst in edges: graph[src].add(dst) # 如果是无向图还需要添加反向边 graph[dst].add(src)3.2 构建带权图对于带权图如距离、流量等我们可以使用defaultdict嵌套weighted_edges [(A, B, 5), (B, C, 3), (A, C, 10)] graph defaultdict(dict) for src, dst, weight in weighted_edges: graph[src][dst] weight # 无向图需要添加反向边 graph[dst][src] weight3.3 实现简单的PageRank算法def pagerank(graph, damping0.85, iterations100): # 初始化所有节点的PR值 ranks defaultdict(lambda: 1.0 / len(graph)) for _ in range(iterations): new_ranks defaultdict(float) total_rank 0.0 # 收集每个节点的PR值 for node in graph: if not graph[node]: # 处理悬挂节点 total_rank ranks[node] continue share damping * ranks[node] / len(graph[node]) for neighbor in graph[node]: new_ranks[neighbor] share # 处理随机跳转部分 random_jump (1 - damping damping * total_rank) / len(graph) for node in graph: new_ranks[node] random_jump ranks new_ranks return ranks4. 实现高效缓存机制缓存是优化程序性能的常用技术defaultdict可以轻松实现各种缓存策略。4.1 简单的记忆化缓存def memoize(func): cache defaultdict() def wrapper(*args): if args not in cache: cache[args] func(*args) return cache[args] return wrapper memoize def fibonacci(n): if n 2: return n return fibonacci(n-1) fibonacci(n-2)4.2 带过期时间的缓存import time class TimedCache: def __init__(self, ttl60): self.cache defaultdict() self.ttl ttl def __contains__(self, key): if key not in self.cache: return False value, timestamp self.cache[key] return time.time() - timestamp self.ttl def __getitem__(self, key): if key in self: return self.cache[key][0] raise KeyError(key) def __setitem__(self, key, value): self.cache[key] (value, time.time())4.3 LRU缓存实现虽然Python有functools.lru_cache但了解其实现原理很有帮助from collections import OrderedDict class LRUCache: def __init__(self, capacity128): self.cache OrderedDict() self.capacity capacity def get(self, key): if key not in self.cache: return None self.cache.move_to_end(key) return self.cache[key] def put(self, key, value): if key in self.cache: self.cache.move_to_end(key) self.cache[key] value if len(self.cache) self.capacity: self.cache.popitem(lastFalse)5. 配置管理与树形结构处理处理嵌套的配置数据或树形结构时defaultdict能大大简化代码。5.1 嵌套配置合并def merge_configs(*configs): def merge_dicts(d1, d2): result defaultdict(dict, d1) for key, value in d2.items(): if key in result and isinstance(result[key], dict) and isinstance(value, dict): result[key] merge_dicts(result[key], value) else: result[key] value return dict(result) result {} for config in configs: result merge_dicts(result, config) return result5.2 构建文件系统树def build_file_tree(paths): tree defaultdict(dict) for path in paths: parts path.split(/) current_level tree for part in parts[:-1]: current_level current_level.setdefault(part, defaultdict(dict)) current_level[parts[-1]] None return tree5.3 处理嵌套JSON数据def flatten_json(data, parent_key, sep_): items defaultdict(list) for key, value in data.items(): new_key f{parent_key}{sep}{key} if parent_key else key if isinstance(value, dict): nested flatten_json(value, new_key, sep) for k, v in nested.items(): items[k].extend(v) elif isinstance(value, list): for i, item in enumerate(value): if isinstance(item, dict): nested flatten_json(item, f{new_key}{sep}{i}, sep) for k, v in nested.items(): items[k].extend(v) else: items[new_key].append(item) else: items[new_key].append(value) return dict(items)