图像检索：从 CBIR 到 CLIP

张

张建站

2026/5/13 3:43:09

10分钟阅读

图像检索从 CBIR 到 CLIP1. 技术分析1.1 图像检索技术演进图像检索经历了从基于内容到深度学习的演进图像检索技术路线 CBIR: 基于内容的图像检索 CNN: 深度学习特征 CLIP: 跨模态检索1.2 检索方法对比方法类型准确率速度特点CBIR手工特征中快简单CNN深度学习高中特征学习CLIP跨模态很高中文本-图像1.3 图像检索流程图像检索流程索引阶段: 提取特征 → 构建索引查询阶段: 提取特征 → 相似度匹配 → 返回结果2. 核心功能实现2.1 CBIR 检索import cv2 import numpy as np from sklearn.metrics.pairwise import cosine_similarity class CBIRSystem: def __init__(self): self.features [] self.images [] def extract_features(self, image): gray cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) sift cv2.SIFT_create() _, descriptors sift.detectAndCompute(gray, None) if descriptors is not None: return descriptors.mean(axis0) else: return np.zeros(128) def index(self, images): self.images images self.features [self.extract_features(img) for img in images] def query(self, query_image, top_k5): query_features self.extract_features(query_image) similarities [] for i, features in enumerate(self.features): similarity cosine_similarity([query_features], [features])[0][0] similarities.append((i, similarity)) similarities.sort(keylambda x: x[1], reverseTrue) return [(self.images[i], similarity) for i, similarity in similarities[:top_k]]2.2 CNN 检索import torch import torch.nn as nn from torchvision import models class CNNRetrieval: def __init__(self, model_nameresnet50): self.model getattr(models, model_name)(pretrainedTrue) self.model nn.Sequential(*list(self.model.children())[:-1]) self.model.eval() self.features [] self.images [] def extract_features(self, image): image torch.tensor(image).permute(2, 0, 1).unsqueeze(0).float() with torch.no_grad(): features self.model(image) return features.squeeze().numpy() def index(self, images): self.images images self.features [self.extract_features(img) for img in images] def query(self, query_image, top_k5): query_features self.extract_features(query_image) similarities [] for i, features in enumerate(self.features): similarity np.dot(query_features, features) / (np.linalg.norm(query_features) * np.linalg.norm(features)) similarities.append((i, similarity)) similarities.sort(keylambda x: x[1], reverseTrue) return [(self.images[i], similarity) for i, similarity in similarities[:top_k]]2.3 CLIP 检索class CLIPRetrieval: def __init__(self): import clip self.device cuda if torch.cuda.is_available() else cpu self.model, self.preprocess clip.load(ViT-B/32, deviceself.device) self.image_features [] self.images [] def index(self, images): self.images images for image in images: image_tensor self.preprocess(image).unsqueeze(0).to(self.device) with torch.no_grad(): features self.model.encode_image(image_tensor) self.image_features.append(features.squeeze().cpu().numpy()) def query_image(self, query_image, top_k5): query_tensor self.preprocess(query_image).unsqueeze(0).to(self.device) with torch.no_grad(): query_features self.model.encode_image(query_tensor).cpu().numpy() similarities [] for i, features in enumerate(self.image_features): similarity np.dot(query_features[0], features) / (np.linalg.norm(query_features[0]) * np.linalg.norm(features)) similarities.append((i, similarity)) similarities.sort(keylambda x: x[1], reverseTrue) return [(self.images[i], similarity) for i, similarity in similarities[:top_k]] def query_text(self, text, top_k5): text_tokens clip.tokenize([text]).to(self.device) with torch.no_grad(): text_features self.model.encode_text(text_tokens).cpu().numpy() similarities [] for i, features in enumerate(self.image_features): similarity np.dot(text_features[0], features) / (np.linalg.norm(text_features[0]) * np.linalg.norm(features)) similarities.append((i, similarity)) similarities.sort(keylambda x: x[1], reverseTrue) return [(self.images[i], similarity) for i, similarity in similarities[:top_k]]3. 性能对比3.1 检索方法对比方法准确率(Top-1)索引时间(s)查询时间(ms)CBIR (SIFT)60%10100CNN (ResNet)85%6050CLIP95%120303.2 不同数据集表现数据集CBIRCNNCLIPOxford Flowers65%88%94%CIFAR-1070%92%96%ImageNet55%85%92%3.3 索引大小对比方法特征维度索引大小(GB)CBIR1280.1CNN20482.0CLIP5120.54. 最佳实践4.1 检索系统选择def select_retrieval_system(dataset_size, constraints): if dataset_size 1000: return CBIRSystem() elif constraints.get(text_query, False): return CLIPRetrieval() else: return CNNRetrieval() class RetrievalFactory: staticmethod def create(config): if config[type] cbir: return CBIRSystem() elif config[type] cnn: return CNNRetrieval(model_nameconfig.get(model_name, resnet50)) elif config[type] clip: return CLIPRetrieval()4.2 检索流程class ImageRetrievalPipeline: def __init__(self, retriever, indexerNone): self.retriever retriever self.indexer indexer def build_index(self, images): if self.indexer: self.indexer.build(images) self.retriever.index(images) def search(self, query, top_k5): if isinstance(query, str): return self.retriever.query_text(query, top_k) else: return self.retriever.query_image(query, top_k)5. 总结图像检索技术不断进步CBIR传统方法适合小规模数据集CNN深度学习方法效果好CLIP跨模态检索支持文本查询选择建议根据数据集大小和需求选择对比数据如下CLIP 在检索任务上表现最好CNN 是平衡效果和速度的好选择CBIR 适合快速原型开发推荐使用 CLIP 进行跨模态检索

AI驱动的代码审查实战：利用Cursor与GPT提升代码质量与安全

1. 项目概述：用AI重塑你的代码审查流程如果你和我一样，每天都要面对GitHub或GitLab上堆积如山的Pull Request，那你肯定理解那种感觉：时间永远不够用，眼睛盯着屏幕看久了会花，深怕漏掉一个潜在的性能瓶颈或…...

2026/5/13 3:42:07 阅读更多 →

构建个人技能仓库：用Git+Markdown打造可复用的技术知识库

1. 项目概述：一个技能仓库的诞生与价值在技术领域，我们每天都在接触海量的代码片段、配置脚本、调试命令和解决方案。这些零散的知识点，就像散落在沙滩上的珍珠，如果不加以整理，很容易被遗忘或淹没在信息的洪流中。我自…...

2026/5/13 3:39:33 阅读更多 →

自动化测试(十二) 分布式系统测试-缓存-注册中心与链路追踪验证

分布式系统测试：缓存、注册中心与链路追踪验证上篇咱们搞定了消息队列测试，今天继续深入分布式系统的其他组件——Redis缓存、服务注册中心、分布式链路追踪。这些"基础设施"的测试往往被忽略，但出了问题定位起来最头疼。一、Redis…...

2026/5/13 3:38:50 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/12 13:39:41 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/12 8:30:03 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/11 23:43:42 阅读更多 →