StructBERT模型实战：基于Python爬虫数据的新闻去重系统

张

张建站

2026/5/9 2:00:15

10分钟阅读

StructBERT模型实战基于Python爬虫数据的新闻去重系统每天打开新闻网站你是不是经常看到不同平台都在报道同一件事标题可能略有不同但内容大同小异。对于需要追踪大量信息的分析师、内容创作者或者普通读者来说这种重复信息不仅浪费时间还容易让人错过真正重要的新闻。今天我们就来聊聊怎么用技术解决这个问题。我会带你走一遍从抓取新闻到智能去重的完整流程核心是用一个叫StructBERT的模型来判断新闻是不是“换汤不换药”。整个过程会用到Python爬虫来收集数据然后用模型来“理解”新闻内容最后把重复的过滤掉生成一份清爽的每日摘要。听起来有点复杂别担心我会用大白话把每一步讲清楚并且提供可以直接运行的代码。你不需要是AI专家只要对Python有点了解就能跟着做下来。咱们的目标很实在让你看完就能动手搭建一个属于自己的新闻去重小工具。1. 为什么需要新闻去重从痛点说起我们先从一个具体的场景开始。假设你是一个财经领域的内容运营每天需要从十几个主流财经网站和自媒体平台收集行业动态。你可能会遇到下面这些头疼的事信息过载手动打开每个网站滚动浏览眼睛都看花了一上午可能就过去了。重复劳动同一件公司并购案A网站说“XX公司拟收购YY公司”B平台写“YY公司或将被XX收入囊中”C媒体标题是“重磅XX与YY达成收购意向”。你需要反复阅读才能确认这说的是同一件事。关键信息遗漏在大量重复信息中那些真正独家、角度新颖的报道反而容易被淹没。传统的解决方法比如简单地对比新闻标题是否完全一致或者用几个关键词匹配效果非常有限。因为编辑们为了吸引点击会在标题上做各种变化。这就需要更“智能”的方法——让机器能像人一样理解文字背后的意思。两篇新闻即使标题字面不同但如果讲的是同一核心事件我们就认为它们是相似的应该被归为一类只保留最有价值的一篇或几篇。这就是“语义去重”要干的事。而StructBERT这类模型正是为了理解句子结构和语义而生的它比只看词频的传统方法要聪明得多。2. 工具箱准备核心技术与环境搭建工欲善其事必先利其器。在开始构建系统之前我们先来快速认识一下要用到的几个核心工具并把环境准备好。2.1 核心组件简介Python爬虫这是我们的“信息采集员”。它的任务是按照我们设定的规则自动访问指定的新闻网站把新闻的标题、正文、发布时间、来源等信息“抓取”下来保存到我们的数据库或文件里。我们会用requests库来获取网页用BeautifulSoup或lxml来解析网页结构提取需要的内容。StructBERT模型这是我们的“智能审核官”。它是一个预训练的语言模型由阿里云的研究团队发布。它的特点是在训练时不仅学习了预测被掩盖的词像BERT一样还学习了预测被打乱的句子顺序。这让它对句子的结构有更好的理解能力。我们将用它来把每篇新闻的标题和正文转换成一组数字称为“向量”或“嵌入”这个向量包含了文本的语义信息。语义相近的新闻其向量在数学空间里的距离也会很近。向量数据库与相似度计算这是我们的“比对筛选系统”。我们把所有新闻的语义向量存储起来当一篇新新闻进来时系统会计算它的向量与库中已有向量之间的“距离”比如余弦相似度。如果距离非常近相似度超过一个阈值就判定为重复新闻。2.2 快速搭建Python环境我建议使用conda来管理环境这样可以避免包版本冲突。打开你的终端或命令行依次执行下面的命令。# 1. 创建一个新的Python环境命名为news_dedup conda create -n news_dedup python3.8 -y # 2. 激活这个环境 conda activate news_dedup # 3. 安装必要的Python库 pip install requests beautifulsoup4 lxml pandas numpy scikit-learn # 安装深度学习框架这里以PyTorch为例请根据你的CUDA版本去官网选择对应命令 # 如果没有GPU使用下面的CPU版本 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu # 安装Transformers库它提供了StructBERT等预训练模型的简易接口 pip install transformers环境准备好后我们就可以分步动手了。整个系统的工作流程可以概括为下图所示的几个步骤flowchart TD A[启动新闻爬虫] -- B[抓取多个新闻源数据] B -- C[解析并清洗br标题、正文、来源等] C -- D[使用StructBERT模型br生成文本语义向量] D -- E{新向量与历史向量库比对} E -- 相似度阈值 -- F[判定为重复新闻br过滤或归类] E -- 相似度≤阈值 -- G[判定为新新闻br存入向量库] G -- H[生成去重后的br每日新闻摘要] F -- H接下来我们就按照这个流程一步步实现它。3. 第一步用Python爬虫构建新闻采集器爬虫部分我们的目标是稳定、守规矩地拿到数据。这里以抓取一个模拟的新闻页面为例实际应用中你需要针对目标网站编写具体的解析规则。import requests from bs4 import BeautifulSoup import pandas as pd import time import random class NewsCrawler: def __init__(self): self.headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 } self.news_list [] def fetch_news_from_sample(self, url): 从一个示例页面抓取新闻模拟多个新闻条目 try: resp requests.get(url, headersself.headers, timeout10) resp.raise_for_status() # 检查请求是否成功 resp.encoding utf-8 soup BeautifulSoup(resp.text, lxml) # 假设页面结构每个新闻条目在 classnews-item 的div里 news_items soup.find_all(div, class_news-item) for item in news_items: news_data {} # 提取标题 title_elem item.find(h2, class_title) news_data[title] title_elem.get_text(stripTrue) if title_elem else # 提取正文摘要实际中可能需要进入详情页抓取全文 content_elem item.find(p, class_summary) news_data[content] content_elem.get_text(stripTrue) if content_elem else # 提取来源和时间 source_elem item.find(span, class_source) news_data[source] source_elem.get_text(stripTrue) if source_elem else Unknown time_elem item.find(span, class_time) news_data[publish_time] time_elem.get_text(stripTrue) if time_elem else if news_data[title]: # 确保有标题才收集 self.news_list.append(news_data) print(f从 {url} 抓取了 {len(news_items)} 条新闻。) time.sleep(random.uniform(1, 3)) # 礼貌等待避免对服务器造成压力 except Exception as e: print(f抓取 {url} 时出错: {e}) def save_to_csv(self, filenameraw_news.csv): 将抓取的新闻保存到CSV文件 if self.news_list: df pd.DataFrame(self.news_list) df.to_csv(filename, indexFalse, encodingutf-8-sig) print(f新闻数据已保存到 {filename}) else: print(没有数据可保存。) # 使用示例 if __name__ __main__: crawler NewsCrawler() # 这里替换成你想要抓取的真实新闻网站列表 sample_urls [ https://example-news-site-1.com/tech, https://example-news-site-2.com/finance, # ... 更多网站 ] # 为了演示我们假设只有一个模拟源 crawler.fetch_news_from_sample(https://httpbin.org/html) # 使用一个返回示例HTML的网址 crawler.save_to_csv()这段代码定义了一个简单的爬虫类。在实际项目中你需要分析目标网站用浏览器开发者工具查看新闻列表页和详情页的HTML结构。编写解析规则根据实际结构修改find和find_all的参数。处理反爬有些网站可能需要处理Cookie、Session或使用更复杂的请求头。抓取全文通常需要先从列表页获取文章链接再逐个访问详情页抓取正文。爬虫跑起来后你会得到一个包含原始新闻数据的CSV文件这是我们的原材料。4. 第二步召唤智能审核官——StructBERT语义理解原材料有了现在需要请出我们的“智能审核官”StructBERT让它把文字新闻转换成计算机能理解的语义向量。import torch from transformers import AutoTokenizer, AutoModel import numpy as np class StructBERTSimilarity: def __init__(self, model_namealbert-base-v2): 初始化StructBERT模型和分词器。注意Hugging Face上可能没有直接名为‘structbert’的模型。我们可以使用一个在相似任务上表现良好的中文BERT变体比如‘bert-base-chinese’。这里以‘albert-base-v2’为例因为它体积小速度快适合演示。实际生产环境可考虑‘bert-base-chinese’或‘hfl/chinese-bert-wwm-ext’。 print(f正在加载模型和分词器: {model_name}...) self.tokenizer AutoTokenizer.from_pretrained(model_name) self.model AutoModel.from_pretrained(model_name) self.model.eval() # 设置为评估模式 print(模型加载完毕。) def get_text_embedding(self, text): 将单条文本转换为语义向量取[CLS]位置的向量作为句子表示 if not text or not isinstance(text, str): return np.zeros(self.model.config.hidden_size) # 返回零向量 inputs self.tokenizer(text, return_tensorspt, truncationTrue, paddingTrue, max_length512) with torch.no_grad(): # 不计算梯度加快推理速度 outputs self.model(**inputs) # 取最后一层隐藏状态中[CLS]标记对应的向量 embedding outputs.last_hidden_state[:, 0, :].squeeze().numpy() return embedding def calculate_similarity(self, embedding1, embedding2): 计算两个向量之间的余弦相似度 # 确保是一维数组 vec1 np.squeeze(embedding1) vec2 np.squeeze(embedding2) # 计算余弦相似度 cosine_sim np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)) return cosine_sim # 使用示例 if __name__ __main__: # 初始化相似度计算器 similarity_calculator StructBERTSimilarity(albert-base-v2) # 示例新闻标题 title1 苹果公司发布全新iPhone 15搭载A17芯片 title2 iPhone 15正式亮相苹果A17处理器成亮点 title3 国际油价今日大幅上涨突破每桶90美元 # 生成向量 print(正在生成文本向量...) vec1 similarity_calculator.get_text_embedding(title1) vec2 similarity_calculator.get_text_embedding(title2) vec3 similarity_calculator.get_text_embedding(title3) # 计算相似度 sim_1_2 similarity_calculator.calculate_similarity(vec1, vec2) sim_1_3 similarity_calculator.calculate_similarity(vec1, vec3) print(f‘{title1}’ 与 ‘{title2}’ 的语义相似度: {sim_1_2:.4f}) print(f‘{title1}’ 与 ‘{title3}’ 的语义相似度: {sim_1_3:.4f})运行这段代码你会看到前两个关于iPhone 15的标题相似度很高可能超过0.8而与油价新闻的标题相似度则很低可能接近0。这就是语义理解的力量——它抓住了“苹果发布新手机”这个核心事件而不被“发布”、“亮相”这些不同的用词所迷惑。小提示在实际应用中为了更准确地判断两篇新闻是否重复我们通常会结合标题向量和正文向量的相似度给予不同的权重。例如标题相似度权重更高因为标题是内容的凝练。5. 第三步组装完整系统与效果展示现在我们把爬虫和语义模型组装起来构建一个完整的去重流水线。为了演示我们模拟一批新闻数据。import pandas as pd from sklearn.metrics.pairwise import cosine_similarity import numpy as np class NewsDeduplicationSystem: def __init__(self, similarity_model, similarity_threshold0.85): 初始化去重系统。 :param similarity_model: 上面定义的StructBERTSimilarity实例 :param similarity_threshold: 判定为重复的相似度阈值需要根据实际情况调整 self.model similarity_model self.threshold similarity_threshold self.existing_news [] # 存储已去重新闻的字典列表 self.existing_embeddings [] # 存储对应新闻的语义向量标题正文的混合向量 def create_combined_embedding(self, news_item): 为一条新闻创建综合语义向量结合标题和正文 title_embedding self.model.get_text_embedding(news_item.get(title, )) content_embedding self.model.get_text_embedding(news_item.get(content, )[:500]) # 正文取前500字 # 简单加权平均标题权重更高 combined_embedding 0.7 * title_embedding 0.3 * content_embedding return combined_embedding def process_news_batch(self, new_news_list): 处理一批新抓取的新闻进行去重 unique_news [] for news in new_news_list: new_embedding self.create_combined_embedding(news) is_duplicate False if self.existing_embeddings: # 计算新新闻与所有已有新闻的相似度 similarities cosine_similarity([new_embedding], self.existing_embeddings)[0] max_similarity np.max(similarities) if max_similarity self.threshold: is_duplicate True dup_index np.argmax(similarities) print(f发现重复新闻新标题‘{news[title]}’ 与已有新闻 ‘{self.existing_news[dup_index][title]}’ 相似度: {max_similarity:.4f}) if not is_duplicate: # 非重复新闻加入库中 self.existing_news.append(news) self.existing_embeddings.append(new_embedding) unique_news.append(news) print(f新增新闻: {news[title]}) return unique_news def generate_daily_summary(self, top_n10): 生成每日摘要示例按来源和标题简单列出 print(\n 今日去重后新闻摘要 ) for i, news in enumerate(self.existing_news[-top_n:], 1): # 取最新的N条 print(f{i}. [{news.get(source, N/A)}] {news.get(title, No Title)}) # 这里可以扩展比如按类别分类、提取关键词等 # 模拟数据演示系统运行 if __name__ __main__: # 1. 初始化模型和系统 bert_sim StructBERTSimilarity(albert-base-v2) dedup_system NewsDeduplicationSystem(bert_sim, similarity_threshold0.82) # 2. 模拟第一批抓取到的新闻 batch1 [ {title: 苹果秋季发布会定档9月12日iPhone 15系列即将登场, content: 据多方消息确认..., source: 科技快报}, {title: 国际金价创历史新高投资者避险情绪升温, content: 受全球经济不确定性影响..., source: 财经网}, {title: 新能源汽车8月销量环比增长20%比亚迪领跑, content: 最新数据显示..., source: 汽车之家}, ] print(处理第一批新闻...) unique1 dedup_system.process_news_batch(batch1) print(f第一批去重后新增 {len(unique1)} 条新闻。) # 3. 模拟第二批抓取到的新闻包含重复和新的 batch2 [ {title: iPhone 15发布时间确定9月12日苹果将揭晓新品, content: 苹果官方邀请函已发出..., source: IT头条}, # 与第一批第一条重复 {title: 央行宣布降准0.25个百分点释放长期资金, content: 为支持实体经济发展..., source: 金融时报}, # 新新闻 {title: 金价突破2000美元大关市场避险需求强烈, content: 纽约黄金期货价格持续上涨..., source: 华尔街见闻}, # 与第一批第二条重复 ] print(\n处理第二批新闻...) unique2 dedup_system.process_news_batch(batch2) print(f第二批去重后新增 {len(unique2)} 条新闻。) # 4. 生成摘要 dedup_system.generate_daily_summary()运行这个系统你会看到类似下面的输出处理第一批新闻... 新增新闻: 苹果秋季发布会定档9月12日iPhone 15系列即将登场新增新闻: 国际金价创历史新高投资者避险情绪升温新增新闻: 新能源汽车8月销量环比增长20%比亚迪领跑第一批去重后新增 3 条新闻。处理第二批新闻... 发现重复新闻新标题‘iPhone 15发布时间确定9月12日苹果将揭晓新品’ 与已有新闻 ‘苹果秋季发布会定档9月12日iPhone 15系列即将登场’ 相似度: 0.9123 新增新闻: 央行宣布降准0.25个百分点释放长期资金发现重复新闻新标题‘金价突破2000美元大关市场避险需求强烈’ 与已有新闻 ‘国际金价创历史新高投资者避险情绪升温’ 相似度: 0.8765 第二批去重后新增 1 条新闻。今日去重后新闻摘要 1. [科技快报] 苹果秋季发布会定档9月12日iPhone 15系列即将登场 2. [财经网] 国际金价创历史新高投资者避险情绪升温 3. [汽车之家] 新能源汽车8月销量环比增长20%比亚迪领跑 4. [金融时报] 央行宣布降准0.25个百分点释放长期资金看系统成功识别出了语义重复的新闻即使它们的标题表述不完全相同。最终我们从6条原始新闻中过滤掉了2条重复的得到了4条核心信息生成了清晰的摘要。6. 让系统更实用优化与扩展思路上面的例子是一个基础版本。要让它在实际工作中更可靠、更强大你还可以从下面这些方向去完善优化爬虫稳健性增加重试机制、代理IP池、更完善的异常处理以及遵守网站的robots.txt规则。丰富文本特征除了使用[CLS]向量可以尝试将每一层的输出向量进行组合如最后一层或最后四层的平均或者使用专门为句子相似度任务训练的模型如sentence-transformers库中的模型。设计更聪明的去重策略可以结合发布时间优先保留来源权威、内容更全面的报道。对于高度相似的新闻可以不直接丢弃而是聚类归档方便后续查阅。引入增量更新与向量索引当新闻量很大时每次全量计算相似度会很慢。可以考虑使用专门的向量数据库如 FAISS, Milvus, Qdrant它们能高效地进行海量向量的近似最近邻搜索。构建可视化界面用 Flask 或 Streamlit 快速搭建一个Web界面展示去重结果、新闻聚类、趋势分析等让非技术人员也能方便使用。整个项目做下来你会发现将Python爬虫和像StructBERT这样的AI模型结合起来能解决很多实际的信息处理难题。它不仅仅是过滤重复新闻这个思路同样可以用于论文查重、社交媒体热点追踪、客户反馈分类等场景。核心思想就是让机器先理解内容再去做判断。希望这个从零开始的实战分享能给你带来一些启发。动手试试吧从抓取一两个你常看的网站开始看看AI能帮你省下多少筛选信息的时间。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

保姆级教程：为Dify知识检索模块打造专属API（附完整PowerShell测试脚本）

深度定制Dify知识检索API：从零构建企业级知识库接口 1. 为什么需要自定义知识检索API？ 在当今企业智能化转型浪潮中，知识管理系统的API化集成已成为刚需。Dify作为领先的开源LLM应用开发平台，其知识检索功能虽然强大，但…...

2026/4/9 22:34:26 阅读更多 →

DEM数据处理避坑指南：ArcGIS中如何智能剔除边界异常值

DEM数据处理避坑指南：ArcGIS中智能剔除边界异常值的实战技巧第一次处理DEM数据时，我盯着屏幕上那些突兀的边界数值直发愣——它们像一群不守规矩的"捣乱分子"，把整个分析结果搅得一团糟。这种边界异常值问题在地形分析中极为常见&…...

2026/4/9 22:34:27 阅读更多 →

手把手教你CH549/CH548烧录与调试：串口与USB双模式详解

CH549/CH548双模烧录全指南：从硬件准备到实战技巧第一次拿到CH549/CH548开发板时，最让人头疼的就是烧录环节。作为国产MCU中的性价比之选，这两款芯片的双模烧录特性本应是优势，但缺乏系统化的操作指南反而让不少开发者走了弯路。…...

2026/4/9 22:34:27 阅读更多 →

环境配置与基础教程：2026自动化标注黑科技：使用 Segment Anything (SAM) 零样本辅助标注 YOLO 分割与检测数据集

编者按在计算机视觉项目中，数据标注一直是最让人头疼的环节。根据社区普遍反馈（源自多个CSDN项目经验和公开技术报告），传统人工标注一张包含精细多边形掩码的图像需要3到10分钟，而一个完整的实例分割数据集往往需要上千张图片。如果你曾经带领团队连续加班数周只为了完成…...

2026/5/8 18:17:36 阅读更多 →

如何3步完成TikTok评论数据采集：开源工具的高效实战指南

如何3步完成TikTok评论数据采集：开源工具的高效实战指南【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper TikTokCommentScraper是一个专为抖音内容创作者、市场分析师和社区运营者设计的开源数据…...

2026/5/8 11:05:15 阅读更多 →