实验报告 7-2：自媒体运营分析 - 作品特征构建

张

张建站

2026/7/3 5:43:08

10分钟阅读

一、实验背景1.1 实验目的本实验承接实验 7-1 清洗完成的content_analysis明细数据表依托助睿 ETL 完成衍生指标计算与文本特征提取属于机器学习建模前核心特征工程环节完成两大任务基于基础互动指标计算单作品总互动量衍生字段通过文本匹配提取 5 类标题二分类 0/1 特征回填至原有明细表分组聚合统计各关键词作品平均互动数据生成关键词分析汇总表量化标题文案对流量、互动的影响为后续 BI 可视化、用户行为建模提供特征样本。通过实操需要掌握核心能力理解特征工程在数据分析、机器学习流程中的核心价值原始业务字段无法直接用于模型训练需人工构造有业务意义的衍生特征熟练使用助睿 ETL 计算器、JS 自定义代码组件完成数值衍生、文本关键词特征提取区分「插入更新」与「表输出」组件差异掌握增量更新数据表方法避免数据冗余重复掌握多分支复制、分组聚合、记录集关联的统计思路实现分组对比特征效果。1.2 实验环境平台全称助睿数智Uniplore一站式数据科学平台实训访问地址助睿数智核心工具助睿 ETLUD Studio 零代码数据集成工具平台核心能力覆盖数据接入、ETL 清洗、特征加工、AI 建模、可视化全链路内置 200 零代码处理组件支持自定义 JS 脚本扩展数据处理逻辑流批一体引擎适配教学数据集加工。前置数据源实验 7-1 产出content_analysis清洗明细表仅 B 站、CSDN 有效作品无脏数据、空值补齐。本实验新增目标表title_feature_analysis关键词统计汇总表。1.3 核心设计思路1.3.1 特征工程业务逻辑本次构建两类可用于统计、机器学习分类模型的特征数值衍生特征total_interaction 总互动量计算公式total_interaction likes favorites shares coins业务含义统一量化单篇作品全部用户互动行为总和消除不同平台互动指标差异作为评估内容热度统一标签可直接用于回归、聚类模型输入。文本二分类特征has_best/has_lowcode/has_practice/has_tutorial/has_pit通过匹配标题关键词生成 0、1 标识字段1 代表标题包含对应教学类关键词0 代表不包含属于文本离散特征用于分类任务、分组对比分析判断标题话术对互动数据的影响。1.3.2 整体数据处理流程流程分为两大独立 Pipeline明细更新流读取清洗表→JS 提取标题特征→计算器计算总互动→插入更新回填content_analysis关键词统计流分为整体均值分支、单关键词分支过滤聚合后通过字段标签关联合并批量写入title_feature_analysis汇总表设计优势一次加工同时产出作品级明细、关键词聚合两层数据分别支撑单作品明细分析、标题策略对比分析。二、详细实验步骤4.1 第一部分更新 content_analysis 明细表标题特征总互动指标步骤 1导入实验 7-1 清洗数据源新建空白 ETL 转换流拖拽【表输入】组件至画布数据源选择团队私有数据库数据表勾选实验 7-1 输出的content_analysis点击数据探查预览数据确认字段date、author_name、title、platform、likes、favorites、shares、coins、views、url、id完整无空值仅预留特征字段未填充配置要点开启全字段读取保留主键 id 用于后续数据匹配更新。步骤 2JavaScript 组件提取 5 类标题关键词特征在表输入下游拖拽【JavaScript 代码】组件打开代码编辑框粘贴关键词匹配脚本var title title; // 匹配五类教学关键词生成0/1特征 var has_best title.indexOf(保姆级) ! -1 ? 1 : 0; var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0; var has_practice title.indexOf(实战) ! -1 ? 1 : 0; var has_tutorial (title.indexOf(教程) ! -1 || title.indexOf(指南) ! -1) ? 1 : 0; var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0; // 输出新特征字段 has_best has_best; has_lowcode has_lowcode; has_practice has_practice; has_tutorial has_tutorial; has_pit has_pit;配置说明提前确认content_analysis表已创建 5 个 TINYINT 类型特征字段引擎才能正常输出脚本对标题字符串做模糊匹配命中输出 1未命中输出 0形成标准化离散特征。数据预览随机抽查多条标题验证特征字段 0/1 赋值逻辑是否匹配关键词。步骤 3计算器组件计算总互动衍生指标JS 组件后接入【计算器】组件新增输出字段interactions计算公式interactions likes favorites shares coins业务说明统一整合点赞、收藏、分享、B 站投币四类互动数据消除平台指标差异生成连续型数值特征可用于均值计算、相关性分析、回归建模。步骤 4插入 / 更新组件回填数据不重复新增行计算器下游拖拽【插入 / 更新】组件核心参数配置 | 配置项 | 设置内容 | | ---- | ---- | | 目标数据表 | content_analysis | | 匹配主键 | id作品唯一标识 | | 需要更新字段 | total_interaction, has_best, has_lowcode, has_practice, has_tutorial, has_pit |字段映射对应关系 | 流内计算字段 | 数据表目标字段 | | ---- | ---- | | interactions | total_interaction | | has_best | has_best | | has_lowcode | has_lowcode | | has_practice | has_practice | | has_tutorial | has_tutorial | | has_pit | has_pit |关键区分普通表输出会重复新增作品数据插入更新以 id 作为主键匹配仅更新新增特征字段原有基础数据不变支持多次重复运行 Pipeline 无冗余脏数据。流字段表字段更新id id 是interactions total_interaction 是has_best has_best 是has_lowcode has_lowcode 是has_practice has_practice 是has_tutorial has_tutorial 是has_pit has_pit 是————————————————版权声明本文为CSDN博主「十六分的音符302」的原创文章遵循CC 4.0 BY-SA版权协议转载请附上原文出处链接及本声明。原文链接https://blog.csdn.net/2302_80696366/article/details/162496711步骤 5执行明细更新转换流检查组件连线、字段映射无缺失、无错配点击画布顶部运行按钮执行转换流运行完成后打开content_analysis表探查确认总互动、5 个标题特征全部填充完成。4.2 第二部分构建 title_feature_analysis 关键词汇总表步骤 1新建关键词统计目标数据表进入表管理界面创建title_feature_analysis表结构定义字段名数据类型业务说明idINT自增主键platformVARCHAR(20)区分 B 站 / CSDN 平台feature_nameVARCHAR(50)关键词文本标签保姆级 / 零代码等avg_interactionDECIMAL(10,2)含该关键词作品平均互动量overall_avgDECIMAL(10,2)对应平台全部作品平均互动基线sample_countINT包含该关键词的作品样本数量DROP TABLE IF EXISTS title_feature_analysis; CREATE TABLE title_feature_analysis ( id INT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键, platform VARCHAR(20) COMMENT 平台B站/CSDN, feature_name VARCHAR(50) COMMENT 关键词名称, avg_interaction DECIMAL(10,2) COMMENT 含该关键词的平均互动总数, overall_avg DECIMAL(10,2) COMMENT 该平台整体平均互动总数, sample_count INT COMMENT 含该关键词的作品数 ) ENGINE InnoDB DEFAULT CHARSET utf8mb4 COMMENT 标题关键词特征分析统计表;步骤 2搭建分支 1—— 计算平台整体平均互动基线新建表输入读取content_analysis数据依次接入【排序记录】、【分组聚合】组件不设置任何分组维度聚合规则AVG (total_interaction) 输出 overall_avg聚合完成后接入“排序记录”组件同样按“plantform”字段升序排序下游添加【增加常量】组件新增字段feature_name 整体均值作用生成各平台互动基准值用于后续对比关键词提升效果。步骤 3搭建分支 2—— 单关键词均值统计以 “保姆级” 为例复制表输入组件新建独立分支【过滤记录】组件设置条件has_best 1仅保留标题含 “保姆级” 作品排序分组聚合聚合指标AVG(total_interaction) → avg_interactionCOUNT(id) → sample_count增加常量组件feature_name 保姆级常量字段作用聚合后仅留存数值增加文本标签用于和整体均值分支关联匹配。步骤 4记录集连接合并均值数据拖拽【记录集连接】组件两个输入分别接入「整体均值分支」「保姆级关键词分支」匹配关联字段设置为feature_name采用内连接连接后单条数据同时包含关键词均值、平台整体均值、样本数量。步骤 5表输出写入汇总表连接组件下游接入【表输出】目标表选择title_feature_analysis关键配置取消勾选运行前裁剪表后续其他关键词数据追加写入不删除已有记录核对全部字段映射关系确认 platform、avg_interaction、overall_avg、sample_count 完整映射。步骤 6批量复制分支完成全部关键词统计执行完整复制 “保姆级” 整套分支仅修改两处配置过滤条件依次替换为has_lowcode1、has_practice1、has_tutorial1、has_pit1常量 feature_name对应改为 “零代码”“实战”“教程 / 指南”“踩坑”依次运行 5 套关键词统计转换流探查title_feature_analysis表确认 5 个关键词、对应平台均值、样本数量全部入库。接下来加工其他关键词的数据只修改两处过滤条件如has_lowcode 1和常量值如零代码然后运行转换流。其他组件配置完全相同。三、实验结果3.1 输出成果 1更新后的 content_analysis 作品明细表数据粒度单条作品一条记录新增字段total_interaction总互动、5 个标题 0/1 二分类特征数据价值可直接用于学生作品排名、每日流量趋势、单作品互动分析是后续 BI 可视化底层明细数据源同时可导出为机器学习建模样本集。3.2 输出成果 2新建 title_feature_analysis 关键词汇总表数据粒度单个关键词单条统计记录数据内容存储各关键词平均互动、平台整体均值、对应作品样本量业务价值量化标题文案对互动数据的增益效果计算提升倍率关键词均值 ÷ 整体均值直接指导自媒体标题运营策略优化。3.3 数据验证结论数值特征校验total_interaction 计算逻辑无误无负数、空值文本特征校验关键词匹配准确不存在 0/1 赋值错乱聚合统计校验各关键词样本计数、平均互动数值逻辑合理可支撑对比分析。四、实验过程问题与解决问题 1JS 代码运行后数据表无 5 个特征字段现象JS 组件无报错但探查content_analysis表不存在 has_best 等字段原因目标数据表未提前创建 TINYINT 类型特征字段引擎无法写入新字段解决进入表管理预先新增 5 个对应字段重新运行转换流完成特征回填。问题 2多次运行插入更新组件数据总量持续翻倍现象重复执行流程后明细表作品记录不断新增出现重复数据原因插入更新组件未绑定主键 id 作为匹配关键字解决修改插入更新配置将查询关键字设置为 id以作品唯一 id 匹配更新不再新增重复记录。问题 3关键词合并后整体均值字段为空现象记录集连接后 overall_avg 全部为空无法对比基准原因两条分支常量 feature_name 名称不一致无法完成关联匹配解决统一两边分支的 feature_name 文本标签保证匹配字段值完全相同。问题 4表输出运行后关键词数据覆盖原有记录现象运行下一组关键词分支后上一组统计数据消失原因表输出组件勾选了 “运行前裁剪表”每次写入清空整张表解决取消裁剪表勾选采用追加写入模式多条关键词数据共存。五、实验总结5.1 实验收获掌握特征工程完整实操逻辑区分连续数值衍生特征、离散文本二分类特征理解两类特征在统计分析、机器学习模型中的应用场景熟练掌握助睿 ETL 核心进阶组件JS 自定义脚本实现文本挖掘、插入更新实现增量数据回填、多分支复制批量完成分组统计建立分层数据分析思维先处理单作品明细粒度数据再聚合关键词宏观统计数据一套数据支撑多层级业务分析理解零代码平台扩展能力内置组件无法完成文本匹配时可通过 JS 脚本自定义处理逻辑兼顾易用性与灵活扩展。5.2 助睿数智平台评价助睿数智 Uniplore 一站式平台完整覆盖 ETL 清洗、特征工程、可视化全实训链路助睿 ETL 内置计算器、自定义 JS 组件完美适配特征工程教学场景零代码拖拽降低编程门槛同时开放脚本能力满足文本处理、复杂指标计算需求。分支复制、记录集连接等组件简化多维度分组统计操作数据表增量更新功能解决重复运行产生脏数据的痛点贴合企业真实数据加工流程非常适合数据分析、机器学习前置数据处理实训教学。

python自动化提取网页数据（火狐浏览器版）

利用selenium库配合火狐驱动实现自动化，额外加pyautogui库实现并行操作；pandas库保存网页数据，实现方式如下：from bs4 import BeautifulSoup from selenium import webdriver #from selenium.webdriver.chrome.options import Opt…...

2026/7/3 5:40:28 阅读更多 →