中风体检数据分析1.数据导入首先将所需要的包进行引用importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#设置中文显示plt.rcParams[font.sans-serif][SimHei]#设置负号显示plt.rcParams[axes.unicode_minus]False然后导入数据#pip install xlrdage_abspd.read_excel(healthcare-dataset-age_abs.xlsx)print(age_abs.head())strokepd.read_excel(healthcare-dataset-stroke.xlsx)print(stroke.head())编号 年龄 平均血糖 0 9046 67.0 228.69 1 51676 61.0 202.21 2 31112 80.0 105.92 3 60182 49.0 171.23 4 1665 79.0 174.12 编号 性别 高血压 是否结婚 工作类型 居住类型 体重指数 吸烟史 中风 0 9046 男 否 是 私人 城市 36.6 以前吸烟 是 1 51676 女 否 是 私营企业 农村 NaN 从不吸烟 是 2 31112 男 否 是 私人 农村 32.5 从不吸烟 是 3 60182 女 否 是 私人 城市 34.4 抽烟 是 4 1665 女 是 是 私营企业 农村 24.0 从不吸烟 是healthcare-dataset-age_abs.xlsx表格为患者的年龄和血糖信息表格healthcare-dataset-stroke.xlsx为患者的基本信息性别、年龄、体重、身高、血压、心率、是否患有中风等。2.查看数据信息分布age_abs[[年龄,平均血糖]].describe().Tcountmeanstdmin25%50%75%max年龄1767.045.85876622.7852220.0828.00049.0064.00082.00平均血糖1767.0109.35544447.98384855.2277.92593.55118.565271.74可见年龄的分布范围为[082],年龄分布较为平均平均年龄为42岁标准差为12岁。\ 平均血糖的分布范围为[55.22271.74],平均血糖为109.35544age_abs.info()class pandas.core.frame.DataFrame RangeIndex: 1767 entries, 0 to 1766 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 编号 1767 non-null int64 1 年龄 1767 non-null float64 2 平均血糖 1767 non-null float64 dtypes: float64(2), int64(1) memory usage: 41.5 KB可见age_abs表格中没有缺失值所有数据均为数值型数据。#查看中风数据的空缺情况stroke.info()class pandas.core.frame.DataFrame RangeIndex: 1767 entries, 0 to 1766 Data columns (total 9 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 编号 1767 non-null int64 1 性别 1767 non-null object 2 高血压 1767 non-null object 3 是否结婚 1767 non-null object 4 工作类型 1767 non-null object 5 居住类型 1767 non-null object 6 体重指数 1672 non-null float64 7 吸烟史 1767 non-null object 8 中风 1767 non-null object dtypes: float64(1), int64(1), object(7) memory usage: 124.4 KB3.数据预处理# 处理空缺值strokestroke.dropna()#合并表格datapd.merge(age_abs,stroke,on编号,howinner)data.head()编号年龄平均血糖性别高血压是否结婚工作类型居住类型体重指数吸烟史中风0904667.0228.69男否是私人城市36.6以前吸烟是13111280.0105.92男否是私人农村32.5从不吸烟是26018249.0171.23女否是私人城市34.4抽烟是3166579.0174.12女是是私营企业农村24.0从不吸烟是45666981.0186.21男否是私人城市29.0以前吸烟是data[中风].value_counts()中风 否 1463 是 209 Name: count, dtype: int64datadata.loc[data[中风]是].reset_index(dropTrue)#只需要中风数据data表格将进行后续的分析分析出因素和中风的相关性。4.数据分析与可视化4.1 查看年龄和中风的相关性#首先将连续年龄离散化labels[青少年,青年,中年,壮年,老年]data[年龄级别]pd.cut(data[年龄],bins[0,20,40,60,80,100],labelslabels)#按照年龄级别进行分组,统计每个组别的中风数量df_agedata.groupby(年龄级别)[中风].count()#df_age#可视化df_age.plot.pie(autopct%1.1f%%,labelslabels,startangle90)plt.title(不同年龄级别中中风数量占比)plt.show()可见年龄为壮年的中风人数最多其次是中年和老年最后是青少年和青年。4.2 查看其他类别数据和中风的相关性#按照类别进行分组,统计每个组别的中风数量df_sexdata.groupby(性别).size()df_HBPdata.groupby(高血压).size()df_smokedata.groupby(吸烟史).size()df_marrigedata.groupby(是否结婚).size()df_livetypedata.groupby(居住类型).size()df_worketypedata.groupby(工作类型).size()#可视化figplt.figure(figsize(12,12),dpi200)#创建画布设置大小和分辨率plt.subplot(321)#创建子图3行2列第1个子图df_sex.plot.pie(autopct%1.1f%%,startangle90)plt.title(不同性别中中风数量占比)plt.subplot(322)df_HBP.plot.pie(autopct%1.1f%%,startangle90)plt.title(高血压中风数量占比)plt.subplot(323)df_smoke.plot.pie(autopct%1.1f%%,startangle90)plt.title(是否吸烟中风数量占比)plt.subplot(324)df_marrige.plot.pie(autopct%1.1f%%,startangle90)plt.title(是否结婚中风数量占比)plt.subplot(325)df_livetype.plot.pie(autopct%1.1f%%,startangle90)plt.title(居住类型中风数量占比)plt.subplot(326)df_worketype.plot.pie(autopct%1.1f%%,startangle90)plt.title(工作类型中风数量占比)plt.tight_layout()#调整子图间距plt.show()结论分析中风影响因素分类占比数据分析结论基于性别、高血压、吸烟史、婚姻状况、居住类型、工作类型六大分类的中风样本占比饼图从人口特征、生活习惯、社会属性三个维度进行相关性分析结论如下一、人口性别特征女性中风发病占比更高在确诊中风人群中女性占比 57.4%男性 42.6%中风样本里女性患者数量显著高于男性。说明在本次统计样本中女性群体中风患病风险相对更高性别是中风发病的关联因素之一。二、基础疾病无高血压人群仍是中风主体但高血压患病风险偏高中风患者里无高血压占 71.3%患有高血压仅 28.7%。从样本基数看大部分中风病患没有高血压病史结合医学常识反向推导全量人群中高血压患者占比远低于 28.7%说明高血压人群在自身群体里中风发病概率远高于非高血压人群高血压是中风重要高危诱因。三、吸烟行为有吸烟相关经历既往 / 现在抽烟合计近半数中风占比吸烟史分组从不吸烟 40.2%、以前吸烟 27.3%、抽烟 18.7%、吸烟情况未知 13.9%。曾经吸烟 当前抽烟人群合计占中风患者 46%接近中风总人数一半。证明吸烟含既往吸烟和中风发病高度相关烟草暴露是中风重要危险因素即便已经戒烟过往吸烟史仍会提升中风患病概率。四、婚姻状态已婚群体为中风高发人群中风患者中已婚占 89.0%未婚仅 11.0%已婚人群在中风样本中占据绝对主体。该现象大概率和已婚人群年龄结构、生活作息、慢病积累年限相关已婚人群平均年龄偏大是中风高发的关键隐性原因。五、居住地域城乡中风发病分布基本持平城市略高城市居住中风患者 52.2%、农村 47.8%城乡中风占比差距仅 4.4%整体分布均衡城市居民中风占比小幅高于农村。推测城市饮食高油高盐、作息压力、久坐等生活方式轻微拉高城市中风发病率。六、工作类型私人从业者中风占比遥遥领先工作类型分布私人工作 60.8%、私营企业 25.4%、政府工作 13.4%、学生仅 0.5%。自由 / 私人从业者是中风最高发群体合计私人 私营企业占中风患者 86.2%学生群体中风占比极低0.5%和青少年年龄小、基础慢病少直接相关自由职业作息不规律、缺乏体检、饮食作息管控差是该类人群中风高发的主要诱因。七、综合总结与健康建议高危重点防控人群有高血压病史、有吸烟史现烟 / 既往吸烟、从事私人 / 私营工作、中老年已婚女性是中风高危重点筛查对象健康干预方向严控高血压慢病管理、普及控烟戒烟科普针对自由职业人群推广定期体检、规律作息地域分层防控城市侧重不良生活习惯干预农村加强高血压等慢病筛查缩小城乡中风发病差距。4.3 分析血糖和体重指数plt.scatter(data[平均血糖],data[体重指数],s0.8)plt.xlabel(平均血糖)plt.ylabel(体重指数)plt.title(平均血糖与体重指数关系)plt.show()origin_urloutput_27_0.pngpos_idimg-7gHvKQ9s-1780415498142)结论平均血糖与体重指数BMI散点图分析结论一、相关性整体趋势从散点分布可以看出平均血糖与体重指数整体呈现正相关趋势随着平均血糖横轴数值不断升高体重指数纵轴整体同步抬升低血糖区间数据点大量集中在 BMI 2035 的偏低区间整体体重指数普遍偏小高血糖区间散点逐步向 BMI 高值区35 以上、最高接近 56聚集血糖越高出现高 BMI 肥胖人群的概率明显变大。二、细节分布特征离散异常值图表右上角存在个别极端离群点代表少数患者同时存在血糖严重偏高 重度肥胖BMI 超 50的情况属于中风高危人群聚集规律血糖偏低时BMI 分布紧凑、集中在正常 / 偏胖范围血糖升高后BMI 数据离散程度变大肥胖个体数量显著增多无严格线性绑定二者不是绝对线性关系同一血糖值下BMI 跨度很大说明体重指数只是影响血糖的重要因素血糖同时还受饮食、遗传、慢病等其他因素影响。三、医学与业务结论肥胖高 BMI和高血糖高度伴生肥胖是血糖升高的重要诱因超重 / 肥胖人群更易出现血糖代谢异常而高血糖、肥胖均是诱发中风的关键危险因素健康干预建议控制体重、减脂减重可以有效改善血糖水平对预防中风有重要作用针对 BMI 超标人群需要重点筛查血糖指标提前防控糖尿病、中风并发症。四、结合前文中风数据联动总结结合上一节分类变量分析高 BMI 高血糖叠加高血压、吸烟等因素时中风发病风险会进一步叠加升高这类复合型慢病人群是中风筛查的核心高危群体。中风体检数据分析综合总结报告一、项目概况本项目依托两份体检数据集healthcare-dataset-age_abs.xlsx年龄、平均血糖、healthcare-dataset-stroke.xlsx性别、基础病史、生活、职业、体重指数、中风标签原始样本共1767 条其中确诊中风病例 209 例、非中风 1463 例。经过缺失值清洗、多表合并、特征离散化处理后围绕人口属性、基础慢病、生活习惯、生理指标四大维度开展可视化分析挖掘各类因素与中风发病的内在关联。二、数据预处理说明缺失处理stroke数据仅体重指数存在 5 条缺失值采用删除缺失样本方式完成清洗年龄 - 血糖数据集无缺失、全为数值型数据。数据合并以「编号」为关联键对内连接两份数据源筛选出中风 “是” 的 209 份样本作为最终分析数据集。特征分段将连续年龄离散划分为青少年 (0~20)、青年 (20~40)、中年 (40~60)、壮年 (60~80)、老年 (80~100) 五个年龄段便于分组统计。三、各维度数据分析结果一年龄维度中老年是中风高发群体从年龄占比饼图可得壮年60~80 岁中风占比58.9%为中风最高发年龄段中年40~60 岁占比 27.3%、老年80 岁以上占 11.0%青年 青少年合计仅 2.8%中风风险随年龄增长显著提升。二分类特征人口 / 慢病 / 生活 / 地域 / 职业分析性别中风患者中女性占57.4%、男性 42.6%样本中女性中风患病占比显著高于男性。高血压病史中风人群里患高血压 28.7%、无高血压 71.3%结合全人群基数来看高血压人群个体中风发病概率远高于普通人群高血压是中风关键高危慢病。吸烟史从不吸烟 40.2%、以前吸烟 27.3%、当前抽烟 18.7%、信息未知 13.9%有吸烟含既往吸烟经历人群合计占中风患者 46%烟草暴露会大幅提升中风患病风险既往吸烟也存在长期健康隐患。婚姻状况已婚患者占89.0%未婚仅 11.0%已婚群体年龄普遍偏大、慢性病累积时间更长是高发核心原因。居住类型城市居住 52.2%、农村 47.8%城市居民中风占比小幅偏高推测城市高油高盐饮食、生活压力、久坐等不良生活方式为诱因。工作类型私人从业者 60.8%、私营企业 25.4%、公职 13.4%、学生仅 0.5%私人 私营从业者合计 86.2%自由职业作息不规律、体检缺失是中风高发诱因青少年学生中风发病概率极低。三生理指标平均血糖与体重指数 (BMI) 相关性从散点图分布规律整体正相关平均血糖越高体重指数整体趋向增大低血糖样本集中在 BMI20~35 正常区间高血糖样本大量聚集在 BMI35 肥胖区间离散特征存在少量极端离群点即超高血糖 重度肥胖BMI50该类个体中风风险叠加翻倍同血糖数值下 BMI 跨度较大说明血糖还受遗传、饮食等多因素影响医学关联肥胖与高血糖高度伴生二者协同作用显著提升中风患病概率。四、综合高危人群画像✅ ** 中风重点筛查高危人群**60 岁以上中老年、女性、高血压患者、有吸烟史现烟 / 既往烟、私人 / 私营从业者、高血糖合并肥胖人群。五、健康防控建议慢病管控常态化监测高血压、血糖指标超重 / 肥胖人群科学减脂减重改善糖脂代谢从生理指标源头降低中风风险控烟科普面向中老年群体普及戒烟宣教即使既往吸烟人群也需定期体检筛查脑血管健康职业健康管理针对自由职业、私营就业人群推广年度体检引导规律作息、均衡饮食城乡分层防控城市重点干预高油高盐饮食、久坐熬夜等不良习惯农村加强中老年高血压、血糖免费筛查缩小城乡中风发病差距。六、项目总结本次数据分析验证高龄、女性、高血压、烟草暴露、肥胖高血糖、不规律职业生活是诱发中风的六大核心危险因素数据分析结论可用于社区健康科普、脑卒中筛查工作的数据支撑精准定向高危人群进行提前干预降低中风发病率。