大家好我是经管社科数据小助手作为经济学专业毕业的我深切了解经管 类 学生和学者在数据搜集上耗费的巨大精力。基于我们多年对经管社科领域的辅导经验我们帮助大家总结了在实证分析部分选取数据的经验希望对大家有一定的帮助。在确定选题后我们就要着手进行数据样本的确定和搜集了。我们选择数据的原则是根据所研究的问题以及数据可得性确定最合适的样本。经管研究的数据大致分五个层次1、 企业 层上市公司、工业企业、微观经营主体等变量最丰富实证最成熟2、国家/省级层各国或省份层面 宏 观政策或者国际经济研究常用数据规范但颗粒度粗3、地级市层城市层面中观研究的主力兼顾颗粒度和数据可得性4、县域层区县层面数据质量参差不齐但颗粒度最细5、微观调查层CFPS、CHFS等家庭个人调查数据、以及其他以个体行为为对象的微观数据适合研究微观行为机制每个层次的数据来源、常见变量、处理方式都不一样。本文从 省级层面 进行简要介绍其他层面的介绍见下方目录希望对大家有所帮助。目录1、【企业篇】上市公司数据怎么选https://blog.csdn.net/xiaozhuzhu1995/article/details/160482153?spm1001.2014.3001.55022、【省级篇】 省级面板数据 避坑指南https://blog.csdn.net/xiaozhuzhu1995/article/details/160482288?spm1001.2014.3001.55023、【地级市篇】城市数据的选择与处理即本文。4、【县域篇】 县域数据 的使用注意事项https://blog.csdn.net/xiaozhuzhu1995/article/details/160482427?spm1001.2014.3001.55025、【微观篇】CFPS、CHFS等调查数据使用指南https://blog.csdn.net/xiaozhuzhu1995/article/details/160482491?spm1001.2014.3001.5502【地级市篇】城市数据的选择与处理地级市是实证研究里最常用的中观层面数据做城市经济、环境治理、基础设施研究都离不开它。什么时候用地级市数据题目里出现城市地级市市域或者研究某项政策如高铁开通、自贸区、数字经济试点对城市发展的影响基本就是地级市数据的主场。常用地级市数据数据类型用途统计年鉴面板数据GDP、人口、财政、基础设施等核心指标高铁开通数据基础设施冲击、政策评估DID夜间灯光数据DMSP/OLS或VIIRS数据衡量区域经济活动专利面板数据城市创新能力数字经济指数城市数字化发展水平政府工作报告文本地方政策取向、词频分析人口迁徙数据劳动力流动、城市吸引力气象数据风速、降水、温度、PM2.5房地产指标房价、土地出让环境规制数据污染排放、环保投入金融科技发展指数百度搜索指数等公众环境关注度百度指数、资讯指数城市韧性数据应对外部冲击的能力常见坑1. 数据缺失是常态东部沿海城市数据丰富西部欠发达地区可能缺失严重。做面板数据前建议先做一个缺失值分析如果某个变量缺失超过30%要么换变量要么用插值法补数据但要在文中说明。2. 行政边界变化有些地级市的行政区划发生过调整比如合并、分立等这会导致前后数据不可比。研究时间跨度长的要特别留意。3. 城市口径要统一城市有几种口径地级市、地级市辖区、城区...不同年鉴的口径可能不一致。建议使用统计年鉴的官方口径并在文中说明。4. 文本数据处理门槛高政府工作报告文本可以做政策词频分析但需要用Python的jieba等工具分词处理对NLP有一定要求。新手建议慎入。5. 夜间灯光数据要做校正DMSP/OLS夜间灯光数据存在饱和效应不同年份、不同卫星数据需要交叉校正。建议参考已有文献的处理方法。地级市数据最大的优势是颗粒度适中、政策评估好用。很多政策试点都是城市层面比如自贸区、高铁开通、数字经济试点等用地级市数据做DID分析非常合适。