大家好我是经管社科数据小助手作为经济学专业毕业的我深切了解经管类学生和学者在数据搜集上耗费的巨大精力。基于我们多年对经管社科领域的辅导经验我们帮助大家总结了在实证分析部分选取数据的经验希望对大家有一定的帮助。在确定选题后我们就要着手进行数据样本的确定和搜集了。我们选择数据的原则是根据所研究的问题以及数据可得性确定最合适的样本。经管研究的数据大致分四个层次企业层上市公司、工业企业、微观经营主体等变量最丰富实证最成熟国家/省级层各国或省份层面宏观政策或者国际经济研究常用数据规范但颗粒度粗地级市层城市层面中观研究的主力兼顾颗粒度和数据可得性县域层区县层面数据质量参差不齐但颗粒度最细微观调查层CFPS、CHFS等家庭个人调查数据、以及其他以个体行为为对象的微观数据适合研究微观行为机制每个层次的数据来源、常见变量、处理方式都不一样。本文从企业层面进行简要介绍其他层面的介绍见下方目录希望对大家有所帮助。目录1、【企业篇】上市公司数据怎么选即本文。2、【省级篇】 省级面板数据 避坑指南https://blog.csdn.net/xiaozhuzhu1995/article/details/160482288?spm1001.2014.3001.55013、【地级市篇】城市数据的选择与处理https://blog.csdn.net/xiaozhuzhu1995/article/details/160482376?spm1001.2014.3001.55014、【县域篇】县域数据的使用注意事项https://blog.csdn.net/xiaozhuzhu1995/article/details/160482427?spm1001.2014.3001.55025、【微观篇】CFPS、CHFS等调查数据使用指南https://blog.csdn.net/xiaozhuzhu1995/article/details/160482491?spm1001.2014.3001.5502【企业篇】上市公司数据怎么选做企业研究是实证领域最成熟的赛道数据多、时间长但坑也不少。先想清楚研究什么拿到一个题目先问自己研究主体是企业吗题目里出现上市公司企业公司基本就是企业层面的研究。企业研究最大的优势是数据成熟——变量多财务、公司治理、股票交易都有、时间长最早可以追溯到90年代、质量相对有保障。基础配置不管你做哪个方向财务报表公司治理数据是标配财务报表资产负债表、利润表、现金流量表核心科目股票交易收益率、换手率、波动率公司信息成立时间、行业分类、地区归属这些是所有回归模型的控制变量来源没有的话研究根本跑不起来。按研究方向选数据同样是企业研究不同方向的侧重点完全不一样研究方向重点数据治理问题内部控制指数、董监高特征年龄、学历、任期、政治背景、高管薪酬、断裂带数据财务审计盈余管理指标修正Jones模型、审计费用、财务舞弊样本企业风险股价崩盘风险NCSKEW、DUVOL、经营风险ROA波动、违约风险创新专利专利申请/授权量、绿色专利、数字经济专利吴非/袁淳/张永坤版、专利引用数据ESG可持续华证ESG评级、环保投入、碳排放数据、社会责任报告数字化转型吴非老师团队版偏重AI、云计算、袁淳老师版偏重基础设施、张永坤老师版含战略变革供应链前五大客户/供应商占比、供应商客户工商信息、供应链金融数据投资者行为机构持股比例、分析师关注度、投资者情绪指数几个常见坑1. 控制变量别贪多新手容易把所有变量都往模型里塞其实核心解释变量基本控制变量就够了。变量太多反而干扰主要结论审稿人也会有疑问。2. 数字化转型数据版本要选对吴非版偏重AI、云计算等数字技术关键词袁淳版偏重数字化基础设施张永坤版还包含组织变革等软性指标。根据你的研究侧重点选择不要混用。3. 专利数据来源多不同数据库统计口径可能不一致比如国知局和CSMAR的数据会有差异。建议可以从多个权威来源选择作为稳健性检验。4. 缺失值处理要透明没有完美无缺的数据关键是处理方法要说清楚。常用的稳健性检验替换变量、缩尾处理、改变样本范围都要跟上。做企业研究最大的好处是数据相对规范但最大的坑是同质化严重——大家都用差不多的变量文章容易被拒。如果能用上一些特色数据比如绿色专利、数字化专利、供应链上下游信息、ESG细分指标会加分不少。