如何巧用微观数据做实证研究

微观数据库的使用及其意义
做中国的实证研究，一个重要的数据来源便是国内正在建设的几个微观数据库，包括但不限于：北大的CFPS、CHARLS，西财的CHFS、北卡的CHNS、北师大的CHIP、人大的CGSS等。目前国内的许多高校都在兴建类似于“社会科学调查中心”这样的机构，并希望依靠该平台建立自己的微观数据库，由此可见当下国内学界对微观数据的重视。大型微观数据库的意义在于：可研究的内容更广（变量多），更全面（涉及家庭方方面面），可做长期跟踪调查（更可靠的面板数据研究），且更能惠及学界（公开数据），等等。
而对于需要开展研究的初学者来说，微观数据库最为重要的地方或许在于：一、数据质量高，这为他们的研究提供了可靠的基础；二、签署协议后可免费使用，这种学界的正外部性让初学者感到轻松许多。
之前看过一个2011年左右的公开课，如果没听错的话，我记得视频里Raj Chetty说现在已经不兴使用Survey Data（调查数据），而是兴使用Administration Data（行政机构提供的数据？）。这里的Survey Data，指的就是上文提到的微观数据；而Administration Data，大概指的如税收数据这种由行政部门提供的数据。这里换个说法大家或许就不会感到太陌生了，Thomas Piketty 及其合作者Emmanuel Saez 利用美国政府提供的税收数据反推出美国的居民收入，由此研究收入不平等（Income Inequality）的议题。而根据所做的研究，Piketty 后来出版了大家都很熟悉的 Capital in the Twenty-First Century一书。这就是一个使用Administration Data进行研究的故事。
Chetty 这么说或许跟在美国学界的现状有关：在美国，申请官方的数据更为简单，且有法律支持；而美国的微观数据库，如NPL (The National Longitudinal Surveys)，已经起步快40年了，因此建立在此之上的研究应该有很多。而国内的微观数据才刚刚起步，虽然也产生了许多研究，但还有许多社会状况有待于学界、民众和政府部门去了解。
另外值得一提的是，中国的国家统计局（NBS）提供的每10年一次的人口普查数据，以及两次人口普查之间的1%抽样数据。最近一次的人口普查数据为六普数据（2010年）；而1%抽样数据目前执行过三次，分别在1978、1995和2005年。基于这些普查数据进行的研究也不少，如Qian Nancy（2008）著名那篇著名的Missing Women，当然，这篇文章还结合了地理数据。
自己构建数据库
除了使用现成的数据之外，就是自己构建数据库了。相较于上文提到的微观数据库，这种数据库显得较为小型，往往是因为一篇研究的需要而构建的数据库。数据来源往往为以下几个途径：调查问卷、历史文本、网络爬虫等。最后还会谈下一类较为特殊的数据，如地理、气象、环境数据，这类数据来自自然科学领域，往往作为配角和其他数据结合起来，帮助学者进行研究。

声明：你问我答网所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系fangmu6661024@163.com

如何巧用微观数据做实证研究

最新文章

您好，在百度看到您说泉州华侨大学的心理医生赵冰洁老师很厉害，您有她的联系方式吗？

报考浙大的研究生需要什么条件

西安理工大学机械与精密仪器工程学院考研保护第一志愿么

猜你喜欢