微观数据库的使用及其意义
做中国的实证研究,一个重要的数据来源便是国内正在建设的几个微观数据库,包括但不限于:北大的CFPS、CHARLS,西财的CHFS、北卡的CHNS、北师大的CHIP、人大的CGSS等。目前国内的许多高校都在兴建类似于“社会科学调查中心”这样的机构,并希望依靠该平台建立自己的微观数据库,由此可见当下国内学界对微观数据的重视。大型微观数据库的意义在于:可研究的内容更广(变量多),更全面(涉及家庭方方面面),可做长期跟踪调查(更可靠的面板数据研究),且更能惠及学界(公开数据),等等。
而对于需要开展研究的初学者来说,微观数据库最为重要的地方或许在于:一、数据质量高,这为他们的研究提供了可靠的基础;二、签署协议后可免费使用,这种学界的正外部性让初学者感到轻松许多。
之前看过一个2011年左右的公开课,如果没听错的话,我记得视频里Raj Chetty说现在已经不兴使用Survey Data(调查数据),而是兴使用Administration Data(行政机构提供的数据?)。这里的Survey Data,指的就是上文提到的微观数据;而Administration Data,大概指的如税收数据这种由行政部门提供的数据。这里换个说法大家或许就不会感到太陌生了,Thomas Piketty 及其合作者Emmanuel Saez 利用美国政府提供的税收数据反推出美国的居民收入,由此研究收入不平等(Income Inequality)的议题。而根据所做的研究,Piketty 后来出版了大家都很熟悉的 Capital in the Twenty-First Century一书。这就是一个使用Administration Data进行研究的故事。
Chetty 这么说或许跟在美国学界的现状有关:在美国,申请官方的数据更为简单,且有法律支持;而美国的微观数据库,如NPL (The National Longitudinal Surveys),已经起步快40年了,因此建立在此之上的研究应该有很多。而国内的微观数据才刚刚起步,虽然也产生了许多研究,但还有许多社会状况有待于学界、民众和政府部门去了解。
另外值得一提的是,中国的国家统计局(NBS)提供的每10年一次的人口普查数据,以及两次人口普查之间的1%抽样数据。最近一次的人口普查数据为六普数据(2010年);而1%抽样数据目前执行过三次,分别在1978、1995和2005年。基于这些普查数据进行的研究也不少,如Qian Nancy(2008)著名那篇著名的Missing Women,当然,这篇文章还结合了地理数据。
自己构建数据库
除了使用现成的数据之外,就是自己构建数据库了。相较于上文提到的微观数据库,这种数据库显得较为小型,往往是因为一篇研究的需要而构建的数据库。数据来源往往为以下几个途径:调查问卷、历史文本、网络爬虫等。最后还会谈下一类较为特殊的数据,如地理、气象、环境数据,这类数据来自自然科学领域,往往作为配角和其他数据结合起来,帮助学者进行研究。