社会网络数据获取

本文最后更新于:2021年4月2日 下午

社会网络数据获取

搜集网络数据的步骤:社会网络类别、人口总体、网络边界、信息收集、网络结构推断。

社会网络的类型:一模和二模网络

一模网络(one-mode network):只包含一种类别的节点,如书籍购买网络中的书籍;
二模网络(two-mode network):从属网络或二分网络;包含两种类别的节点:如重构书籍网络中的用户和书籍两类节点。

本质上一模网络是二模网络的整合(aggregation)。

如果追求精确的信息,可以从二模网络入手,从个体层面更详细的信息来看。

网络边界

小世界理论:在任何两位素不相识的人之间,通过一定的联系方式,总能够产生必然联系或关系。

从小世界理论到网络数据搜集:困难在于,在搜集网络数据时,缺乏网络边界会让不同受访者回答的网络数据不具有可比性

所以网络数据搜集需要明确网络边界

  • 研究的人口总体:节点
  • 研究的网络:连接

人口总体(population)

回顾定义:研究所感兴趣的所有个体的集合。
基于事实的界定:行动者感知的网络边界,例如同学、同事等

  • 是一种方法,但并不是一种概率均等的方式。其关键在于感知,是一个主观的判断,而不是客观的层面。例如:研究犯罪团体的网络结构。
    基于理论的界定:基于研究者兴趣的定义,例如一所学校的学生、公司的员工等
  • 从一般角度来讲,更关心理论层面。例如:美国的addhealth

抽样(Sampling)

对现实网络边界内所有个体进行调查往往并不可行。——所以需要抽样——对于总体人口按照概率或结构抽取部分的样本。

例子:15个人的朋友网络

  • 自我中心抽样
  • 滚雪球抽样,但会存在遗漏个体/子集(例如:少数群体)

如何解决遗漏问题?

希望得到完整的网络结构:

  • 以定义网络边界的组织或群体作为抽样单位
  • 对群体内所有成员进行调查

希望推断某一个网络特征,如社会个体平均朋友的数量:

  • 借助统计推断(statistical inference)得出无偏估计(unbiased estimator)
  • 受访者驱动抽样(respondent driven method);网络迭代法(network scale-up method)

网络边界并不容易界定

对于外生形成的群体,网络边界往往是清晰的,例如学生、员工。
对于自然形成的群体,网络边界难以明晰,例如自然村落、隐藏人口群体(如social stigma)。

(网络边界不明晰的话,需要研究者通过努力)列出所有边界内的成员名单(roster)。

数据搜集方法

案例

案例一:Addhealth网络数据搜集

人口总体和网络边界的界定

  1. 以学校为单位,在Quality Education Database(QED)分层抽样,按照学校规模、区域、种族构成等抽取80所中学.
  2. 获取所有学校的学生名单(roster)
  3. 从80所高中选择16所,对在校所有学生的朋友网络和互动网络进行调查。网络边界是学生所在的每一所学校的内部,这样不同学校之间就具有可比较性了。

调查问题:按顺序列出5个最好的朋友。
通过和所有学生名单匹配得到在校朋友网络。
关键点:学生作为抽样单位;网络边界……

案例二:Microfinance网络数据搜集

“社会网络和小额信贷”项目由MIT和Stanford的经济学家设计执行,在印度加尔各答南部75个村庄搜集相关数据。

调查问题:

  1. 列出村庄中与你一起工作的人。
  2. 如果突然需要借50块钱,你会找谁?(从村庄里选择)

网络结构数据的构成

网络数据

  • 节点:如一个班级的学生
  • 连接:如班级内的朋友关系
  • 权重:如对朋友的排序

特征数据

  • 节点的特征:如学生的性别、年龄、年级等

网络结构搜集的两个要素

名册(roster):全部个体的名单
提名(name generator):朋友网络、交谈网络、帮助网络等
要能相互对应。

网络结构数据搜集的几种方式

  1. 名册勾选法:给出所有人名,让受访者勾选
    • 优势:更准确;网络边界明晰
    • 劣势:在群体或组织达到一定规模时,名单会非常长
  2. 提名法:受访者主动填写名字
    • 优势:不需要知道所有人名单;适用于大规模组织或群体中
    • 劣势:容易漏报;网络边界不明晰
  3. 认知社会结构(cognitive social structure):询问每个受访者其所在群体所有成员的连接。例如,“xx在班级里的朋友有谁?”
    • 优势:获得更复杂的感知网络数据;能够得到更准确的网络估计
    • 劣势:难以标准化进行分析;认知偏误较大

面临的问题

  1. 准确度(accuracy):受访者准确回忆调查社会互动、社会关系等信息。比较难以解决,主要取决于受访者。
  2. 有效性(validity):网络调查的问题能够有效测量研究者计划测量的信息
  3. 可靠性(reliability):重复测量网络信息能够保持一致。有效性和可靠性可以通过问卷设计来调整。
  4. 测量偏误(measurement error):“真实”的网络测量是由调查测量值和随机偏误构成的。如每个人的朋友数量并不等于5,如果调查中要求受访者列出5个朋友,会造成估计偏误(导致低估网络信息的复杂程度)。奇异值、负二项分布、泊松分布等情况。通过统计推断的方式可以降低偏误的影响。

调查数据:线下vs.线上

成本问题
调查周期问题
调查质量问题

明确所需的网络信息

研究的目的:理解完整网络结构or测量网络特征or动态网络

网络结构推断

网络特征数据搜集的其他方式

总计关系数据(aggregate relational data):通过自我中心的网络规模数据得到总计关系数据。

  • Q:你认识多少人?

    案例:GSS(综合社会调查)网络数据搜集

    抽样设计
  • 人口总体:18岁以上美国居民
  • 分层、多阶段随机抽样
  • 全国代表样本
  • 1500样本

调查问题:你认识多少警察?你认识多少叫Kevin?

  • 社会资本理论,关键在一个人在社会中的位置,位置越好,所占有的社会资本也就越多。——其中关键就在于你认识多少人。
  • 统计推断:n/N=nd/Nd,通过问许多类似上面的问题(姓名、职业等),进行加权,最终可以得到一个无偏的估计。

对完整网络数据的推断

清理网络结构数据描述完整结构,网络可视化的重要性。

网络迭代法

例子:使用网络规模调查估算死亡人口

  • 其相对于调查社区死亡率进行推算的优势在于,成本更低。对样本量的要求?
  • 研究的假设:死亡人口和存活人口网络规模一致;不存在死亡人口报告偏误