社会网络数据获取
本文最后更新于:2021年4月2日 下午
社会网络数据获取
搜集网络数据的步骤:社会网络类别、人口总体、网络边界、信息收集、网络结构推断。
社会网络的类型:一模和二模网络
一模网络(one-mode network):只包含一种类别的节点,如书籍购买网络中的书籍;
二模网络(two-mode network):从属网络或二分网络;包含两种类别的节点:如重构书籍网络中的用户和书籍两类节点。
本质上一模网络是二模网络的整合(aggregation)。
如果追求精确的信息,可以从二模网络入手,从个体层面更详细的信息来看。
网络边界
小世界理论:在任何两位素不相识的人之间,通过一定的联系方式,总能够产生必然联系或关系。
从小世界理论到网络数据搜集:困难在于,在搜集网络数据时,缺乏网络边界会让不同受访者回答的网络数据不具有可比性。
所以网络数据搜集需要明确网络边界
- 研究的人口总体:节点
- 研究的网络:连接
人口总体(population)
回顾定义:研究所感兴趣的所有个体的集合。
基于事实的界定:行动者感知的网络边界,例如同学、同事等
- 是一种方法,但并不是一种概率均等的方式。其关键在于感知,是一个主观的判断,而不是客观的层面。例如:研究犯罪团体的网络结构。
基于理论的界定:基于研究者兴趣的定义,例如一所学校的学生、公司的员工等 - 从一般角度来讲,更关心理论层面。例如:美国的addhealth
抽样(Sampling)
对现实网络边界内所有个体进行调查往往并不可行。——所以需要抽样——对于总体人口按照概率或结构抽取部分的样本。
例子:15个人的朋友网络
- 自我中心抽样
- 滚雪球抽样,但会存在遗漏个体/子集(例如:少数群体)
如何解决遗漏问题?
希望得到完整的网络结构:
- 以定义网络边界的组织或群体作为抽样单位
- 对群体内所有成员进行调查
希望推断某一个网络特征,如社会个体平均朋友的数量:
- 借助统计推断(statistical inference)得出无偏估计(unbiased estimator)
- 受访者驱动抽样(respondent driven method);网络迭代法(network scale-up method)
网络边界并不容易界定
对于外生形成的群体,网络边界往往是清晰的,例如学生、员工。
对于自然形成的群体,网络边界难以明晰,例如自然村落、隐藏人口群体(如social stigma)。
(网络边界不明晰的话,需要研究者通过努力)列出所有边界内的成员名单(roster)。
数据搜集方法
案例
案例一:Addhealth网络数据搜集
人口总体和网络边界的界定
- 以学校为单位,在Quality Education Database(QED)分层抽样,按照学校规模、区域、种族构成等抽取80所中学.
- 获取所有学校的学生名单(roster)
- 从80所高中选择16所,对在校所有学生的朋友网络和互动网络进行调查。网络边界是学生所在的每一所学校的内部,这样不同学校之间就具有可比较性了。
调查问题:按顺序列出5个最好的朋友。
通过和所有学生名单匹配得到在校朋友网络。
关键点:学生作为抽样单位;网络边界……
案例二:Microfinance网络数据搜集
“社会网络和小额信贷”项目由MIT和Stanford的经济学家设计执行,在印度加尔各答南部75个村庄搜集相关数据。
调查问题:
- 列出村庄中与你一起工作的人。
- 如果突然需要借50块钱,你会找谁?(从村庄里选择)
网络结构数据的构成
网络数据
- 节点:如一个班级的学生
- 连接:如班级内的朋友关系
- 权重:如对朋友的排序
特征数据
- 节点的特征:如学生的性别、年龄、年级等
网络结构搜集的两个要素
名册(roster):全部个体的名单
提名(name generator):朋友网络、交谈网络、帮助网络等
要能相互对应。
网络结构数据搜集的几种方式
- 名册勾选法:给出所有人名,让受访者勾选
- 优势:更准确;网络边界明晰
- 劣势:在群体或组织达到一定规模时,名单会非常长
- 提名法:受访者主动填写名字
- 优势:不需要知道所有人名单;适用于大规模组织或群体中
- 劣势:容易漏报;网络边界不明晰
- 认知社会结构(cognitive social structure):询问每个受访者其所在群体所有成员的连接。例如,“xx在班级里的朋友有谁?”
- 优势:获得更复杂的感知网络数据;能够得到更准确的网络估计
- 劣势:难以标准化进行分析;认知偏误较大
面临的问题
- 准确度(accuracy):受访者准确回忆调查社会互动、社会关系等信息。比较难以解决,主要取决于受访者。
- 有效性(validity):网络调查的问题能够有效测量研究者计划测量的信息
- 可靠性(reliability):重复测量网络信息能够保持一致。有效性和可靠性可以通过问卷设计来调整。
- 测量偏误(measurement error):“真实”的网络测量是由调查测量值和随机偏误构成的。如每个人的朋友数量并不等于5,如果调查中要求受访者列出5个朋友,会造成估计偏误(导致低估网络信息的复杂程度)。奇异值、负二项分布、泊松分布等情况。通过统计推断的方式可以降低偏误的影响。
调查数据:线下vs.线上
成本问题
调查周期问题
调查质量问题
明确所需的网络信息
研究的目的:理解完整网络结构or测量网络特征or动态网络
网络结构推断
网络特征数据搜集的其他方式
总计关系数据(aggregate relational data):通过自我中心的网络规模数据得到总计关系数据。
调查问题:你认识多少警察?你认识多少叫Kevin?
- 社会资本理论,关键在一个人在社会中的位置,位置越好,所占有的社会资本也就越多。——其中关键就在于你认识多少人。
- 统计推断:n/N=nd/Nd,通过问许多类似上面的问题(姓名、职业等),进行加权,最终可以得到一个无偏的估计。
对完整网络数据的推断
清理网络结构数据描述完整结构,网络可视化的重要性。
网络迭代法
例子:使用网络规模调查估算死亡人口
- 其相对于调查社区死亡率进行推算的优势在于,成本更低。对样本量的要求?
- 研究的假设:死亡人口和存活人口网络规模一致;不存在死亡人口报告偏误
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!