本文最后更新于：2021年4月2日下午

社会网络数据获取

搜集网络数据的步骤：社会网络类别、人口总体、网络边界、信息收集、网络结构推断。

社会网络的类型：一模和二模网络

一模网络（one-mode network）：只包含一种类别的节点，如书籍购买网络中的书籍；
二模网络（two-mode network）：从属网络或二分网络；包含两种类别的节点：如重构书籍网络中的用户和书籍两类节点。

本质上一模网络是二模网络的整合（aggregation）。

如果追求精确的信息，可以从二模网络入手，从个体层面更详细的信息来看。

网络边界

小世界理论：在任何两位素不相识的人之间，通过一定的联系方式，总能够产生必然联系或关系。

从小世界理论到网络数据搜集：困难在于，在搜集网络数据时，缺乏网络边界会让不同受访者回答的网络数据不具有可比性。

所以网络数据搜集需要明确网络边界

研究的人口总体：节点
研究的网络：连接

人口总体（population）

回顾定义：研究所感兴趣的所有个体的集合。
基于事实的界定：行动者感知的网络边界，例如同学、同事等

是一种方法，但并不是一种概率均等的方式。其关键在于感知，是一个主观的判断，而不是客观的层面。例如：研究犯罪团体的网络结构。
基于理论的界定：基于研究者兴趣的定义，例如一所学校的学生、公司的员工等
从一般角度来讲，更关心理论层面。例如：美国的addhealth

抽样（Sampling）

对现实网络边界内所有个体进行调查往往并不可行。——所以需要抽样——对于总体人口按照概率或结构抽取部分的样本。

例子：15个人的朋友网络

自我中心抽样
滚雪球抽样，但会存在遗漏个体/子集（例如：少数群体）

如何解决遗漏问题？

希望得到完整的网络结构：

以定义网络边界的组织或群体作为抽样单位
对群体内所有成员进行调查

希望推断某一个网络特征，如社会个体平均朋友的数量：

借助统计推断（statistical inference）得出无偏估计(unbiased estimator)
受访者驱动抽样(respondent driven method)；网络迭代法(network scale-up method)

网络边界并不容易界定

对于外生形成的群体，网络边界往往是清晰的，例如学生、员工。
对于自然形成的群体，网络边界难以明晰，例如自然村落、隐藏人口群体（如social stigma）。

（网络边界不明晰的话，需要研究者通过努力）列出所有边界内的成员名单（roster）。

数据搜集方法

案例

案例一：Addhealth网络数据搜集

人口总体和网络边界的界定

以学校为单位，在Quality Education Database(QED)分层抽样，按照学校规模、区域、种族构成等抽取80所中学.
获取所有学校的学生名单（roster）
从80所高中选择16所，对在校所有学生的朋友网络和互动网络进行调查。网络边界是学生所在的每一所学校的内部，这样不同学校之间就具有可比较性了。

调查问题：按顺序列出5个最好的朋友。
通过和所有学生名单匹配得到在校朋友网络。
关键点：学生作为抽样单位；网络边界……

案例二：Microfinance网络数据搜集

“社会网络和小额信贷”项目由MIT和Stanford的经济学家设计执行，在印度加尔各答南部75个村庄搜集相关数据。

调查问题：

列出村庄中与你一起工作的人。
如果突然需要借50块钱，你会找谁？（从村庄里选择）

网络结构数据的构成

网络数据

节点：如一个班级的学生
连接：如班级内的朋友关系
权重：如对朋友的排序

特征数据

节点的特征：如学生的性别、年龄、年级等

网络结构搜集的两个要素

名册（roster）：全部个体的名单
提名（name generator）：朋友网络、交谈网络、帮助网络等
要能相互对应。

网络结构数据搜集的几种方式

名册勾选法：给出所有人名，让受访者勾选
- 优势：更准确；网络边界明晰
- 劣势：在群体或组织达到一定规模时，名单会非常长
提名法：受访者主动填写名字
- 优势：不需要知道所有人名单；适用于大规模组织或群体中
- 劣势：容易漏报；网络边界不明晰
认知社会结构（cognitive social structure）：询问每个受访者其所在群体所有成员的连接。例如，“xx在班级里的朋友有谁？”
- 优势：获得更复杂的感知网络数据；能够得到更准确的网络估计
- 劣势：难以标准化进行分析；认知偏误较大

面临的问题

准确度（accuracy）：受访者准确回忆调查社会互动、社会关系等信息。比较难以解决，主要取决于受访者。
有效性（validity）：网络调查的问题能够有效测量研究者计划测量的信息
可靠性（reliability）：重复测量网络信息能够保持一致。有效性和可靠性可以通过问卷设计来调整。
测量偏误（measurement error）：“真实”的网络测量是由调查测量值和随机偏误构成的。如每个人的朋友数量并不等于5，如果调查中要求受访者列出5个朋友，会造成估计偏误（导致低估网络信息的复杂程度）。奇异值、负二项分布、泊松分布等情况。通过统计推断的方式可以降低偏误的影响。

调查数据：线下vs.线上

成本问题
调查周期问题
调查质量问题

明确所需的网络信息

研究的目的：理解完整网络结构or测量网络特征or动态网络

网络结构推断

网络特征数据搜集的其他方式

总计关系数据（aggregate relational data）：通过自我中心的网络规模数据得到总计关系数据。

Q：你认识多少人？
案例：GSS（综合社会调查）网络数据搜集
抽样设计
人口总体：18岁以上美国居民
分层、多阶段随机抽样
全国代表样本
1500样本

调查问题：你认识多少警察？你认识多少叫Kevin？

社会资本理论，关键在一个人在社会中的位置，位置越好，所占有的社会资本也就越多。——其中关键就在于你认识多少人。
统计推断：n/N=nd/Nd，通过问许多类似上面的问题（姓名、职业等），进行加权，最终可以得到一个无偏的估计。

对完整网络数据的推断

清理网络结构数据描述完整结构，网络可视化的重要性。

网络迭代法

例子：使用网络规模调查估算死亡人口

其相对于调查社区死亡率进行推算的优势在于，成本更低。对样本量的要求？
研究的假设：死亡人口和存活人口网络规模一致；不存在死亡人口报告偏误

SNA 社会网络分析

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

短期支教的组织过程————以「爱心万里行」为例上一篇

随笔节选：2019-2020 下一篇

社会网络数据获取

社会网络数据获取

社会网络的类型：一模和二模网络

网络边界

人口总体（population）

抽样（Sampling）

如何解决遗漏问题？

网络边界并不容易界定

数据搜集方法

案例

案例一：Addhealth网络数据搜集

案例二：Microfinance网络数据搜集

网络结构数据的构成

网络结构搜集的两个要素

网络结构数据搜集的几种方式

面临的问题

调查数据：线下vs.线上

明确所需的网络信息

网络特征数据搜集的其他方式

案例：GSS（综合社会调查）网络数据搜集

对完整网络数据的推断