当推举链延长到某个程度时,抽样所得到的样本将独立于种子,即样本人群行为或个人特征将完全独立于种子。经过4~5层抽样后,即推举链延长4~5级后,样本人群主要特征指标的构成将趋于稳定,推举链再延长也不会改变这种构成,即达到了“平衡性(equilibrium)”。例如,在对纽约的某次爵士乐手调查中,从一位女性黑人乐手(种子)开始,经过五级推举抽样后,不同人种的构成就趋于稳定,而且随着推举级数的增加,一直至10级其构成比基本稳定不变,提示以种族构成比为指标,即达到平衡性。
(二)RDS 法在实际应用中的注意事项
作为一种较新的方法,RDS 法目前还未得到广泛应用。根据目前在少数几个国家用于HIV调查研究和监测的情况,总结出以下几个环节对RDS 法的实施起作重要作用:
(1)调查准备阶段
在使用RDS 法抽样之前,必须对既往针对调查人群的研究进行回顾,或针对调查人群开展初步调研,初步掌握这一人群的规模、特征、活动区域和场所,寻找接触调查人群的方法及可能成为种子的对象,选择可能的调查地点,并选择用于评价平衡性的可能指标等。
(2)调查阶段
开始调查前应明确界定调查人群,对其年龄范围、性别、行为特征等给出明确的定义。如2004年越南海防一项针对性工作者的调查把性工作者定义为:调查前3个月内生活在海防且在调查前30天内发生过以性换钱的行为,年龄在18岁或18岁以上的女性。2004年,北京市一项针对男男性接触者(MSM)的调查将男男性接触者定义为:调查时生活在北京,年龄在18岁或18岁以上与男性发生过性行为的男性。
(3)种子
种子可以是一个或多个。理论上,从一个种子开始,随着推举链的延长,可以招募到一个有代表性的样本。这在实践上也是可行的,如纽约针对爵士乐手调查和北京市针对MSM的调查均从一个种子开始,并均取得了代表性样本,但现在越来越多的调查倾向于选择多个种子以加快调查的速度。然而,种子数的增加并不必然加快速度。一般认为,种子的数量不宜超过20个。确定种子数量时要考虑调查时限,选择种子时要考虑种子在调查人群中的知名度、社会活动能力、沟通和倡导能力,要考虑调查人群的行为学特征差异、调查人群的社会阶层和地域分布,以及调查想要观察的结果指标等。种子的数量也可以在调查过程中进行调整。当某一种子没有推举任何人或推举链在某一环节停止进行时,可在该类人群中选择另一人作为种子,继续推举其同伴直至达到平衡性;或某一种推举的人群发展速度过快,则需采取行动延缓其招募速度或停止这一种子的推举链的进一步发展。
(4)样本量
鉴于RDS 法是一种近似概率抽样,故用于其他概率抽样的样本量估计方法也适用于RDS 法调查。在估计样本量时,可以借鉴其他针对同类人群的研究结果,因为RDS 法不是单纯随机抽样,故应考虑设计效率,一般将其定为1.5~2。目前用RDS法对HIV现患率调查中,在样本量达到300~500时即达到平衡性,故从实际操作的角度可以考虑样本量在300~500之间,但不同流行区域之间应有所不同。
(5)联系卡
联系卡是介绍调查本身和开展相关宣传的载体。在卡片上应印有调查项目的名称,并介绍开展调查的地点和时间区间。最好以图例说明到达调查地点的交通方式,并印出电话号码供联系预约。每张卡正面都应说明其有效期,即起止日期;在卡的背面说明,凭此卡可以参加调查并提供生物样本,在什么情况下卡失效等。种子联系卡的颜色应与其他被招募对象的不同。如果在一个地区同时开展针对不同人群的调查,其联系卡颜色也应不同。
联系卡是明确招募人和被招募人间关系的重要枢杻,其编码是识别相互之间关系的重要信息。一般采用系统编码,例如种子编码为A,其所发的三张联系卡分别为A1、A2和A3;A1所发的三张卡分别编为A11、A12和A13;A3所发三张卡分别为A31、A32和A33以此类推。
联系卡是招募人和被招募人领取物质奖励或现金的凭证,只有凭卡才能参加调查并领取物质奖励或现金。要防止联系卡被出售或调查对象重复利用多领取物质奖励或现金事件的发生。在每个持卡人到调查地点时,首先应确认来者身份、是否符合调查对象的界定标准、被谁推举进入调查等。对收集姓名等个人信息的调查,可用这些信息进行识别。如果是匿名调查,则应记录每个调查对象的个人特征,如是否戴眼镜、耳环,是否纹身等,也可测量其身高、腕围、上臂长以识别以获取金钱为目的的重复调查者。
(6)平衡性
是否达到平衡性,是评价调查样本是否具有代表性的关键指标。通常情况下,选用调查对象的特征变量,如性别、年龄、种族等的构成,作为基本评价指标;调查主要关注变量作为扩展指标,如MSM调查中的HIV和梅毒检出率、最近一次性行为的安全套使用率等。平衡性评价是在RDS 法实施过程中进行的,要不断观察上述变量的变化,当这些变量达到一定稳定数值并随着推举链的延长不再发生变化时,就可以停止调查。停止调查前,应停止发放联系卡。
(7)资料收集和分析
RDS 法调查要收集的基本信息包括被调查对象所认识同伴的数量、与发给其联系卡的人的关系、来参加调查的主要原因等;当发卡人来领取物质奖励或现金时,应收集联系卡发放对象和拒绝联系卡对象的一般状况,如年龄、性别、种族、文化教育、收入或拒绝原因等。其他信息的收集宜采用国际或国内同类调查认可的标准化调查表。
RDS 法的调查资料需用RDSAT 软件(同伴推动抽样分析工具)分析,该软件可以从http ://www .respondentdrivensampling.org/下载,目前仅有英文版。分析时需要的重要指标有样本量、联系卡的固定数额、样本中每个人联系卡的编号以及由其招募的同伴的联系卡编号。RDSAT 分析的结果除样本平衡性、调查对象的同质性(Homophily)外,还有由样本调查结果对总体指标的点估计、区间估计及显着性检验等。其推举链关系图可以用Pajek 软件绘制,如图33所示:左侧13个竖排的红点为种子;红点为HIV阴性,蓝点为HIV阳性。
(三)RDS 法的优缺点及应用前景
RDS 法具有以下优点:由调查对象招募其同伴,可能调查到调查人群中那些相对隐匿的对象;可保护调查人群的隐私;调查人员可不必深入到调查人群活动场所;前期调查或调查对象分布图工作量较小;现场操作相对容易;除需要调查的专业问题外,仅需要少量附加问题;有用于数据分析的专门的软件;后勤保障相对简单;操作费用相对较低。
RDS 法的不足之处包括:调查人群之间必须存在已有的社会网络;联系卡发出后调查对象参加调查的时间难以控制;存在选择性非应答偏倚且很难控制;必须发给物质奖励或现金;需要对招募者与被招募者间的关系进行卡片管理;调查必须对调查对象的身份及重复参加调查的人员给以核实、剔除;目前调查资料的分析仅能用专用软件进行等。
尽管根据理论,RDS 法是一种概率抽样,但由于每个人认识的同伴在不同推举人间可能有重复,故RDS 法在实践中只是一种近似概率抽样。
任何一种新的抽样方法都需要不断的实践来完善。2004-2006年北京市疾病控制中心、2006年广东省疾病预防控制中心、2006-2007年山东省济南市疾病预防控制中心等单位对该方法用于MSM人群的调查进行了有益的探索,发现很多操作和后续分析方面的问题,也积累了许多经验,为该方法在我国的进一步运用奠定了基础。
如前所述,在MSM人群开展流行病学调查需要“圈内人士”即同伴的协助,没有同伴的协助,就无法进行流行病学调查和干预工作。近年来,随着社会对MSM人群认识的提高和对MSM行为的理解,MSM志愿者工作小组在各地得到了快速发展。据一项由中国疾病预防控制中心组织的调查,至2006年底,除青海和西藏外,中国大陆共有117个MSM志愿者工作小组,约有4000名核心志愿工作者。同时,MSM人群也利用互联网建立了相互之间的交流平台,至2006年底除青海和西藏外,中国大陆共有49个同志网站、论坛或QQ群。有些网站的影响面还很广,如创办于1998年的广同网目前拥有近20万注册用户,形成了以广东为主、辐射全国的志愿者网络。这些都是开展MSM人群流行病学调查时需要积极发挥作用的有用资源。
第二节MSM人群规模估计
通过上节所述流行病学调查,可以基本掌握MSM的HIV及主要性传播疾病(STD)的感染状况,以及不同人群的艾滋病高危行为的分布状况,也可评价不同项目干预效果,但仅仅依靠HIV感染及高危行为分布的信息,并不能为MSM人群制定艾滋病防治计划提供足够的依据,特别是不能评估防治项目的覆盖面。因此,开展MSM人群规模估计,对艾滋病防治政策及计划的制定、卫生资源的分配、感染者人数的估计、干预项目的计划制定与督导、评估等,具有重要的意义。
一、人群规模估计的常用方法
人群规模估计的方法可大致分为直接法和间接法。直接法通过调查直接获得各类人群的规模或通过流行病学抽样调查对人群规模进行统计学推断,主要包括普查法、枚举法及人群抽样调查方法等;间接法包括乘数法、除数法、提名法及捕获-标记-再捕获(CMR)等方法。每种估计方法都有其长处和局限性,也并非每种方法都适用于MSM人群基础数的估计。
二、MSM人群规模估计的常用方法
(一)乘数法(Multiplier Method)
1.原理
乘数法是人群计数的一种间接的方法。“乘数法”这个名称在既往文献资料中并不多见,可能是因为在计算时需要乘以一个乘数故而得名。其计算公式为:在某规定的时期内,目标人群中接触(包括就诊、接受咨询服务、被捕、登录网站等)相应机构(性病门诊、妇教所、戒毒所、同性恋网站等)的全部记录数,乘以同时期该目标人群(总体)中接触过这些机构者的比例的倒数(即乘数),即N = r/p,p = c/n式中,N 为目标人群的估计数;r 为目标人群接触指定机构的全部记录数;p 为同时期该人群中自称接触这些机构者的比例;c 为调查样本中自称在同时期接触过这些机构的人数;n 为获得乘数的调查样本数。
2.应用
乘数法通常依赖两种不同来源的数据,并且这两种来源的数据具有某种程度上的重叠。第一种数据常来源于所估计的目标人群接触的机构或服务单位,第二种数据则来源于所估计的目标人群本身,所接触的机构或服务单位可包括就诊的医疗单位、咨询服务机构、妇教所、戒毒所、看守所、指定的网站等,这意味着运用乘数法要获得两个指标:(1)指定机构在固定时间内所接触的目标人群数;(2)目标人群中在相应时间内接触该指定机构的人数所占的比例。获得这两个指标可采取不同的方式,但都需首先考虑现有的监测资料或资源是否能获得。如无法获得乘数,则需要配合开展专题流行病学调查。
3.优缺点及应用注意事项
乘数法的原理相对简单,适用于多种难以接近的人群,可用于区(县)范围的人群估计,也可用于大范围的估计。乘数法可利用现有的资料,现场收集资料的方法简单、易行,计算的结果较为精确,估计效率较高。
在利用乘数法时应满足以下条件:(1)目标人群的定义必须明确,目标人群能够在所接触的机构或单位被准确识别出;(2)时间参考期应当明确,两种来源的数据(机构所覆盖的目标人群数与调查样本)应当在同一时间范围内;(3)机构的服务范围或接触范围应当明确,且与目标人群的调查样本所覆盖的范围一致;(4)利用现有以人群为基础的两个独立的调查样本资料时,两样本间在某种特征上要有交叉,且已了解其中一组人群规模的大小。
4.应用举例:某市2004-2005年MSM人群规模估计。
(1)人群定义:在该地连续居住3个月以上,且既往曾发生过男男性行为的男性,而不论其性取向。
(2)人群分类:共分两类,一是经常访问MSM活动场所,指每月到任何一类MSM活动场所1次以上,即“场所内”MSM;二是不经常访问MSM活动场所,从不到任何一类MSM活动场所,或者每月去各类MSM场所1次或更少者,即“场所外”MSM。
(3)估计方法:应用乘数法,包括三个方面:
1)网络调查。首先获得某MSM网站2004年8-10月访问该网站的人次数(P)。再在网站发布问卷调查,内容包括:访问该网站平均每月登陆次数,性别,是否发生过男男性行为,是否在该地区连续居住3个月以上,到各类场所活动的频率,户籍是否在该地区等。网站问卷调查设置了特定程序,同一IP 地址的计算机用户只能投票一次。调查回收有效问卷3411份。