第一节流行病学调查
针对男男性接触者(MSM)开展流行病学调查,是获取关于这一人群HIV、STD 感染率、行为特征和相关服务信息的主要手段之一。流行病学调查获取的信息可用于针对这一人群干预计划的制定,评价特定干预措施的效果;定期开展流行病学调查则可获得HIV和STD 感染率以及相关行为的变化趋势。
然而,MSM人群是一个特殊群体,他们的性行为方式因为容易感染性病、艾滋病而备受医学界的关注。由于不被主流社会认同,受社会压力和偏见所迫,他们几乎从不公开身份,也很难信任“圈外之人”。因此,对这一群体的流行病学调查往往难度较大,大范围的流行病学调查也一直空缺。
流行病学调查研究大致可分为描述性、分析性和实验性三种,本章仅就在MSM人群开展描述性流行病学调查中的横断面调查过程中涉及到的抽样方法、样本量估计和数据统计分析等进行讨论。
在进行流行病学调查过程中,经常需要用抽样调查的信息推测要调查的总体。在这调查中,面对的难题是如何进行抽样。通常使用的方法有概率抽样和非概率抽样。概率抽样是指在抽样时总体中每个个体以一个已知的概率被抽取。因为概率已知,从而可以用统计学的方法用抽样的结果推测总体。常用的概率抽样方法,如单纯随机抽样、分层抽样或多阶段整群抽样等,对容易接近人群的流行病学调查较为适用,但对难以接近人群,如静脉注射吸毒人群、男男同性恋人群、性工作者等存在传播HIV高危行为甚至违法行为的人群,这些概率抽样方法就很不适用。
近年来为应对这一现状,流行病学、统计学和社会学等多学科的专家共同探讨,探索了几种针对难以接近和隐蔽人群的抽样方法,常用的有滚雪球法(Snowball sampling)、以场所为基础的抽样(Venue‐based or Facility‐based sampling)、目标抽样(Targetedsampling)、时间-场所抽样( Time‐location sampling,TLS)、同伴推动抽样(Respondent‐driven sampling,RDS)和常规整群抽样(Conventional cluster sampling)。在这些抽样方法中,只有TLS 和RDS 可以计算样本中每个个体被抽取的概率,因而可被称作概率抽样。2003年,美国疾病预防控制中心把这两种方法作为艾滋病行为监测的抽样方法进行推荐。
一、时间-场所抽样(TLS)
这种抽样方法有多种其他名称,如场所-日期-时间抽样法(Venue day time sampling,VDT),时间-空间抽样法(Temporal‐spatial sampling)和时间场所抽样(Time venue sampling,TVS),但均表示同一种抽样方法。
(一)方法的由来和原理
作为一种难以接近的人群,针对MSM人群开展的流行病学调查往往采用传统的抽样方法,但其代表性令人置疑,因而结果的可信程度也较低。为此,美国疾病控制中心在原以场所为基础的非概率方便抽样的基础上,开发了一种新的以场所为基础的概率抽样方法,即时间-场所抽样法(TLS)。1994-1998年,该方法在美国七个城市用于MSM人群的HIV感染率和高危行为调查,随后在美国和泰国等地用于MSM人群的调查。2003年,美国疾病控制中心在全美建立HIV行为监测系统时,TLS 作为抽样方法得到广泛应用。2003年11月-2005年4月,全美17个城市运用TLS 对8000余名MSM进行了抽样调查,抽样过程得到进一步规范。
作为一种近似随机整群抽样方法,TLS 所用的抽样单位是特定日期和时间段在MSM场所出现的MSM个体群。通过随机选择MSM个体群出现的日期、时间段和场所,目标人群成员有近似均等的或者已知的概率被抽到。因而,TLS 为一种概率抽样方法。
TLS 抽样所要推测的总体是一个地区所有到各种场所活动的MSM人群。所以,采用TLS 抽样时有三个方面的前提:一是抽样之前已经掌握这一地区所有MSM人群的活动场所,并绘制了时间和空间分布图;随机抽取足够多的场所和时间,给每个个体群提供均等的机会;如果机会不均等,可以根据当时进出场所情况进行加权处理(但是现场操作时很难做到)。
TLS 把每个MSM活动场所按日期和特定的时间段分组,以特定日期的特定时间段内在某个场所出现的所有MSM个体为一个整群,作为基本抽样单位。确定所有基本抽样单位后,按单纯随机抽样原则,选择足够数量的基本抽样单位,以满足调查所需样本量的要求。
(二)TLS 的操作步骤
1.确定MSM人群活动场所名单
召集知情人员会议,列出MSM人群经常活动的场所名单。
知情人员包括当地开展过MSM调查或干预工作的卫生部门工作人员、为MSM人群提供过健康服务的性病门诊工作人员、MSM场所业主、MSM网站工作人员、MSM志愿者小组工作人员、开展过MSM相关研究的人员等。名单应尽最大可能地包括一个地区的全部场所。如果某个场所服务对象不仅仅是MSM人群,则需深入此场所了解其服务对象的构成。如果其服务对象中50%以上为MSM,即可确定列入场所名单。可能的场所包括:酒吧、健身房、公园、海滩、饭店、咖啡馆、茶馆、零售小店、小型社会活动机构、街头或路边场所、家庭聚会、成年书店等。但诊所和健康服务中心不在其列,因为到这些场所活动的MSM通常都有健康问题,会造成样本的偏倚。
2.建立抽样框架
收集所有场所名单后,要深入到每个场所了解每天场所的具体开放时间。以一个固定时间段为单位(一般为4小时,也可以是其他,如2小时),确定每个活动日的时间段数,并统计每个时间段内可能抽到的MSM人群;以周为单位,确定所有场所周一至周日的时间段数,建立以场所-日期-时间(VDT)为基本抽样单位的抽样框架表。
3.实施抽样
以一个月四张抽样框架表为基础,将所有基本抽样单位编号,用单纯随机抽样的方法,抽取一定数量的VDT,满足预设样本量的要求。这里以一周的抽样框架为例介绍抽样过程。
4.场所内选择调查对象
原则上,被选日期时间段的场所内的所有人均应参加调查。
首先要确定每个个体是否符合调查对象的入选条件,例如,一项调查要了解某地区18岁以上MSM人群的情况,在调查时首先要确定每个个体是不是18岁以上,是不是MSM。要尽可能动员所有符合条件的个体参加调查,最大限期度地减少参与性偏倚(Participation bias)。对坚决拒绝参加调查的个体也要简单收集其基本信息,以便与参加调查的个体进行比较。
(三)TLS 实际应用中的注意事项
1.样本量
样本量的估计可依据整群抽样的原理进行,过程不再描述。
一般而言,每次调查500个调查对象的样本量已经足以对主要观察指标作准确的估计。如果做三年趋势分析,1500个样本也足以对趋势作出准确的判断。但是如果要对MSM人群中的某个亚人群(如20~24岁年龄组)进行分析,则每次调查500个调查对象的样本就不够了。在这种情况时,应针对这个人群开展专题调查。
2.VDT 置换
抽样确定VDT 后,就尽最大可能开展调查。如果到某个VDT 后在半个小时内不能开展调查,或VDT 在调查时关门、没有人或没有安全保障时,应该考虑用其他的VDT 置换。置换时应该优先考虑同一时间段的场所,比如不能调查的VDT 是41号,则置换时优先考虑也应是8p-12a 的场所。
3.参与偏倚
有一些MSM人群是不能作为调查对象的,比如,看见调查人员就飞快躲开的、在打手提电话的、肢体语言表示有敌意的、喝得太多或已经喝醉的、坚决拒绝的或其他有安全威胁的。但由于这些个体不能参加调查,就会产生参与偏倚,因此可以对这些个体尽可能收集其基本信息,如年龄等,以便在分析和对结果解释时参考,同时发放联系卡片,争取他们在另外的时间能够到指定的地点接受调查。
4.调查时间
选取调查对象后,应尽可能当场就进行调查。如果不能当场调查,应该进行预约。应优先考虑预约他们在当天晚些时候到场所开展调查,否则另约时间和地点。不能现场调查是很容易造成调查对象的丢失的。
5.数据分析
与其他抽样方法不同,TLS 不能避免同一个体在不同的场所-日期-时间出现,故一般统计方法不能用于TLS 收集数据的分析。TLS 收集的数据需要用比率估计法(Ratio estimator)进行分析。
这里N指调查中抽取的样本总数。当观察的指标为分类变量时,如果要观察的指标是阳性,如HIV阳性,或存在某种危险行为,如不使用安全套,则xi为1;如果要观察的指标为阴性,则xi为0。当观察的指标为连续变量时,如xi表示某个个体的性伴数时,则公式(1)计算的结果即为要估计的总体的平均性伴数。
各项观察指标的标准差也可以用公式(1)进行计算,同时可以用SUDAAN软件对多个观察指标进行分析,如Logistic回归。分析前要对每个个体变量的权重赋值,其权重为该个体的wi除以所有样本个体的wi总和。
因为不同的个体在抽样时被选中的概率不同,所以有必要在分析时对结果进行加权处理,但wi的计算过程非常复杂。美国疾病控制中心和旧金山卫生署做过尝试,发现加权后的结果与非加权的结果没有显着差异,不影响结论,因此到目前为止,所有用TLS的调查均未进行加权处理,而是按概率统计的方法对数据作分析,如美国疾病控制中心2006年公布2003-2005年全美第一轮MSM行为监测结果时,就未进行加权处理,而只是报告了描述性统计的结果。该轮MSM行为监测用的抽样方法就是TLS。
(四)TLS 的优缺点及应用前景
近十多年来的试点和为数不多的运用发现,TLS有以下优点:第一,通过近似随机整群抽样可保证样本的代表性;第二,可非常有效地用于难以接近的人群,如MSM人群;第三,不需要目标人群中每个个体的完整信息,简化了操作层面的程序。
同样,TLS也存在明显的不足之处:第一,这种抽样需要完整的场所-日期-时间“地图”,没有这种地图,就不能保证样本的代表性;第二,如果调查对象没有在特定的日期时间段到场所,就会出现偏倚,而这种偏倚是很难控制的;第三,方法学本身还很难验证,对TLS是不是一种方便的抽样方法还有争议。
随着MSM人群越来越显性化,MSM人群的活动场所也必将越来越多,这就为TLS提供了必要的条件,也使得TLS具有更广阔的应用空间。
二、同伴推动抽样(RDS)
(一)RDS 的由来和原理
运用一级马尔可夫链(First order markov chain)理论,1958年,Coleman 设计了链式推举法(Referral chain)来了解社会网络的特征,如滚雪球法(Snowball)、关键知情人抽样法(Keyinformant sampling)、目标人群抽样法(Targeted sampling)。
Goodman于1961年通过限定推举人数对此法进行了优化。1982年,Snijders 研究发现,这种链式推举法有利于了解社会网络的结构而不利于了解其特征,后由Heckathorn 和Broadhead 于1994年和1995年在美国康涅狄格州和俄罗斯雅罗斯拉夫尔市的IDU 人群中改良而成RDS 法。
RDS 法与经典的滚雪球法相似,但有所改进。首先,RDS 改变经典滚雪球法的单向激励为双向激励,即招募者和被招募者均获得一定数额的物质奖励或现金,从而提高了招募的效率;其次是RDS 法要求调查对象由同伴招募而不是由同伴向调查员指证,从而减少了招募过程中拒绝参加的比例。
RDS 法要求每个人只能推举一定数额的同伴(一般为3个),同时统计每个推举人所认识同伴的数量(Network size),从而可以计算每个同伴被抽取的概率;每个人推举同伴数量的限制使推举链得以延长,使不同特征的同伴能被抽中,从而避免在人群特征上的相似性而造成的偏倚。作为一种近似概率抽样方法,RDS 法抽样得到的结果可以对抽样的总体作出点估计和区间估计。
RDS 法从一个或多个启始者(这里称之为“种子”)开始,种子将联系卡(Coupon)发给其认识的一定数额的同伴(这里以3个为例),请他们到指定地点调查和/或采集生物样品,并请其同伴再分别将3张联系卡发给他们认识的同伴这样重复延长推举链直至达到预定的样本量,再加上每个人认识的同伴数量,即可对总体作出推断。