循证医学(EBM)在我们为谋生而碌碌奔波的人眼里,大体就是翻箱倒柜地找文献、刮数据,再做统计,整一篇Meta分析,争取发上3分。可是我们为什么要这么做呢?为什么有的Meta评价和引用都很高,有的只好为灌水文?还有别的办法吗?
要回答这些问题,也许我们应该从海量文献和数据中抬起头来,从稍高一些的视角中看一下循证医学的面貌,它到底是什么,需要什么,我们要怎么做才能实现它的价值。
虽然循证医学的发家史可以追溯到很早,但直到1991年,才由麦克马斯特大学G H Guyatt教授正式定义这个名词,向临床医生介绍怎样从众多已发表的文献中筛选出有价值的,从而有利于做出更好的临床决策。从此,循证医学渐渐演变成一场医动。
到现在已过去了1/4个世纪,循证医学已遍地开花,但又有了越来越多的质疑,还面临着新的挑战。于是Guyatt教授在Lancet上发了一篇循证医学的回顾,也许可以帮我们展开大局观。
从前医生们是怎么做决策的呢?根据个人行医经验?根据掌握的有限知识进行推理?根据偶然看到的一篇研究报告?可能在小范围内有用,但扩大实践或观察范围时经常被打脸。
循证医学的第一个原则,即是认识到并非所有都生而平等,所以我们才要找更充分的来支持我们的决策。
第三个原则,则提醒医生们注意,只是必要条件而非充分条件,对个体案例,要放到具体情况中考虑,比如患者的价值观和个人喜好。
这个等级的我们再熟悉不过了,它是循证医学早年广为采用的分级(1991 - 2004)。可以看到RCT是无可匹敌的最高级,因为理论上它可以尽量控制混杂因素的干扰,观察到某个变量的“最纯萃”的效应。但人们最终还是认识到了它的bug。
首先,RCT跟RCT也是不一样的。到底能不能控制混杂因素,还看研究者怎么操作;其次,样本量不一样,它所代表的群体和统计功效也不一样。退一步讲,就算研究者能控制的部分已经控制得很完美了,但还有些问题是由于伦理等原因不能用RCT来研究的呢。于是新的评级方案应运而生。
2004年发表在BMJ上的GRADE就是更为成熟的分级系统,它周全地考虑到了构成可信度的多个方面,包括设计类型,偏倚风险,精确度,一致性,适应性,效应量,剂量梯度等等。虽然观察性研究在设计上的“先件”使其等级低于随机试验,但做好了加分项,仍可往上升1~2级,反之亦然。
此外,影响等级的除了研究操作过程,还有书写、汇报的质量也是需要关注的。过去25年中也发展出了各种研究类型的规范化流程,比如RCT中的CONSORT声明是我们最熟悉的。这些规范都可以EQUATOR网站上下载,此处不再展开。
在认识到并非所有都生而平等之后,我们就要搜罗所有我们所能找到的,进行总体及逐一评价,根据研究的具体问题进行纳入排除,选择优质,综观它们所指向的结论,这就是系统综述。若最终纳入的研究数据可以融合,则进行Meta分析,这就是定量系统综述。
所以评价一篇系统综述是干货还是灌水文,其中一个很重要的指标就是看它是否进行了广泛的文献检索,除了在各大文献数据库中检索正式发表的文献,还有各种灰色文献,如会议报告、学位论文等等,详见AMSTAR量表()。
系统综述也曾经乱入那个分级模型中,成为比RCT更高级的。但这却是混肴概念,因为RCT是一种研究设计类型,而系统综述是收集并综合评价的方法,两者不在一个层面,系统综述也可以用来评价队列研究、病例对照研究,甚至病例报告等。
当人们理清了系统综述的作用,也就能更充分地利用它。既然它是针对某一问题的当前所有的汇总,那么一个直接的作用就是避免重复研究,浪费资源。有些期刊,比如Lancet,要求发表一个原始研究时,一定要阐述该问题范围内,已有哪些研究、哪些,你的研究在此基础上有什么推进,要直接引用一个系统综述来佐证。
另一个作用就是指导临床指南的制定,这对医生的临床决策有很大的影响,也是科研向临床的桥梁。
基于及时的系统综述来制定的临床指南,为医疗活动带来了很大的变革,包括建立标准化的早期乳腺癌化疗与激素疗法规范;改变了社区获得性肺炎的管理方案,支持系统地应用糖皮质激素;纠正了某些地区认为婴儿应该趴着睡的奇葩观念,减少了婴儿猝死率,等等。
但由于近年来个体化医疗越来越被重视,标准化的指南就面临着质疑。这一套标准方案是否适用于每个患者?是否应该被机械的执行?这就有了第三个原则。
循证医学之所以诞生的,就是为临床医生提供更好的决策方案。所以脱离决策而细究,就有点本末倒置。你我都知道,临床是复杂的,在有了医学的前提下,还要考虑许多因素。
GRADE系统除了讨论等级外,还有它对决策的影响。其实它的名字就透露了这点——GRADE代表:Grades of Recommendation Assessment, Development, and Evaluation。相比传统的分级,它最明显的进步就是考虑到从评价到决策和推荐(即临床)的过程,更看重实践价值。
除了质量的必要条件外,还有由该决策所获的益处或负担、损害的程度(即决策的效率),患者个人的价值取向和喜好,这些都是做决策的核心参数;其他参数则有资源(成本)、可行性、可接受性、公平性等。
国家似乎更强调患者的自主权,让患者参与到决策中来。我们国家也有一点倾向,但不敢放手。实际上,界上任何一个医疗体系中都要慬慎,对于那些恨不得立马撕毁所有指南的言论都无法苟同。在决策过程中,医学和个人价值取向的比重如何分配权衡?法律上怎样处理?这些问题还需要严谨讨论与研究,尤其是后者,更需要医疗政策制定者积极参与。
但这些讨论终究使我们,本身并不能决定一个临床决策,只有把放在具体的案例中才有意义。也许将来的循证医学前沿研究者会开拓这片疆土。
从那三个原则出发,未来也就要想着怎样提高咱们研究的强度,怎样充分收集所有进行评价,以及怎样使医学能更好地为患者的个体利益服务。
其中一个较严重的问题是,并非所有的研究都能发表,那些未能验证假设或有利益冲突的研究都倾向于不发表,给收集带来困难。
这问题反复说了多少年都没能解决,但咱们已经来到了信息时代,说不定有办法呢。可以试着建立自动化的文本挖掘程序,收集各网络平台上的信息进行分析评价,这些信息也更新得更快,对临床决策的指导也更及时。
实际上也已经有人在做广泛的数据挖掘工作,但像是数据科学家们的“野子”,在循证医学中还没有“名分”。很明显咱不能说这种不是来源于RCT或观察性研究的就不是,不能指导临床决策。相反,它们也许更接近医疗活动的实际情况,比传统研究那种理想化的模型更有实践价值,二者应该结合考虑。
所以循证医学最好尽快给它们“招安”,明确它们的地位。这样,也许将来当我们谈起Meta分析,就会觉得它是循证医学中石器时代的数据挖掘吧。
至于个性化医疗么,除了要求多学科参与解决一些政策问题外,还要加强医学和知识的,让患者充分理解这些决策所带来的利弊,才能地参与进来,医生也能更地与其讨论风险及解决办法。这要好好利用发达的社交。
推荐: