循证医学25年综述：再不做Meta它就要过时了？

　　循证医学（EBM）在我们为谋生而碌碌奔波的人眼里，大体就是翻箱倒柜地找文献、刮数据，再做统计，整一篇Meta分析，争取发上3分。可是我们为什么要这么做呢？为什么有的Meta评价和引用都很高，有的只好为灌水文？还有别的办法吗？

　　要回答这些问题，也许我们应该从海量文献和数据中抬起头来，从稍高一些的视角中看一下循证医学的面貌，它到底是什么，需要什么，我们要怎么做才能实现它的价值。

　　虽然循证医学的发家史可以追溯到很早，但直到1991年，才由麦克马斯特大学G H Guyatt教授正式定义这个名词，向临床医生介绍怎样从众多已发表的文献中筛选出有价值的，从而有利于做出更好的临床决策。从此，循证医学渐渐演变成一场医动。

　　到现在已过去了1/4个世纪，循证医学已遍地开花，但又有了越来越多的质疑，还面临着新的挑战。于是Guyatt教授在Lancet上发了一篇循证医学的回顾，也许可以帮我们展开大局观。

　　从前医生们是怎么做决策的呢？根据个人行医经验？根据掌握的有限知识进行推理？根据偶然看到的一篇研究报告？可能在小范围内有用，但扩大实践或观察范围时经常被打脸。

　　循证医学的第一个原则，即是认识到并非所有都生而平等，所以我们才要找更充分的来支持我们的决策。

　　第三个原则，则提醒医生们注意，只是必要条件而非充分条件，对个体案例，要放到具体情况中考虑，比如患者的价值观和个人喜好。

　　这个等级的我们再熟悉不过了，它是循证医学早年广为采用的分级（1991 - 2004）。可以看到RCT是无可匹敌的最高级，因为理论上它可以尽量控制混杂因素的干扰，观察到某个变量的“最纯萃”的效应。但人们最终还是认识到了它的bug。

　　首先，RCT跟RCT也是不一样的。到底能不能控制混杂因素，还看研究者怎么操作；其次，样本量不一样，它所代表的群体和统计功效也不一样。退一步讲，就算研究者能控制的部分已经控制得很完美了，但还有些问题是由于伦理等原因不能用RCT来研究的呢。于是新的评级方案应运而生。

　　2004年发表在BMJ上的GRADE就是更为成熟的分级系统，它周全地考虑到了构成可信度的多个方面，包括设计类型，偏倚风险，精确度，一致性，适应性，效应量，剂量梯度等等。虽然观察性研究在设计上的“先件”使其等级低于随机试验，但做好了加分项，仍可往上升1~2级，反之亦然。

　　此外，影响等级的除了研究操作过程，还有书写、汇报的质量也是需要关注的。过去25年中也发展出了各种研究类型的规范化流程，比如RCT中的CONSORT声明是我们最熟悉的。这些规范都可以EQUATOR网站上下载，此处不再展开。

　　在认识到并非所有都生而平等之后，我们就要搜罗所有我们所能找到的，进行总体及逐一评价，根据研究的具体问题进行纳入排除，选择优质，综观它们所指向的结论，这就是系统综述。若最终纳入的研究数据可以融合，则进行Meta分析，这就是定量系统综述。

　　所以评价一篇系统综述是干货还是灌水文，其中一个很重要的指标就是看它是否进行了广泛的文献检索，除了在各大文献数据库中检索正式发表的文献，还有各种灰色文献，如会议报告、学位论文等等，详见AMSTAR量表（）。

　　系统综述也曾经乱入那个分级模型中，成为比RCT更高级的。但这却是混肴概念，因为RCT是一种研究设计类型，而系统综述是收集并综合评价的方法，两者不在一个层面，系统综述也可以用来评价队列研究、病例对照研究，甚至病例报告等。

　　当人们理清了系统综述的作用，也就能更充分地利用它。既然它是针对某一问题的当前所有的汇总，那么一个直接的作用就是避免重复研究，浪费资源。有些期刊，比如Lancet，要求发表一个原始研究时，一定要阐述该问题范围内，已有哪些研究、哪些，你的研究在此基础上有什么推进，要直接引用一个系统综述来佐证。

　　另一个作用就是指导临床指南的制定，这对医生的临床决策有很大的影响，也是科研向临床的桥梁。

　　基于及时的系统综述来制定的临床指南，为医疗活动带来了很大的变革，包括建立标准化的早期乳腺癌化疗与激素疗法规范；改变了社区获得性肺炎的管理方案，支持系统地应用糖皮质激素；纠正了某些地区认为婴儿应该趴着睡的奇葩观念，减少了婴儿猝死率，等等。

　　但由于近年来个体化医疗越来越被重视，标准化的指南就面临着质疑。这一套标准方案是否适用于每个患者？是否应该被机械的执行？这就有了第三个原则。

　　循证医学之所以诞生的，就是为临床医生提供更好的决策方案。所以脱离决策而细究，就有点本末倒置。你我都知道，临床是复杂的，在有了医学的前提下，还要考虑许多因素。

　　GRADE系统除了讨论等级外，还有它对决策的影响。其实它的名字就透露了这点——GRADE代表：Grades of Recommendation Assessment, Development, and Evaluation。相比传统的分级，它最明显的进步就是考虑到从评价到决策和推荐（即临床）的过程，更看重实践价值。

　　除了质量的必要条件外，还有由该决策所获的益处或负担、损害的程度（即决策的效率），患者个人的价值取向和喜好，这些都是做决策的核心参数；其他参数则有资源（成本）、可行性、可接受性、公平性等。

　　国家似乎更强调患者的自主权，让患者参与到决策中来。我们国家也有一点倾向，但不敢放手。实际上，界上任何一个医疗体系中都要慬慎，对于那些恨不得立马撕毁所有指南的言论都无法苟同。在决策过程中，医学和个人价值取向的比重如何分配权衡？法律上怎样处理？这些问题还需要严谨讨论与研究，尤其是后者，更需要医疗政策制定者积极参与。

　　但这些讨论终究使我们，本身并不能决定一个临床决策，只有把放在具体的案例中才有意义。也许将来的循证医学前沿研究者会开拓这片疆土。

　　从那三个原则出发，未来也就要想着怎样提高咱们研究的强度，怎样充分收集所有进行评价，以及怎样使医学能更好地为患者的个体利益服务。

　　其中一个较严重的问题是，并非所有的研究都能发表，那些未能验证假设或有利益冲突的研究都倾向于不发表，给收集带来困难。

　　这问题反复说了多少年都没能解决，但咱们已经来到了信息时代，说不定有办法呢。可以试着建立自动化的文本挖掘程序，收集各网络平台上的信息进行分析评价，这些信息也更新得更快，对临床决策的指导也更及时。

　　实际上也已经有人在做广泛的数据挖掘工作，但像是数据科学家们的“野子”，在循证医学中还没有“名分”。很明显咱不能说这种不是来源于RCT或观察性研究的就不是，不能指导临床决策。相反，它们也许更接近医疗活动的实际情况，比传统研究那种理想化的模型更有实践价值，二者应该结合考虑。

　　所以循证医学最好尽快给它们“招安”，明确它们的地位。这样，也许将来当我们谈起Meta分析，就会觉得它是循证医学中石器时代的数据挖掘吧。

　　至于个性化医疗么，除了要求多学科参与解决一些政策问题外，还要加强医学和知识的，让患者充分理解这些决策所带来的利弊，才能地参与进来，医生也能更地与其讨论风险及解决办法。这要好好利用发达的社交。

建筑论文网

循证医学25年综述：再不做Meta它就要过时了？