《肿瘤大数据与真实世界研究中国专家共识.docx》由会员分享,可在线阅读,更多相关《肿瘤大数据与真实世界研究中国专家共识.docx(31页珍藏版)》请在第一文库网上搜索。
1、肿瘤大数据与真实世界研究中国专家共识(2022版)肿瘤是需要高度重视的公共卫生问题及社会问题。中国 肿瘤患者不仅数量众多,而且在病因、流行病学、疾病谱、 治疗方式等方面与西方国家存在较大差异。因此,中国肿瘤 相关数据具有自己的特点,如果完全参照西方国家数据,则 不能正确反映中国肿瘤防治的真实现状。若能整合、处理、 分析中国数据,并在特有病因、发病率、药物敏感性、预后 等方面找到规律,将对制定卫生政策、医学研究、疾病预防 等起到重大作用。中国抗癌协会肿瘤大数据与真实世界研究 专业委员会组织多学科专家,结合国内外文献和临床实践, 经过反复讨论修改,基于肿瘤大数据与真实世界研究的背景、 分析与管理、
2、方向规划与操作流程、基本设计、质量控制标 准、证据级别分类、数据安全与隐私标准等方面,最终形成 肿瘤大数据与真实世界研究中国专家共识(2022版), 旨在发挥中国肿瘤大数据的优势,开展高质量的真实世界研 究,更好地推进中国肿瘤防治工作。【关键词】肿瘤;大数据;真实世界研究;专家共识一、肿瘤大数据与真实世界研究背景近年来,随着人工智能不断发展,数据处理手段不断丰 富,医疗机构逐渐积累了总量庞大的医疗数据。电子病历是 信息技术发展的重要产物,是医疗数据的主要来源。中国国 家癌症中心汇集中国各级肿瘤医院的健康信息系统数据,逐 步开展数据规范化治理,标准化存储结构和术语编码,使高 质量的大规模真实世界
3、研究有了发展的土壤。L肿瘤大数据与真实世界研究定义:真实世界研究是指 针对预设的临床问题,在真实世界环境下收集与研究对象健 康和疾病有关的数据(真实世界数据)或基于这些数据衍生 的汇总数据,通过分析,获得药物或相关器械使用情况及潜 在获益-风险的临床证据(真实世界证据)的研究过程。真实 世界研究可以是观察性研究,也可以是干预性研究。与传统随机对照试验(randomized controlled trial, RCT) 不同,真实世界研究的数据来自真实临床场景,证据外推性 好,可用数据量大,研究易于开展,成本相对较低,可帮助 研究者发现临床实际情况与理想RCT研究之间的差距。真实 世界研究数据来
4、源广泛多样,电子健康档案、移动终端、社 交媒体、付费账单、调查问卷等都可以是真实世界数据的来 源。抗肿瘤新药和治疗手段层出不穷,但实际应用疗效仍有 待考证。虽然每年均有多种用药规范和诊疗指南出台,但并 不能覆盖所有患者群体。此外,由于肿瘤的复杂性、异质性, 临床实际情况与RCT研究所设定的人群往往有较大差异, RCT研究结果无法完全外推,也不适用于所有临床实际情况。 肿瘤治疗经历了漫长的发展历史,从经验医学时代到循证医 学时代,临床医学范式也在不断变迁。现代信息科学和治疗 技术迅速发展,未来的医学证据模式也将随着真实世界研究 和大数据的发展而产生巨大变革。2 .国内外真实世界研究现状:20世纪
5、70年代以来,监 管部门一直使用真实世界证据来批准罕见疾病的新治疗方 案。2016年12月,美国食品药品监督局(Food and Drug Administration, FDA)通过的21世纪治愈法案标志着真 实世界研究走上更大舞台,允许利用真实世界证据取代传统 临床试验进行扩大适应证的批准。美国FDA随后又于2017 年8月、2018年7月、2018年12月、2019年9月先后发布 了采用真实世界证据支持医疗器械的法规决策、临床 研究中使用电子健康档案数据指南、真实世界证据方案 框架、使用真实世界数据和真实世界证据向FDA递交 药物和生物制品资料,进一步完善了政策体系。同时,欧 盟药品管理
6、局、日本药品和医疗器械管理局也在多个层面体 现对真实世界研究用于药品研发和监管决策的关注和重视。尽管我国真实世界研究尚处于起步阶段,但发展速度快, 政府重视程度高,国家药品监督管理局2020年连续发布真 实世界证据支持药物研发与审评的指导原则(试行)、真 实世界证据支持儿童药物研发与审评的技术指导原则(征求 意见稿)、用于产生真实世界证据的真实世界数据指导 原则(征求意见稿)、真实世界数据用于医疗器械临床 评价技术指导原则(征求意见稿)等多项指导原则,规定 了真实世界证据支持药物研发和监管决策等情形,为国内真 实世界研究提供具体指导意见。2019年6月,国家药品监督 管理局与海南省政府联合启动
7、临床真实世界数据应用试点 工作,具有示范导向作用。真实世界研究登记数量不断增长,截至2020年8月, 全球登记真实世界研究共2 122项,1 020项(48.07%)处于 活跃状态,其中中国是真实世界研究申报最为活跃的地区。 真实世界研究发展迅速,年发文量逐年稳步增长。1983- 2018年百万级医疗大数据真实世界研究共发文83篇,多数文献集中于近5年,主要研究方向包括增进对疾病或状态的 认识、疾病分布情况、药物安全监测、疾病识别、卫生经济 学等。3 .真实世界研究挑战与机遇:真实世界研究存在许多挑 战。在研究设计方面,需选取具有切实临床意义的研究问题, 并调用适配度高、样本量足够大的数据集。
8、研究开展方面, 真实临床场景中存在复杂多样且难以控制的偏倚,需预先核 实数据完整性和准确性,此外,开展跨区域合作时,还需明 确数据所有权、访问权限、采集和清洗标准等。基础架构方 面,合理部署信息化基础设施是大数据应用的前提,需标准 化规范采集数据,不断更新迭代人工智能等方法学逻辑。伦 理及安全问题也不容忽视,在医疗大数据应用中,需警惕和 重视信息安全与隐私保护,最终目标是在个体隐私保护和数 据价值挖掘之间实现平衡。尽管真实世界研究仍为后起之秀,面临诸多挑战,但近 几年,支持政策陆续出台,电子病历的管理日益标准化,学 界日益关注,中国真实世界研究相关文章发表量逐年上涨, 在科学技术和政策的双重推
9、动下,医疗大数据将进入快速发 展新时代。二、肿瘤大数据分析与管理(一)可行性评估1 .数据来源可行性评估(1)利用现有数据:现有数据主要包含医疗机构产生 的电子病历(electronic medical record, EMR )和 随访信息, 分子生物学检测产生的组学信息,公共部门的电子健康档案、 医保数据、出生死亡登记、公共健康监测数据以及区域化医 疗数据等,分为可直接利用的结构化数据和需要进行数据提 取的非结构化数据。这些数据体量非常庞大,但由于数据的 采集并非为某特定研究目的而设计,故数据分散、异质性高, 完整性和准确性也有待验证。主动收集的数据,如临床试验 的补充数据、实 效性临床试
10、验(PragmatiC randomized clinical trial, PReT)、注册登记研究、健康调查、公共健康监测等 来源的数据,在收集之前已明确具体研究目的和数据收集目 标,数据更加规范、标准、完整、准确。对于特定科研方向的真实世界研究,需要对数据进行可 行性评估,主要包括所需数据的覆盖程度以及数据可关联性、 准确性、可靠性、完整性和可溯源性等。首先,基于目标研 究方向的临床问题确定主要变量,如待研究的干预措施、主 要结局、人口学特征、既往病史、实验室信息管理系统(laboratory information management system, LIS) 和影像学 数据等关键变
11、量是否存在;其次,抽样评估或对全数据集评 估主要研究变量及其他相关变量的数据缺失情况。(2)获得新增数据:基于待研究的临床科研问题,对 现有数据完整度、覆盖度进行评估后,可以进行缺失数据补 充。如关键变量整体信息缺失,可通过与数据生产系统重新 对接,关联研究人群,补充特定字段;预后信息缺失,可通 过医疗机构进行后续随访补充;缺失程度低的变量,可在后 续分析步骤通过统计方法进行弥补与校正。2 .研究主题可行性评估(1)确定研究主题:真实世界研究首先需要确定研究 对象,即选择暴露组、对照组及设定纳入排除标准。需要评 估是否有明确的暴露定义,如有无干预方案、暴露的模式或 顺序等。对照组的基本要求是尽
12、可能保证与暴露组具有可比 性,即对照人群除未暴露或低水平暴露于研究因素外,其他 各种可能影响研究结果的因素或人群特征(年龄、性别、民 族、职业、文化程度等)都应尽可能与暴露组分布一致,可 通过基线数据分析评估两组均衡性。病例对照比例一般为1 : 1到1 : 4不等,需要评估对照组样本量是否充足,应优先选 择内对照,次选外对照或总人口对照。(2)选择协变量:协变量的选择应首先综合现有诊疗 指南和既往研究结果,对所有观测到的可能与结局相关的基 线变量进行初步选择,形成变量集合,再通过数据驱动的变 量间相关关系学习,结合专业经验知识及已知危险因素进行 筛选,确定纳入分析模型的协变量。3 .数据获取与
13、存储可行性评估(1)数据获取:数据收集前,需明确数据所有权,在 获得授权后,通过特定访问方式(特定网络连接方式、指定 端口)或加密传输介质进行数据获取,确认同时采集到目标 数据的数据结构说明以及编码转化逻辑,保证数据可及性及 可操作性。(2)数据存储:采用HadOoP分布式架构与关系型数据 库相结合的方式存储,支持PB级数据量快速处理、大规模 数据秒级检索,采用安全套接字层协议加密,分离密钥和加 密数据,使用过滤器和数据备份等方式,构建安全存储策略。(二)数据质量控制1 .数据清洗:原始数据具有多源异构特性,针对特定临 床科研问题,需要进行数据清洗来提高数据可用性。首先制 定标准模型,建立统一
14、的数据标准,覆盖研究涉及的变量, 将原始数据以标准模型表结构入库,完成字段对照。将原始 数据字段按照标准模型字段项进行截取、提取和数据类型转 化,非空项为空时,需按照模型中的默认值进行补充。利用 数据来源方提供的字典表,将各数据表中的编码转换为预设 的标准编码,对数据进行全字段去重,排除重复数据。最后 核查数据量,进入标准模型的数据量应与原始数据量保持一 致。对于缺失数据,在能够溯源的情况下,尽可能通过数据 补充采集进行完善;对于无法溯源的情况,需要明确缺失值 的分布情况,判断其分布是否随机,如果为随机,可以通过 统计方法进行插补,如有偏倚,则考虑后期分层分析。2 .偏倚和混杂因素控制:研究中
15、的系统误差主要包括信 息偏倚、选择偏倚和混杂偏倚。其中,信息偏倚主要来自资 料收集和解释过程中的错误信息,可以通过加强研究设计阶 段对各种变量的规范定义、标准化数据转换规则、对变量值 域进行明确定义等方法进行控制。选择偏倚可以通过严格掌 握研究对象的纳入排除标准来控制,减少因特定信息缺失而 排除的样本数据对实验结果的影响,同时确保对照组和病例 组的基线可比性,如年龄、性别、病情严重程度、经济状况 等,也可采用多种对照,以减少选择偏倚对结果的影响。混 杂因素控制方面,在研究设计阶段对研究对象的入排标准加 以限制可以初步控制混杂偏倚。如果混杂变量数较少,可以 通过匹配和统计学调整控制混杂偏倚,以测
16、量风险因素对结 局的真实影响。针对较多混杂变量的情况,可以采用倾向性 评分的方法,在一定协变量条件下,实现对多种混杂因素的 控制。(三)分析方案1 .分析方案管理开展真实世界研究需要确定临床研究问题,对现有数据 进行评估,随后进行研究方案设计与选择、确定统计分析方 法、结果解释与再评价。为了减少潜在的偏倚,需要谨慎而 周密的研究设计方案,并且应在确定研究问题后尽早开始制 定研究方案和统计分析计划。临床数据分析通常会围绕着病因、诊断、治疗、预后及 临床预测等相关研究问题展开。病因研究主要是研究危险因 素与疾病之间的关系及发病机制。诊断试验主要是研究某类 新方法对特定疾病诊断的准确度,以判断其临床应用价值。 治疗性研究主要是研究某类治疗方案对特定疾病的疗效及 不良反应。预后研究是对疾病不同发展结局的可能性预测, 以及研究影响预后的因素。目前,临床上真实世界数据研究 包括观察性研究和试验性研究。观察性研究包括病例个案报 道