标准数据库对人工智能发展有着基础性和前瞻性意义

标准数据库对人工智能发展有着基础性和前瞻性意义
2017年10月20日 08:10 动脉网

在刚刚结束的中华医学会第24次全国放射学学术大会上,国内医疗影像领域的医生专家们联合国内医疗人工智能领域的领军企业依图医疗,共同建立人工智能医学影像标准。

这些医生专家们包括第二军医大学长征医院影像医学与核医学科主任刘士远教授,北京医院放射科主任兼医学影像中心主任陈敏教授,浙江大学医学院附属第二医院放射科主任张敏鸣教授,华中科技大学同济医学院附属协和医院放射诊断科主任韩萍教授,大连大学附属中山医院副院长伍建林教授,浙江省人民医院放射科主任龚向阳教授等。

 合影

医学影像标准到底有多重要,为何能够聚合这一众医疗影像界的专家医生?医学影像标准的建立又对整个中国医疗人工智能的发展意味着什么?对临床医生们来说,又该如何参与到标准的建立中去?

带着这一系列问题,我们采访了其中一位医生专家张敏鸣教授。以下内容来自动脉网与张敏鸣教授的采访,文章以第一人称叙述。

张敏鸣教授简介:

浙江大学影像医学与核医学专业学科带头人,博士生导师。现任中国医师协会放射医师分会全国常委、中华放射学会全国委员、中华医学会放射学分会磁共振专委会副主任委员、浙江省医学会放射学分会侯任主任委员、浙江生物医学工程学会放射学专业委员会主任委员。

张敏鸣教授

AI需要一个前瞻性的标准数据库

企业刚开始从事医疗人工智能研究的时候,大多数是先从网上下载或者购买数据,关注如何建模、如何计算。所谓医学人工智能大赛,更多的理解为技术竞赛,很少有医生参与。我们临床医生大多是看热闹的旁观者。

另外那个时候这些公司产品的证据来源,机器学习的数据质量也让人担心。因为一位傻老师、一本傻教材永远教不出优秀学生。

如果一个企业开发医疗人工智能产品,没有临床医生参与,没有从临床的角度出发来提出问题、按临床需求处理数据的话,那么这个公司的产品将是没有灵魂,不能落地的。

临床医生、放射科大夫参与到人工智能的整个大潮流当中去发挥它应有的作用,是赋予整个潮流的一个中轴的灵魂作用。

这个作用就是提出临床问题、对数据纳入制定标准,对高质量标准化数据纳入把关,完善数据库构建。

人是一个很复杂的生物,并不像计算机语言那样只有一或者是二。

中国医疗数据标准化面临的一个非常重要的挑战就是,中国医疗体系非常复杂,各家医院有自己的医疗特色和诊疗目标,有各自的图像扫描标准。

以肺部CT检查为例,基层医院只关注来检查的人员是否有病,而三甲医院还要关注患者是什么病,患病程度,下一步的治疗方案,不同的标准导致设计的检查方案就完全不一样。

我十分看好人工智能,我相信将来的发展肯定不止简单的判断患病与否,而是判断疾病的良性恶性、疾病的程度,并给出下一步的治疗策略。但这些都需要基于一个标准化的数据来实现的。

另一方面,在谈论数据标准化的时候,首先我们要设立一个前提,考虑产品将来的用途,具体解决什么问题。而不是盲目地追求又快又准。

具体来说,首先企业知道自己要做什么,企业制定出标准,然后将标准细化,以肺部为例,具体到CT扫描的厚度、分辨率、方式,三维重建、放射组学等,然后在这个基础上做大样本的数据搜集。

很多人工智能公司目前只是关注肺部结节、肿瘤,其实它在其他领域也有巨大前景,甚至能发现超越我们所认知的东西。

比如说神经退行性疾病,可以利用标准数据建立人工智能模型,来识别临床前期的症状,帮助我们看见人类看不到的微弱的疾病早期变化。

人工智能发现医生看不见、摸不着的变化,预测疾病的发生,这是美好愿景。如果AI可以发展到那一步,那么现在的标准就非常重要,我们应该要有一个整体的宏观设计,这样可以避免每个阶段都重新采集数据。

因为数据采集是一个非常艰难的过程,我们要有一个前瞻性的数据采集设计,来构建数据库以及制定前瞻性的行业数据标准。

前瞻性数据标准要包含多重数据

以肺结节为例,除了需要标准图像数据以外,还需要有患者的流行病学数据、实验室检查数据、甚至基因数据,以及治疗过程当中的诊疗数据。如果某家企业在研发这些产品的过程中拥有如此全面的数据,这家人工智能公司是很有前景的,它走完了第一步以后,可以迅速走出第二步,不然从第二步开始又要重新数据采集、积累。

而标准数据库的建立仅凭公司是做不出来的,一定要有放射科医生人士来参与,这种参与不是仅仅与机器比拼一下准确率,而是参与到产品的研发过程中。

建立标准数据库是可行的,不是空谈

建立标准数据库绝对是有必要的,掌握数据的这一部分专家有责任和义务来组织建立一个大的标准数据库,数据库要包含多数大医院、各个硬件公司产生的数据,并尽可能形成标准,供各个人工智能公司训练模型的时候使用。

有人说这个数据库是空谈,其实我们已经在做了。我们在浙江省的多个中心做大脑的神经退行性疾病的标准数据库。在国家科技部重点研发计划“十三五”课题计划的推动下,我们已经在十几个医院开展研究,参与者包括神经科大夫、放射科大夫。数据也来自不同的设备。

我们对神经性退行性疾病多模态的影像扫描做了标准化,而且对于不同的设备,会按照这个标准来尽可能弥合。

这个数据库包括患者的疾病过程,认知的评分过程,量表的评分过程,大脑的图像以及用药过程和患者的基因数据。

目前已经通过社区调查了几千例的正常老人,他们目前没有患病,我们通过记录老人的生活习惯、量表评分来发现老人患病倾向,然后再给这些人做一个标准的大脑扫描,扫描以后进行前瞻性的追踪,观察病人发展方向,这样一套数据搜集以后,建立一套人工智能模型,就可用于预测其他人的发病概率。

又因为我们有完整的基因、图像、临床数据,也可研究神经退行性疾病的发病原因,这个意义就更大了。我们建立的数据库将会成为人工智能各领域建立数据库的一个范式。

另外需要强调的一点就是,我们的标准要依照国际指南、文献以及临床知识背景深厚的专家的看法,这样的标准才有公信力。

数据安全、法律规范不容忽视

所有的医疗大数据纳入研究医疗之外的、他用的过程,患者是要签署在知情同意书,这是患者的权利。

我预测将来,如果这份规范做好的话,所有的病人进入医院进行检查的时候,患者都会签署知情同意书,同意自己的数据用于科学研究,而不是商用。

目前我们还没有做到,但是国外已经在注意这个问题。

目前中国行业的情况是,虽然明确的法规还没有出来,但是在科研的过程中我们会进行脱敏,去掉个人信息,用标号代替,保留临床数据用于科研。

现在有争议的点是姓名是敏感信息,那么年龄、生活习惯、性别、生活地域这些算不算敏感信息,这目前还没有界定,但是如果去掉这些信息,会对科研造成很大的影响。

总的来说,医疗是很复杂的学科,它牵扯到法律、伦理、技术等等方面,所以要想做好这件事情,就需要一个权威的部门,充分讨论、征求意见之后,作为建立大数据的规范。

数据库的建立可能需要政府、医院、企业的共同参与

和全国各大顶级三家医院一样, 我们医院审核一家企业,让企业进入我们医院都是很难的,要签署保密协议,数据用途等一系列的协议,获得的数据越是优质,门槛就越高。

企业使用数据需要医院的医务部门、IT部门等部门的同意,并经院务会讨论,而且数据还不能出医院,依图是通过了重重审查才进入到我们医院,并且系统已经进入推广阶段。 

另外,数据库的建立,需要多家医院的数据输入,最终达到数据共享,但是别人未必愿意,此时就需要上层设计。

我希望形成一个联盟一样的组织,在政府授权或者认可的前提下,建立一个类似数据银行的机构,各家医院需要共享自己的数据,数据的所有权归联盟所有,企业也可以从数据银行获得优质的大数据。

与依图科技的合作也是慎重思考之后决定的。依图有自己的技术背景,而且动作很快,有时候甚至赶不上他们的节奏。

另外依图科技毕竟是企业,它进行科研转化的能力比我们强,但是不着急赚钱,想把产品做好,要不然我们也合作不来。

这个数据库前期可能是国家支持,但是它的维护需要企业的支持。需要强调的是这个数据库的建立应该是以公益和科研为目的。

也许未来这个数据库会公开,就像国际上的公开数据库一样。也有可能是参与创建数据库的企业免费试用,其他企业付费使用,但是收费也仅是为了维持数据库的运营。

样本量越大,结果越准确

从统计学的角度来说,样本量越大,误差就会越小,如果企业有精准的数据,那么样本量可以小一点,如果不是精准的数据,企业必须要扩大样本量,所以现在也不能说在没有标准数据库的情况下,企业的系统落地完全不可行,但是要在不断地扩大样本量的基础上做这件事情,需要花费很大精力。

另外,我是一个做科研的人,科研和现实是有差别的,不可否认大的样本量和不同的数据来源可以更加真实模拟现实中的状态,而做研究的时候要去掉很多干扰因素,但是现实中干扰因素去不掉。

而什么因素需要去掉,什么因素需要保留,这需要专家和一线医生来决定,甚至是做对照实验来决定。

总的来说,建立标准数据库对人工智能发展起到的是基础性和前瞻性的作用。

文|王晓行

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部