立足基因大数据,人和未来要将技术解决方案商业化

立足基因大数据,人和未来要将技术解决方案商业化
2017年10月16日 11:30 爱分析ifenxi

调研 | 凯文 青川 关蕾

撰写 | 关蕾

在大数据领域,人和未来是一家跨界于BT(Biotechnology生物技术)与IT的公司,归类为基因大数据公司。

近几年,受基因测序的需求推动,基因大数据行业蓬勃发展。然而,与激增的基因数据量对应的是效率低下的数据处理技术。

据行业数据,人全基因组数据约占100-200GB的存储空间,单个样本数据量巨大。目前,分析一个人基因组200GB的Fastq.gz数据的单机计算耗时为30小时。高性能的压缩、传输、计算等数据处理技术是行业普遍面临的技术瓶颈。

人和未来由为了解决数据处理效率低下的问题,结合在BT+IT领域里的跨界优势,在IT信息技术方向提早布局、重点投入,目前已处于业内领先水平。去年以绝对优势刷新世界纪录,将全基因组分析时间从30小时缩短至18分钟,只用了1/5的次优时间。

人和未来成立于2014年,团队来自多个领域,如遗传学、生物信息学、计算机及医学等,奠定了其融合发展路线。

目前,人和未来布局有三条业务线,包括IVD(体外诊断)、大健康、大数据三个业务板块。其中,IVD与大健康业务以基因检测为基础,服务于医院、体检机构、保险公司等客群;此外,新拓展的大数据业务,为数据产业链上下游的基因测序中心、精准医学中心、测序客户、云厂商等提供高性能的数据压缩、传输、计算等信息技术解决方案。

人和未来CTO宋卓表示,人和未来面向基因大数据行业提供一系列的信息技术解决方案,数据的压缩、传输、计算技术解决方案将首先进入商业化阶段,而数据的解读和发现方案则会择机发布。

企业客户,是其主要目标,目前以直销为主。根据大B类企业特点,客户对供应商更换频次较低,在一定程度上具有客户粘性。人和未来的信息技术解决方案,以自身的基因行业背景为主要竞争力,是否能拓展到其他行业,如医疗影像数据处理等,需等待市场验证。

近日,爱分析对人和未来联合创始人兼CTO宋卓进行专访,现将精彩内容分享如下。

布局基因大数据,数据技术正商业化

爱分析:出于怎样的原因新开拓了大数据业务板块?为客户提供哪些服务?

宋卓:第一,基因的数据总量在剧增,今年全国预计超过100 PB量级,而且将保持100%的增长。第二,基因大数据的高性能处理分析,目前还没有合适的工具,因此决定自己开发。基于已取得的优秀成果,我们计划将最好的技术解决方案提供给整个行业,做跟基因相关的大数据技术产品。

爱分析:基因领域的大数据技术由哪些组成?

宋卓:包括五个部分:压缩、传输、计算、解读、发现。我们先关注前三个,通过数据的压缩、传输和高性能计算而节省的资源、提升的效率都可以量化对比,商业化路径相对清晰。解读和发现,涉及到机器学习、生物信息、文本挖掘等技术,商业化道路仍需探索。

爱分析:压缩、传输的IT属性很强,计算带有行业属性?

宋卓:压缩和计算处理的是生物基因数据,数据格式、特点都需要专业知识的特殊处理,对最终效果都有影响,具有很强的行业属性。数据解读和发现的生物属性则最强。而存储、传输的行业属性则相对淡一些。

爱分析:解读包括哪些?

宋卓:临床上,解读包括肿瘤精准用药指南、遗传疾病诊断咨询;大健康方面,包括基因相关科普教育、肿瘤早期筛查、遗传健康风险等内容。

爱分析:大数据业务,除了生信数据以外,还有哪些共性较高的行业数据?

宋卓:在医疗健康行业,除开基因的大数据,医疗影像领域同样也在产生海量数据,单人数据超过5GB,因此对于高性能压缩和传输也有刚性需求。我们的技术方案架构适用于多个领域,但首先会在基因数据领域中推广和打磨。

爱分析:大数据业务做商业化,服务哪些2B客户?

宋卓:客户有两类,一,大型基因测序公司,是基因数据生产、汇聚的机构,全国有二十余家。二,拥有基因数据中心的医院、高校、研究机构,它们是基因数据的使用方、应用方。

爱分析:现在合作的基因测序公司有哪些?

宋卓:目前大部分都还在测试和合作洽谈中,我们一方面用社区版推广先进技术,另一方面发布企业版为B端客户推出专业安全的贴身技术服务。

爱分析:商业化会采用怎样的模式?

宋卓:仍在探讨,主要成本在于研发成本和计算硬件。定价层面,计划按数据量收费,参考为客户节省的成本。我们提供服务器租用,减低客户的启动成本。

爱分析:如何服务云上的客群?

宋卓:越来越多的基因测序公司开始使用云服务,生成的数据一部分放在本地,一部分传到云端,这两种方式我们都支持。从云的角度,我们支持边压缩边传输,我们在AWS Market Place中提供工具,帮助客户节省存储和传输成本。现在1 PB的存储成本是100多万,我们可以节约到1/3,节省了2/3的费用和空间。

爱分析:在AWS market place中收费模式是怎样的?

宋卓:收费模式灵活,按用户实际需求,可以按带宽,也可以按数据量收费。

爱分析:企业版的数据会有哪些竞争力?

宋卓:企业版的竞争力源于其高性能和安全性。以最新的NovaSeq数据为例,企业版已破纪录的将原始数据压缩至3%以下,具有巨大的性能优势。更重要的是,企业版会通过技术手段保证压缩和传输的数据100%的与原始数据保持一致,在数据安全性上具有极高保障。

爱分析:压缩效率这么高是因为基因信息解析出来有很多冗余?

宋卓:对,是的。人的一条基因组有3 Billon个,在测试时,需要把基因组测30遍,约100G的数据量。受现在高通量测序方法的限制,数据必须是冗余的,否则将无法均匀覆盖整个基因组。好比打断一条的长长的链子,小片段容易丢失,所以得把30条链子都打断了,揉在一起,才能还原成的原来的样子,再通过比对寻找突变。

IVD与大健康共同发展,IVD获取认证是关键

爱分析:基因检测属于哪条业务线?商业化程度如何

宋卓:基因检测作为一项重要的基础技术,同时支撑IVD和大健康两条业务线。其中IVD聚焦临床的体外诊断检测,大健康则关注基因相关的健康管理,目前多条产品线都已商业化。

爱分析:IVD业务有哪些特点?

宋卓:IVD是体外诊断。与基因相关的IVD,按检测内容可以大致分为三类,遗传病、肿瘤、感染。IVD的主要客户是各级医院和第三方医学检验所。IVD特点是,它必须是一个CFDA(国家食品药品监督管理总局)认证的医疗器械或试剂盒,供医院或医学检验所采购后提供检测服务。

爱分析:目前,基因检测获取的CFDA的认证集中在哪些病种?

宋卓:与高通量测序相关的不多,现在发的认证主要集中在产前唐氏筛查领域。与PCR相关的不少,主要集中在遗传、肿瘤、感染相关方向。

爱分析:通常情况下,报证周期会有多久?

宋卓:最短18个月,一般3年。

爱分析:肿瘤筛查属于哪条业务线?

宋卓:我们做一些肿瘤的筛查性项目,像结直肠癌筛查,属于大健康业务线。

爱分析:大健康相关有哪些应用?

宋卓:基因检测作为一项新技术,相当于用一个全新维度观察健康问题。大健康相关的应用可以分为三类,有检测父母遗传基因的疾病易感基因;也有检测人后天累积突变的肿瘤早期筛查;除开人自身的基因,由于肠道菌群跟人体多种健康状态息息相关,还有检测人体肠道菌群基因的精准健康管理和干预项目。

爱分析:客群层面,除了机构客群,2C客群是否会考虑?

宋卓:最终的检测者都是个人用户,但我们是B2B2C。我们的判断是2C市场还处于早期,需要若干年的市场教育才能成形。

爱分析:您刚才提到的大健康业务中后天积累的基因突变,与IVD业务的肿瘤应用,两者有公用部分,只是在呈现方式上不同?

宋卓:是的,我们公用同一个技术平台,这个高精度多热点的低频突变检测技术平台可以同时支撑大健康和临床的基因检测需求。在临床上是辅助诊断,我们不涉及干预;在健康领域我们要负责提供干预方案和产品,以满足客户健康诉求。

爱分析:您认为现阶段,基因数据量与算法哪个更重要?

宋卓:在不同的阶段,重要性不一样。如果探索初期,合适的算法尚未形成,数据最重要。一旦算法成形,开始关注计算效率,算法变得重要。计算同一个内容,有很多种实现算法,在比较如何更快、更低成本的计算时,高性能的算法更重要。

爱分析:对于肿瘤早期筛查,基因检测需要定期测?

宋卓:是的。肿瘤早期筛查检测的是在人在成长发育变老过程中累积的突变,这些突变以一定的概念时刻在发生。除了极少数的家族遗传性肿瘤,大多数肿瘤多是后天致病突变累积而来。因此,肿瘤早筛需要定期检测,相信以后该类型的基因检测会成为人们熟悉的众多体检项目之一。

多学科融合的团队构成,大数据业务或将独立运营

爱分析:首先商业化的是哪个业务板块?

宋卓: IVD和大健康是最先商业化的业务板块。虽然大数据团队一直都有,但前期一直处于技术开发阶段,现在大数据技术方案已经成形,开始商业化。

爱分析:人员方面,这三块业务是怎样的分布?

宋卓:公司目前250多人,技术中心占90多人.。实验、生信、大数据三个研发团队人数较均匀,各占1/3。

爱分析:在项目执行时,定制化程度占比有多少?

宋卓:企业客户往往有自己的特殊需求,需要定制化服务,这些定制化内容同时也是产品的一个衍生。通常定制化部分占整个工作量的1/5-1/4。解决一个企业的需求,也是解决一类企业的需求。

爱分析:和医院合作是按照样本量收费?

宋卓:对,按样本数量计算。

爱分析:一般样本费用是什么量级?

宋卓:从几百到几千都有,看检测项目,以及产生的基因数据量。大健康业务中,除检测以外,管理和干预方案也是价格因素之一。

爱分析:大数据的商业化预期?

宋卓:预计今年产生几百万营收。

爱分析:为保险公司提供哪些服务?您看到,基因检测是否有影响保费的趋势?

宋卓:我们为保险公司提供样本基因检测和数据分析服务。保险公司则将基因检测视为为客户提供的健康福利。基因检测结果并不影响保费计算,实际上由于这里涉及很多政策和伦理问题,离现实还很远。美国也还没起步,中国乐观估计也得5-10年时间。

爱分析:大健康业务每年是怎样的增速?

宋卓:增速100%,我们希望能建立一个智能化的精准健康方案服务平台,为健康产业上下游企业服务。

爱分析:如何用个性化的基因数据做通用平台?

宋卓:个体数据都是个性化的,但数据分析的逻辑是通用的。

爱分析:人和未来向基因测序公司输出大数据技术,会不会因为业务冲突降低自身竞争力?

宋卓:不会的。可以分几个层面看,第一,我们提供的是底层的IT技术解决方案,对所有应用方来说是透明的,通过提高效率为企业省钱是受欢迎的。第二,基因检测种类繁多,属于新兴市场,各家公司各有所长各有所重,我们的业务很难与一家具体公司形成竞争,更多的是合作。第三,长远来看,我们会把大数据业务独立成公司,独立运营。

爱分析:对标公司有哪些?

宋卓:大数据业务中,高性能云计算对标的是Seven Bridges,FPGA计算加速对标的是Edical Genomics。IVD和大健康业务,虽然基因检测公司众多,但因为市场足够大,且各有侧重和优势,我们并没有设置具体的对标公司。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部