符云霞 江倩倩中青报·中青网记者王烨捷
3月22日,上海交通大学洪亮教授团队发布最新成果。团队将AI和蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。该成果配合行业领先的自动化设备,已经进行产业化落地。
蛋白质是由氨基酸序列构成的,氨基酸序列的长度从数百个到上千个不等。洪亮团队建立的蛋白质序列数据集Venus-Pod含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。

该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。
这些数据意味着什么?洪亮介绍,该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展。他说,AI大模型有望通过海量数据(14.730, 0.11, 0.75%)的学习和掌握自然界蛋白质的进化模式,为设计优异的蛋白质产品提供了宝贵的学习资料。
2024年,诺贝尔化学奖颁发给谷歌DeepMind团队,该团队利用AI技术精准解析了蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的基本难题。然而,一个现实的问题是:如果我们稍微改动蛋白质的氨基酸序列,哪怕只是1%的微小改变,蛋白质的整体结构看似没有发生明显变化,但它的功能大概率会变差,甚至完全丧失。换言之,要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。
因此,洪亮团队“另辟蹊径”,不再执着于蛋白质的结构,而是直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。

“我们训练的Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示,Venus系列模型具备两大核心功能——“AI定向进化”与“AI挖酶”。
所谓“AI定向进化”是指Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”满足应用需求。而“AI挖酶”则是指Venus系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。
与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。
未来,科研人员可以从繁琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题,最终将复杂的蛋白质科学发现变成“傻瓜相机式”的简单过程。
目前,这项研究已被多家企业使用,其设计的多款产品已经落地,助力阿尔兹海默等疾病的诊断。
以国内一家生长激素龙头企业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到1年将普通单域抗体耐碱性提升4倍,每年为该企业节约上千万元成本。该成果已实现多个批次5000升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。
另一项Venus系列模型的创新应用则是对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。ALP因高稳定性和灵敏度被广泛用作标记酶,其活性越高,检测灵敏度越高,从而能够检测到极低的生物标志物,但提升ALP的活性一直是一个挑战。Venus系列模型成功优化ALP,使其分子活性超国际头部公司产品3倍,为超敏检测诊断,如心肌梗死、阿尔兹海默症,带来巨大价值。目前,改造后的ALP已进入200升规模放大生产阶段,标志着Venus系列模型成功实现产业转化。
来源:中国青年报客户端
APP专享直播
热门推荐
郭树清谈年轻人不愿意交个人养老金:要考虑长远,不能只顾眼前 收起郭树清谈年轻人不愿意交个人养老金:要考虑长远,不能只顾眼前
- 2025年03月25日
- 10:03
- APP专享
- 扒圈小记
6,809
杭州单价新“地王”诞生:滨江集团52亿元拿下水电新村地块,楼面价77409元/平方米
- 2025年03月25日
- 03:29
- APP专享
- 扒圈小记
3,304
王大雷遗憾失误:0比1的话还有机会
- 2025年03月25日
- 14:47
- APP专享
- 北京时间
2,728

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 04:55:30
今日午盘全市场共56股涨停,连板股总数7只,19股封板未遂,封板率为75%(不含ST股、退市股)。焦点股方面,深海科技概念股巨力索具(sz002342)走出10天7板,太阳电缆(sz002300)、尤夫股份(sz002427)双双晋级4连板;机器人(sz300024)板块反弹,南方精工(sz002553)7天6板。 -
趋势领涨今天 04:54:02
今日午盘全市场共56股涨停,连板股总数7只,19股封板未遂,封板率为75%(不含ST股、退市股)。焦点股方面,深海科技概念股巨力索具(sz002342)走出10天7板,太阳电缆(sz002300)、尤夫股份(sz002427)双双晋级4连板;机器人(sz300024)板块反弹,南方精工(sz002553)7天6板。 -
宋谈股经今天 04:04:25
上午A股数据统计!【更多独家重磅股市观点请点击】 -
波段擒龙今天 03:52:19
【今日午评】 A股三大指数早盘集体反弹,截至午盘,沪指涨0.18%,深成指涨0.36%,创业板指涨0.36%,北证50指数涨1.02%。全市场半日成交额7463亿元,较上日缩量553亿元。全市场超4000只个股上涨。市场缩量反弹,这个时候是需要相对谨慎对待,前面已经提到过跌破1.3万亿的市场,就需要相对谨慎对待,上证支撑区域60天均线3320-3350点位置已经初步企稳,技术型反弹要注意合理调配上升通道标的。【板块分析】板块题材上,养殖业、机器人(sz300024)、化工板块涨幅居前;银行、中船系概念股跌幅居前。(以上所有观点为王君毅投顾观点,执业证书编号:S1350620030001,条件单为演示模型,根据历史回测和回溯数据,不作为未来的走势依据,不作为推 荐,仅供参考,不作为入市依据,据此入市,盈亏自负,市场有风险,投资需谨慎) -
雪球年大今天 03:37:33
目前市场缺少持续性,远离高位科技! -
冯矿伟今天 03:37:29
冯矿伟:趋势目前半日线趋势比较完善,从2月7日突破趋势后,已经3次顶背离无效,2次回踩趋势止跌,这些都是趋势的典型特征,目前正在趋势回踩止跌的初期,需要向上加速才能加强趋势的延续。今天动能背离向上,维持趋势向上延续的概率增强。 -
宋谈股经今天 03:35:33
3月26日午间收评:三大指数小幅上涨,全市场超4100股飘红1、市场早间红盘震荡,黄白二线分化明显,微盘股指数涨近3%。机器人(sz300024)概念股再度爆发,南方精工(sz002553)、新时达(sz002527)、华宏科技(sz002645)、林州重机(sz002535)、秦川机床(sz000837)等十余股涨停。养殖板块持续走高,晓鸣股份(sz300967)、京基智农(sz000048)涨停。化工股延续强势,中毅达(sh600610)、苏州龙杰(sh603332)、尤夫股份(sz002427)等涨停。下跌方面,银行股走低,招商银行(sh600036)跌超4%。个股涨多跌少,沪深京三市超4100股飘红,上午半天成交7464亿。午间收盘沪指涨0.18%,深成指涨0.36%,创业板涨0.36%。2、板块概念方面,养殖、机器人(sz300024)、化工、光伏设备等板块领涨;油服、银行、电力、旅游等板块领跌; 3、两市共3962只个股上涨,65只个股涨停;1053只个股下跌,13只个股跌停;19只股票炸板,炸板率24%。 -
雪球年大今天 03:34:31
目前市场缺少持续性,远离高位科技! -
数字江恩今天 03:33:35
个股涨跌比不错,7%以上涨幅的目前103,昨日7%以上跌幅是140左右,那么下午还必须快速增加。这里最好的走法,就是压住大盘不要力度反弹,反复震荡略微向上即可;大盘走得不猛,个股才能好 -
量化伏妖今天 03:31:59
【股票午评】:技术提示止跌今日的市场表现稍微活跃了点,连日来暴跌的个股有止跌修复迹象,红盘个股多达3800多只。技术指标粘合线也出现低位拐头向上,价值陡峭日线连续三日拐头向上,预示大盘短期调整结束。板块方面暴跌下来的机器人(sz300024)相关板块已经止跌,是个好现象。同步磁阻电机,鸡肉概念,化纤行业,昨日连扳,电机,减速器,猪肉概念等涨幅靠前;超导概念,可燃冰,油气设服,银行,抽水蓄能,低碳冶金等板块跌幅靠前。总体来看指数虽然还没有开始大幅上行,但是盘面已经开始活跃,逐渐开始有点赚钱效应了,期待今天下午能有更好的表现。