2024-12-21 数码 0
智东西
作者 ZeR0
编辑 漠影
ChatGPT这把火,已经烧到了生命科学界。
智东西3月30日报道,近日,百度创始人李彦宏牵头创立的生命科学平台公司百图生科,正式对外发布其“生命科学版ChatGPT”——由生命科学大模型驱动的AI生成蛋白平台AIGP。
恰如人类自然语言可以拆解成26个字母、词、句子、段落的嵌套结构,生命语言可拆解成20个氨基酸字母、蛋白质、细胞、生命体。如此多的相似性,使得生成式AI不仅能写诗编程,也能被用于解决困扰生命科学科研人员已久的难题。
AIGP平台由百图生科在过去2年多时间内、近300位AI BioTech专家组成的跨国技术团队共同打造。根据不同模块的输入和要求,AIGP平台可在较短时间内设计和生成具有特定性质的蛋白质。
据介绍,这将大幅简化蛋白质生产流程,用几十分钟或几小时来设计蛋白质,再加上几天即可合成出所需蛋白质。这背后的核心引擎,是百图生科成立两年多以来一直致力于打造的生物学大模型xTrimo。该模型拥有千亿参数,从跨物种与跨模态生物信息中学习了如何构建功能性及调控细胞功能规律。
有近20家合作伙伴已与百图生科开展AIGP联合研发合作,其方向涉及高性能弹头设计、新功能蛋白设计等领域,其中多个项目取得了阶段性的发现成果。一方面是从功能到蛋白设计(F2P),另一方面是从细胞到蛋白设计(C2P)。
由于制药需要高度专业性。AIGP平台暂时不会面向大众开放。但计划2023年6月起,将部分功能模块开放,让专业用户自主使用,在更多研究场景调用AIprotein generation能力,以激发更多探索。此外,还有一层是针对靶点挖掘和调控蛋white design(TWD)的预测模型。
要充分吸收数据,更需融合创新做有机融合。CTO兼首席AI科学家宋乐说:“就像ChatGPT依赖人类反馈来输出舒适交流一样,我们也需要经过专家信息及高通量实验室数据输入才能调整到生成有用protein级别。”
通过闭环系统,即大模型体系、高通量验证、三大数据部分,一次炼成了预测速度超过AlphaFold,并且准确率更高。在推进40多项项目时,每年的研发投入可能达数千万美元,而传统逻辑可能达到十亿美金效率显示着平台化优势。而刘维透露,他们希望一年内发布AIGP 2.0版本,为开发者提供普及化eggnoval protein generation能力,使之非但不是Biotech专利,而是许多研究者都能掌握。此模式称为“Protein-as-a-Service”,目的并非赚取服务费,而是在5年里带领此科技至今日耳熟能详水平,如同OpenAI GPT1至ChatGPT之旅。
上一篇:电子之城中关村的数字奇迹