9月21日,清华系初创团队水木分子发布了新一代对话式药物研发助手 ChatDD (Drug Design),覆盖药物立项、临床前研究、临床试验的各阶段,作为制药专家的得力AI助手,提升药物研发效率。当天,团队还发布了全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B,在权威中文基础模型C-Eval评测中达到全部医学4项专业第一,也是在该四项任务上截至目前唯一平均分超过90分的模型。
清华大学智能产业研究院(AIR)院长张亚勤院士出席水木分子大模型发布会时指出:“ChatDD通过人机协作对话方式有效地将专家知识与大模型知识相链接,开拓了继传统药物研发TMDD、CADD、AIDD之后的第四代药物研发新模式。”据悉,21日下午来自复星医药、华润双鹤、阿里云、医药魔方的行业代表齐聚清华AIR,就“生物医药行业大模型的机遇与挑战”主题展开交流。
图:清华大学智能产业研究院(AIR)院长张亚勤院士发表致辞
第四代药物研发范式:可跨模态自然交互,覆盖医药研发全流程场景
ChatDD是基于水木分子千亿参数多模态生物医药大模型底座 ChatDD-FM 100B而研发,具备专业知识力、认知探索力和工具调用能力,作为生物医药研发助手Copilot服务医药研发的全流程,覆盖早研立项调研,早期药物发现,临床前研究到临床试验设计、药物重定位等各环节场景。
图:聂再清教授发布药物研发助手ChatDD
21日下午,水木分子分子团队向媒体展示了 ChatDD在立项BD、科研探索和临床试验阶段的应用场景Demo,大模型产品在提升新药研发效率上令人惊喜。ChatDD-BI作为立项助手,通过与专家的数轮对话辅助立项报告生成,例如专家可以通过自然对话获取某一适应症的基本情况、药物研发进展等,解决了立项调研中大量信息收集整理的工作;ChatDD-Discovery作为对话式知识获取工具,具备启发探索灵感的能力,一些令通用大模型头疼的“AI幻觉”,在该场景下甚至会带来“意外之喜“的灵感。ChatDD-Discovery具备调用专业工具、算法和外部知识库的能力,例如研究人员可以通过简单自然语言提示词来调用虚拟筛选功能,输入“请调用我提供的小分子数据库,针对该给定靶点,为我筛选与亲和力前100的小分子。” ChatDD会直接给出分子亲和力计算排序结果。
ChatDD-Discovery还支持生物医药多模态数据,例如,输入分子式后可直接得到该分子的完整描述信息,并可针对该分子式进行进一步的提问与探索。
临床试验是药物研发中最耗资、风险最大的关键阶段,如何提高临床试验的成功率一直是制药企业关注的核心问题。该场景下,ChatDD-Trial可凭借其知识能力和数据分析能力,辅助临床试验研究人员找到最适合入组的患者人群。通过发现药物生物标志物,研究人员可更好地理解疾病亚型,实现精准的患者分类,确保患者与试验药物更匹配,减少不必要的变量干扰,提高临床试验的成功率。
ChatDD-FM 100B:C- Eval评测中达到医学专业全部4项第一
ChatDD的底座为千亿参数多模态生物医药大模型ChatDD-FM 100B,在通用语言模型基础上经过“生物医药专业知识增强”、“生物医药多模态对齐”、“专业对话和工具调用指令微调”的三层淬炼,希望成为比专家还更懂行的大模型底座。作为全球首个千亿参数生物医药多模态对话大模型,已在C- Eval评测中达到全部医学4项专业第一,也是这四项任务唯一平均分超过90分的模型。
据悉,水木分子是由清华AIR孵化,团队中不乏医学博士后参与数据质量把关,致力于构建生物医药行业新一代对话式生物医药研发助手。复星医药是最早与其开展合作的行业代表,复星医药首席数据官林锦斌表示,“生物医药大模型应用需要适应药物研发项目特点,通过与清华AIR、水木分子开展生物医药基础大模型合作,依据我们应用场景进行模型私有化部署和应用开发,能够很好的帮助我们提升数据和知识的利用效率与价值,提升研发效能。”