在钉钉10周年发布会上,壹生检康CEO王强宇宣布,其自主研发的豆蔻妇科大模型(doukou.ai),在国家妇产科卫生高级职称(正高)笔试考试中成绩超过GPT-5的52.59分,取得了64.94分的成绩。这一结果不仅彰显了国产医疗人工智能在专业化赛道上的快速进步,也展示了垂直行业大模型更高的实际应用价值,为人工智能赋能医疗临床实践提供了新的样本。
专业考试验证垂直行业大模型性能
本次测评严格采用国家卫健委指定的人卫版《妇产科高级职称考试全真模拟卷》,考试范围覆盖临床妇产科学、妇科肿瘤、围产期医学、生殖内分泌、计划生育等12个核心学科,题型包含多选题(占比40%)和案例分析题(占比60%)两大题型。其中,案例分析题要求模型根据患者主诉、检查报告等多源信息,解决临床诊断、鉴别诊断、治疗方案等问题,全面考察临床决策能力,需要全部正确才能得分,评判标准高于人类实际考试标准。
在相同的测试环境下测评结果显示,豆蔻妇科大模型在整体得分上领先GPT-5 11.31分,不仅在知识覆盖度上更契合中国妇产科的临床体系,还在病例解析和诊疗路径推荐等应用场景中展现出更强的专业性与实用性。
豆蔻大模型由壹生检康(杭州)生命科技有限公司研发。壹生检康创始人、CEO王强宇表示,“测评聚焦于中国妇产科体系的理论知识和高标准临床决策,豆蔻妇科大模型的优势建立在其高度本土化和垂直化的训练之上。而在通用知识、多模态能力、逻辑推理的广度上,通用大模型依然拥有其不可替代的优势,两者是互补而非简单的取代关系。在具体行业的深度应用上,垂直大模型拥有比通用大模型更高的实用价值”。
王强宇认为,垂直行业大模型的核心优势体现在三个方面:第一,行业 know-how,垂直模型深度结合行业知识体系与专家经验,能精准匹配专业领域的逻辑与流程,垂直模型更懂行业。第二,高质量数据,相比通用语料,垂直模型能够利用规范化、标准化、权威化的高质量数据,从而在可靠性与准确性上更有保障。第三,快速迭代, 专业团队可根据临床反馈以及最新指南不断更新迭代,形成“专家—数据—模型”的闭环,提升更新速度与实用价值。“豆蔻大模型正是依靠深耕妇产科的专业know-how、结合高质量的临床数据训练,并通过与医生群体的互动迭代来取得比GPT-5更强的专业性能”。
据了解,豆蔻妇科大模型基于钉钉企业专属AI平台研发迭代。钉钉企业专属AI平台及大模型训练服务体系,为豆蔻大模型训练提供了从数据治理、高效训练到灵活部署的完整端到端工具链和服务支持。壹生检康团队将豆蔻妇科大模型训练平台转移到钉钉企业专属AI平台后,在数据处理、算力增加、模型优化等环节进行了多方位调整。通过钉钉企业 AI 专属平台的分布式训练、多Lora部署等加速优化手段,将单次训练时长从26小时缩短至7小时,降幅高达 73%。“钉钉提供的不仅仅是资源,更是方法论,钉钉行业专属模型团队在训练过程中提供的快速响应和专家级指导,大大提升了训练效率,助力豆蔻模型快速迭代升级!”豆蔻产品负责人陈宇表示。
豆蔻充实国产大模型生态
随着国家对数据安全、医疗合规和自主可控的高度重视,国产医疗大模型在专业领域的突破具有更加深远的战略意义。医疗作为关乎民生的重点行业,更需要在人工智能底层能力上实现自主可控。豆蔻的成绩说明,中国不仅可以在大模型赛道中发展通用型产品,更可以通过行业化、专业化的路线,形成差异化竞争力。这也意味着,在医疗、教育、金融、制造等对专业性要求极高的行业中,国产垂直大模型将成为重要力量。
专家指出,中国拥有庞大的医疗体系和丰富的临床数据资源,这是构建本土化垂直行业大模型的独特优势。随着产业链逐渐完善、政策支持不断强化,未来中国将有望形成一个通用大模型与垂直大模型并存、协同发展的生态格局,在全球人工智能产业中占据更重要的地位。
王强宇说,“人工智能不会取代医生,但能够成为医生的重要助手。通过与钉钉合作,我们探索并验证了一条高效构建企业专属大模型的成功路径,并愿意将此经验分享给医疗行业,愿有更多的企业拥用自己的专属大模型,大家一起在 “AI + 医疗” 的创新实践中走出一条具有本土特色的发展道路”。
http://www.ixfrb.com.cn/news/20250828/55638.html