智能病历生成的误差率能接受吗?

在电子病历系统里,AI 生成的文本已经能够把医生的口述瞬间转成结构化记录,然而“误差率能接受吗?”仍是摆在监管部门和临床一线的硬核问题。仅凭速度的提升,难以掩盖潜在的诊疗风险。

误差率的衡量标准

医学信息的容错空间远小于普通文本。常用的评价指标包括字面错误率(WER)、关键信息漏失率(KILR)以及临床一致性召回率(CIR)。2023 年一项多中心试验显示,主流商用模型的 WER 在 5% 左右,但关键诊断字段的漏失率仍徘徊在 2%–4% 之间。

  • 字面错误(拼写、标点)≈ 5%

  • 关键信息漏失(诊断、用药)≈ 3%

  • 术语不规范(同义词混用)≈ 4%

临床容忍度的界限

从风险管理角度看,任何导致误诊或误治的错误都必须降至 0.1% 以下。换言之,若模型在关键字段的漏失率超过 1%,就已经触碰了安全红线。实际运营中,多数医院把 AI 输出交由医生二次校对,等于是把误差容忍度从 0.1% 放宽到 1%——但这也意味着人工审校成本几乎抵消了技术带来的时间收益。

案例剖析:某三级医院的实验

该院在内科门诊部署了基于大模型的病历生成系统,实验期六个月内累计生成 12,000 份记录。统计数据显示,整体 WER 为 4.8%,但在“既往史”与“药物过敏”两项的漏失率分别达到 3.7% 与 5.2%。经过两轮医生复核后,最终错误率降至 0.6%,仍高于国内监管建议的 0.3% 上限。

如果把审校时间算进总流程,平均每份病历的人工校对仍需 2 分钟左右。换算下来,技术节省的时间并未显著改变医生的工作负荷,只是把原本的“写”变成了“审”。

于是,问题回到最初:在当前误差水平下,智能病历生成究竟是“提速器”还是“潜在隐患”?

参与讨论

0 条评论