智能病历生成的误差率能接受吗？

在电子病历系统里，AI 生成的文本已经能够把医生的口述瞬间转成结构化记录，然而“误差率能接受吗？”仍是摆在监管部门和临床一线的硬核问题。仅凭速度的提升，难以掩盖潜在的诊疗风险。

医学信息的容错空间远小于普通文本。常用的评价指标包括字面错误率（WER）、关键信息漏失率（KILR）以及临床一致性召回率（CIR）。2023 年一项多中心试验显示，主流商用模型的 WER 在 5% 左右，但关键诊断字段的漏失率仍徘徊在 2%–4% 之间。

从风险管理角度看，任何导致误诊或误治的错误都必须降至 0.1% 以下。换言之，若模型在关键字段的漏失率超过 1%，就已经触碰了安全红线。实际运营中，多数医院把 AI 输出交由医生二次校对，等于是把误差容忍度从 0.1% 放宽到 1%——但这也意味着人工审校成本几乎抵消了技术带来的时间收益。

该院在内科门诊部署了基于大模型的病历生成系统，实验期六个月内累计生成 12,000 份记录。统计数据显示，整体 WER 为 4.8%，但在“既往史”与“药物过敏”两项的漏失率分别达到 3.7% 与 5.2%。经过两轮医生复核后，最终错误率降至 0.6%，仍高于国内监管建议的 0.3% 上限。

如果把审校时间算进总流程，平均每份病历的人工校对仍需 2 分钟左右。换算下来，技术节省的时间并未显著改变医生的工作负荷，只是把原本的“写”变成了“审”。

于是，问题回到最初：在当前误差水平下，智能病历生成究竟是“提速器”还是“潜在隐患”？

参与讨论

8 条评论