Blog

心音诊断：从听诊器到智能心脏听诊

May 25, 2026 1 min read medical-ai

heart sound phonocardiogram cardiac diagnosis medical AI

心音诊断看似古老，却一直是心血管筛查中最有生命力的入口之一。医生把听诊器放在胸前，听到的不是抽象的“声音”，而是瓣膜关闭、血流加速、心室充盈、结构异常共同投射出的机械信号。随着电子听诊器、心音图（phonocardiogram, PCG）和深度学习的发展，心音正在从主观听觉经验变成可记录、可分析、可复核的数字生理信号。

这篇文章不是医疗建议，而是一份面向研究和工程实现的整理：心音诊断到底在听什么，算法又应该学什么。

1. 心音首先是时间结构

最基础的心音是第一心音 S1 和第二心音 S2。S1 通常对应二尖瓣和三尖瓣关闭，标志着心室收缩期开始；S2 通常对应主动脉瓣和肺动脉瓣关闭，标志着收缩期结束、舒张期开始。对于心音算法而言，识别 S1/S2 并不只是一个预处理步骤，而是后续诊断推理的坐标系。

一个完整心动周期可以粗略拆成：

S1：房室瓣关闭，收缩期开始。
Systole：心室射血阶段，许多收缩期杂音出现在这里。
S2：半月瓣关闭，舒张期开始。
Diastole：心室充盈阶段，舒张期杂音往往更需要警惕。

临床听诊强调“杂音发生在 S1 和 S2 的哪个相对位置”。算法也一样：如果模型只把心音当成普通音频分类，很容易学到设备噪声、背景差异或采集域偏差；如果模型先理解心动周期，再分析每个阶段的能量、频谱和形态，结果通常更可解释。

2. 杂音不是一个标签，而是一组线索

心脏杂音本质上多与湍流血流有关。它可能是无害的生理性杂音，也可能提示瓣膜狭窄、关闭不全、先天性心脏病或其他结构性问题。判断一个杂音，通常不会只看“有没有”，还会结合：

时相：收缩期、舒张期或连续性。
强度：是否响亮，是否伴随震颤。
位置：在主动脉瓣区、肺动脉瓣区、三尖瓣区、二尖瓣区等位置的表现。
传导：声音是否向颈部、腋下或背部传导。
音调与形态：粗糙、吹风样、递增递减、全收缩期等。
动态变化：体位、呼吸、Valsalva 动作后是否变化。

这也解释了为什么心音 AI 不能简单替代临床诊断。心音信号能提供重要证据，但最终判断还要结合症状、体征、心电图、超声心动图和病史。好的模型应当输出“异常风险、可疑时相、信号质量和建议复查”，而不是给出过度确定的单点结论。

3. PCG 信号处理的典型流程

把心音变成算法输入，一般会经历几个环节。

第一步是采集与质控。真实心音常常很脏：衣物摩擦、说话、环境噪声、呼吸音、传感器接触不稳都会混进来。对移动端或基层筛查场景而言，信号质量评估甚至和分类模型同等重要。

第二步是预处理。常见做法包括重采样、带通滤波、归一化、去尖峰和片段裁剪。心音主要能量集中在较低频段，但病理杂音可能带有更复杂的频谱结构，因此滤波不能只追求“听起来干净”，还要避免抹掉诊断信息。

第三步是心动周期分割。传统方法会使用包络、隐马尔可夫模型或生理先验来定位 S1/S2；深度学习方法则可以用序列模型直接学习状态边界。分割的好处是把长录音拆成多个可比较的心动周期，减少心率差异带来的影响。

第四步是特征与建模。早期系统常用 MFCC、能量包络、频谱熵、小波特征等手工特征；现在更多模型会使用时频图、1D 卷积、Transformer、状态空间模型或多实例学习。对于短时、噪声、多设备的数据，模型的泛化能力往往比训练集精度更重要。

4. AI 心音诊断真正难在哪里

心音分类看起来是一个二分类问题：normal or abnormal。但真实难点远不止分类器本身。

一是数据域差异。不同听诊器、采样率、采集位置、人群年龄、医院流程都会改变信号分布。一个模型在公开数据上表现很好，并不保证能直接迁移到新的设备和新的临床场景。

二是标签粒度不足。很多公开数据只给 normal/abnormal 标签，但异常背后的病因并不相同。把主动脉瓣狭窄、二尖瓣反流、先心病和噪声伪影都压缩成 abnormal，会限制模型学习更细的医学结构。

三是可解释性需求高。医生通常不只想知道“异常概率 0.87”，还想知道模型依据的是哪一段心动周期、哪类频率模式、是否可能是采集噪声。可视化时频热图、周期级证据、S1/S2 对齐后的异常片段，都会提高模型的可信度。

四是筛查和诊断的目标不同。基层筛查系统更重视敏感性和可复查机制，宁愿把可疑病例转诊；专科辅助诊断则要求更细粒度、更高特异性，并且需要和超声、心电、病史等多模态信息对齐。

5. 一个更可靠的心音智能系统应具备什么

我认为实用的心音 AI 系统至少应包含五个模块：

采集引导：告诉用户听诊位置、接触质量和录音时长是否合格。
信号质控：识别环境噪声、摩擦噪声、过低音量和非心音片段。
周期分割：定位 S1/S2，形成心动周期级分析单元。
异常筛查：输出整体异常风险，并尽量区分收缩期、舒张期或连续性异常。
解释与建议：展示关键片段、置信度、复查建议和“不能替代医生诊断”的边界。

如果进一步走向研究前沿，心音还可以和 ECG、超声、临床文本、生命体征联合建模。心音提供机械活动，ECG 提供电活动，超声提供结构和血流影像。多模态融合的价值不在于堆更多数据，而在于让不同模态互相约束，减少单一信号的误判。

6. 写在最后

心音诊断的魅力在于它足够轻量，却连接着复杂的心脏生理。听诊器时代依赖经验，PCG 时代强调信号，AI 时代则需要把经验、信号和临床工作流重新合在一起。真正有价值的模型，不只是跑出一个漂亮的准确率，而是能在噪声、设备差异和临床不确定性中，稳定地帮助医生发现需要进一步检查的人。

心音不是答案本身，但它常常是一个很好的问题开端。

免责声明：本文仅用于科研与工程学习，不构成医学诊断或治疗建议。若存在胸痛、气促、晕厥、心悸或医生提示心脏杂音等情况，应及时咨询专业医生并按需进行超声心动图等检查。

Chenyang Xu

心音诊断：从听诊器到智能心脏听诊

1. 心音首先是时间结构

2. 杂音不是一个标签，而是一组线索

3. PCG 信号处理的典型流程

4. AI 心音诊断真正难在哪里

5. 一个更可靠的心音智能系统应具备什么

6. 写在最后

参考资料

Chenyang Xu

1. 心音首先是时间结构

2. 杂音不是一个标签，而是一组线索

3. PCG 信号处理的典型流程

4. AI 心音诊断真正难在哪里

5. 一个更可靠的心音智能系统应具备什么

6. 写在最后

参考资料

Related Posts

心音诊断综述：从 PCG 信号到临床 AI 部署