<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="3.10.0">Jekyll</generator><link href="https://xcy1010.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://xcy1010.github.io/" rel="alternate" type="text/html" /><updated>2026-05-25T23:22:07+08:00</updated><id>https://xcy1010.github.io/feed.xml</id><title type="html">Chenyang Xu</title><subtitle>Chenyang Xu is a Master&apos;s student in Cyberspace Security at Xidian University. His research interests primarily lie in diffusion model acceleration, multimodal cardiac diagnosis, and neuro-symbolic reasoning.</subtitle><author><name>Chenyang Xu</name><email>xcy@ieee.org</email></author><entry><title type="html">心音诊断综述：从 PCG 信号到临床 AI 部署</title><link href="https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-review/" rel="alternate" type="text/html" title="心音诊断综述：从 PCG 信号到临床 AI 部署" /><published>2026-05-25T22:00:00+08:00</published><updated>2026-05-25T22:00:00+08:00</updated><id>https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-review</id><content type="html" xml:base="https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-review/"><![CDATA[<p><strong>Executive Summary</strong></p>

<p>心音诊断（heart sound diagnosis, phonocardiography-assisted diagnosis）正在经历一次从传统听诊走向“数字化采集—信号处理—机器学习/深度学习—临床验证”的方法学重构。公开数据集、电子/数字听诊器、智能手机采集与可穿戴声学传感器的普及，使心音重新成为低成本、可扩展、适合基层与远程医疗的筛查信号；但真正阻碍其临床普及的核心问题，已经从“能否分类”转向“标签是否可靠、数据是否代表真实临床、模型是否跨设备泛化、是否经过前瞻性外部验证与合规审查”。当前证据表明，心音 AI 在杂音检测、某些瓣膜病、儿科病理性杂音分流以及心衰声学生物标志物监测方面已显示价值；但其最佳定位仍是<strong>辅助筛查与转诊分层</strong>，而不是替代超声心动图或独立作出最终诊断。</p>

<p><strong>摘要</strong></p>

<p>本文面向具备医学或工程基础的读者，系统综述心音诊断的定义与历史、心音生理病理机制、采集设备与采样参数、噪声与预处理、S1/S2 分割、特征提取、机器学习与深度学习分类、公开数据集与开源生态、临床验证证据，以及性能、局限、伦理与法规问题。总体上，近十年的研究显示：在统一采样、良好去噪、患者级划分、外部验证和以超声或临床结局为金标准的条件下，心音 AI 最有希望落地于基层心脏杂音筛查、儿科先天性心脏病初筛、心衰远程监测和资源受限地区的早期分诊。</p>

<h2 id="引言">引言</h2>

<p>心音诊断广义上是指通过听诊或数字化心音记录（phonocardiogram, PCG）分析心脏机械活动，以识别正常心音、额外心音、杂音以及与瓣膜病、先天性心脏病、心衰等相关的异常模式。传统听诊已有两百余年历史，而电子听诊器自 20 世纪 70 年代出现后，使录音、回放、放大、滤波、存储与远程共享成为可能；近年的 AI 与移动终端则进一步推动了自动化心音分析复兴。</p>

<p>之所以值得重新审视心音诊断，一是心音本身具有低成本、无创、即时、易部署的优点；二是数字听诊设备与智能手机已经能够稳定采集心音；三是公开数据集和挑战赛显著推动了算法标准化。与此同时，系统综述也一致指出：许多研究虽然报告了较高准确率，但仍存在数据集规模有限、设备与环境异质性大、过拟合、外部验证不足和临床标签不够严谨等问题。</p>

<p>本文的写作目标不是简单罗列模型，而是把<strong>生理—信号—算法—临床—法规</strong>这五条线合并起来，回答一个更实用的问题：<strong>心音 AI 到底在哪些场景真正有价值，距离可信临床部署还差什么。</strong></p>

<h2 id="心音生理学采集与预处理">心音生理学、采集与预处理</h2>

<p>正常心音的核心是 S1 和 S2。S1 对应二尖瓣与三尖瓣关闭，发生在收缩期开始；S2 对应主动脉瓣与肺动脉瓣关闭，发生在收缩末/舒张初。S3 和 S4 并非每个人都能听到：年轻人可出现生理性 S3，但在成人尤其高龄患者中，S3/S4 更常被视作心衰、容量负荷增加或心室顺应性下降的声学线索。杂音则本质上来自湍流血流，可按时相分为收缩期、舒张期或连续性杂音。</p>

<p>从生理到病理的映射，决定了算法任务设计。S1/S2 的准确定位支持心动周期划分；周期划分又决定了“收缩期内的杂音”与“舒张期内的杂音”能否被正确解释。对于瓣膜病，时相、频率、强度与传导路径都很关键；对于儿科 CHD，是否存在病理性杂音、在哪个听诊点最明显，常常比单次无定位分类更有临床意义。</p>

<p>采集设备大致可分为四类：传统声学听诊器、电子/数字听诊器、便携/可穿戴设备，以及基于手机麦克风的采集。传统听诊器仍是床旁基础，但无法直接数字化；数字听诊器可以放大、滤波、录音并与软件或云端算法联动；可穿戴设备正在从 MEMS、压电、柔性传感器和低功耗连续监测方向发展；智能手机则证明了“无专用硬件也可完成基础 PCG 采集”的可行性。</p>

<p>在采样参数上，PCG 的信息频谱主要集中在 500 Hz 以下，而有用信息通常在 1 kHz 以下；因此，从信号处理角度看，2–4 kHz 采样率配合合适的模拟/数字抗混叠设计通常已足够。公开数据集中可见到 2 kHz、4 kHz、8 kHz、11.025 kHz、44.1 kHz 乃至 48 kHz 等多种采样率，本质上往往反映的是消费级音频设备与声卡标准，而不是心音本身对超高采样率的需求。</p>

<p>采集噪声是心音算法落地最现实的障碍之一。PhysioNet/CinC 2016 官方页面明确指出，其录音包含说话声、听诊器摩擦/位移、呼吸声和肠鸣音等干扰；儿科场景还经常叠加哭闹、运动伪迹和高心率造成的时相压缩。即便是智能手机采集，在真实用户环境中也存在姿势、胸壁脂肪、年龄、放置点与操作学习曲线等影响因素。</p>

<p>预处理因此几乎是所有系统的“隐形主干”。典型流程包括：带通滤波（常见 20–200 Hz、25–400 Hz 或类似范围）、去尖峰/去基线漂移、归一化、分帧、信号质量评估、必要时的小波去噪或同态包络提取。Potes 等在 2016 挑战冠军方案中将 PCG 重采样到 1000 Hz 并做 25–400 Hz 带通滤波；Li 等在特征工程 + CNN 方法中也将“滤波—正则化—分割”作为分类前置步骤；而智能手机研究则证明，良好的操作指导与简单后处理即可显著提升可解释录音比例。</p>

<blockquote>
  <p>图示占位说明：<strong>图一</strong>可放置“典型 PCG 波形示意图”，标出 S1、收缩期、S2、舒张期，以及收缩期杂音/舒张期杂音的典型位置；若用于博客发布，建议同时展示原始波形、包络与时频图三联图。</p>
</blockquote>

<h2 id="信号处理分割与特征建模">信号处理、分割与特征建模</h2>

<p>S1/S2 识别与心动周期分割是经典 PCG 分析的起点。早期方法通常依赖 Shannon 能量包络、Hilbert 包络、同态包络、小波或经验模态分解，再结合峰值检测、时长先验与规则实现 S1/S2 区分；这类方法可解释性强，但对噪声、心率变化和复杂病理的稳健性有限。</p>

<p>近十年最有代表性的分割里程碑是 Springer 等提出的 logistic regression-HSMM。该方法把 PCG 分成 S1、收缩期、S2、舒张期四状态，使用持续时间依赖的 HSMM 与扩展 Viterbi 解码，并在 112 名患者、超过 1 万秒记录上取得平均 F1 95.63%±0.85%，显著优于其比较基线。这一方法后来几乎成为公开数据集和挑战赛中最常见的“标准分割前端”。</p>

<p>深度学习把分割从“规则与概率图模型”推进到“端到端时序标注”。Renna 等提出 CNN 分割框架；Fernando 等进一步把 BiLSTM 与注意力机制用于心音状态序列建模；与此同时，也出现了“少分割”甚至“免分割”路线，试图避免错误分割在高心率、强噪声和病理杂音场景中的级联传播。Bondareva 等的 segmentation-free 方法就是这一方向的代表，尤其强调用户独立划分下的可迁移性。</p>

<p>特征提取方面，可以按五大类理解。其一是<strong>时域特征</strong>，如周期长度、S1/S2 时长、收缩/舒张比、峰值、偏度、峰度。其二是<strong>频域特征</strong>，如功率谱分布、状态分频带能量。其三是<strong>时频特征</strong>，包括 STFT、Mel 频谱、MFCC、MFSC、连续/离散小波、scalogram、S-transform。其四是<strong>复杂度特征</strong>，如样本熵、排列熵、多尺度熵等。其五是<strong>形态学特征</strong>，如杂音强度包络、波形对称性、音色、Levine 分级相关描述，以及多听诊点之间的时相/幅度关系。Potes 方案中的 124 特征、Li 等的 497 特征、以及许多基于 MFCC 或 log-Mel 的深度模型，都体现了这些设计思想。</p>

<p>在分类与检测层面，现有方法大致分为三条技术路线。第一条是<strong>传统机器学习</strong>：SVM、随机森林、AdaBoost、GMM-HMM、Markov switching 模型等，通常依赖精心设计的时频特征，优点是数据量要求较低、可解释性较强。第二条是<strong>深度学习</strong>：1D-CNN、2D-CNN、CRNN、CNN-BiLSTM、ViT、注意力网络、自监督学习与可学习滤波器组，优点是表征能力强，但对数据划分规范与域泛化尤为敏感。第三条是<strong>混合范式</strong>：先做分割/特征工程，再用深度模型分类，或者由深度模型学习前端滤波器与后端分类器。</p>

<p>评价指标不应只看“准确率”。在心音任务中，类别失衡极常见，且临床更关注漏诊成本，因此常见指标包括敏感性、特异性、AUC、F1、Matthews 相关系数、mAcc，以及 PhysioNet 2022 引入的加权准确率和基于转诊-漏诊成本的 cost score。更关键的是，<strong>必须采用患者级（patient-wise）划分，而非同一患者多个周期或多个听诊点同时出现在训练和测试集中</strong>，否则会严重高估模型性能。PhysioNet 2022 官方页面特别说明其训练/验证/测试采用 patient-wise 分层划分，这一点值得成为后续研究默认标准。</p>

<pre><code class="language-mermaid">flowchart LR
A[采集 PCG&lt;br/&gt;声学/电子听诊器/手机/可穿戴] --&gt; B[质量控制&lt;br/&gt;去尖峰 噪声检测 带通滤波]
B --&gt; C[标准化&lt;br/&gt;重采样 归一化 分帧]
C --&gt; D[分割&lt;br/&gt;S1 S2 心动周期 或免分割]
D --&gt; E[特征建模&lt;br/&gt;时域 频域 小波 时频 熵 MFCC 形态学]
E --&gt; F[分类/检测&lt;br/&gt;SVM RF HMM CNN CRNN ViT SSL]
F --&gt; G[评估&lt;br/&gt;AUC 敏感性 特异性 F1 MCC]
G --&gt; H[临床验证&lt;br/&gt;外部测试 前瞻性研究 监管合规]
</code></pre>

<h2 id="公开数据集与开源生态">公开数据集与开源生态</h2>

<p>公开数据集是心音研究的根基，但也是最容易被“平均准确率”掩盖的问题源。当前最常用数据集包括 PASCAL、PhysioNet/CinC 2016、CirCor DigiScope/PhysioNet 2022、EPHNOGRAM、HSCT-11 等。它们在疾病谱、采样率、是否提供 S1/S2 分割、是否有多听诊点、是否有超声心动图或临床结局金标准方面差异巨大，因此<strong>跨论文横向比较必须非常谨慎</strong>。</p>

<table>
  <thead>
    <tr>
      <th>数据集名</th>
      <th style="text-align: right">样本数</th>
      <th>标注类型</th>
      <th style="text-align: right">采样率</th>
      <th>可访问性</th>
      <th>代表性疾病</th>
      <th>引用</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>PASCAL Classifying Heart Sounds Challenge</td>
      <td style="text-align: right">656 条录音</td>
      <td>数据集 A：正常/杂音/额外心音/伪迹；数据集 B：正常/杂音/期前收缩；B 含部分人工 S1/S2 标注</td>
      <td style="text-align: right">4000 Hz</td>
      <td>公开下载</td>
      <td>杂音、额外心音、期前收缩</td>
      <td>[29][30]</td>
    </tr>
    <tr>
      <td>PhysioNet/CinC Challenge 2016</td>
      <td style="text-align: right">官方训练集 3126 条录音；后续文献常见统一处理版 2435 条</td>
      <td>正常/异常/不确定；并提供经算法+人工校正的分割注释</td>
      <td style="text-align: right">统一到 2000 Hz</td>
      <td>公开下载</td>
      <td>瓣膜病、冠心病相关异常等</td>
      <td>[6][7][8]</td>
    </tr>
    <tr>
      <td>CirCor DigiScope Dataset</td>
      <td style="text-align: right">1568 名受试者、5282 条录音；2022 挑战公开训练子集 942 人/3163 条</td>
      <td>杂音 present/absent/unknown；临床结局 normal/abnormal；多听诊点；杂音时相/形态/音高/分级；S1/S2 分割</td>
      <td style="text-align: right">4000 Hz</td>
      <td>公开下载</td>
      <td>儿科杂音、先天性/获得性心脏病筛查</td>
      <td>[26][27]</td>
    </tr>
    <tr>
      <td>EPHNOGRAM</td>
      <td style="text-align: right">24 名健康成人、69 条同步 ECG-PCG 记录</td>
      <td>同步 ECG/PCG、环境噪声辅助通道；适合多模态研究</td>
      <td style="text-align: right">8000 Hz</td>
      <td>公开下载</td>
      <td>健康/运动应激生理研究，不以疾病分类为主</td>
      <td>[31][32]</td>
    </tr>
    <tr>
      <td>HSCT-11</td>
      <td style="text-align: right">206 人、412 条录音</td>
      <td>主要用于生物识别；无系统疾病标签</td>
      <td style="text-align: right">11025 Hz</td>
      <td>公开可得</td>
      <td>非疾病导向，适合分割/识别方法学验证</td>
      <td>[33]</td>
    </tr>
    <tr>
      <td>DigiScope 儿科分割数据</td>
      <td style="text-align: right">29 名患儿、29 条录音</td>
      <td>两位心脏生理学家人工标注 S1/S2 起止</td>
      <td style="text-align: right">4000 Hz</td>
      <td>公开可得</td>
      <td>儿科心音分割</td>
      <td>[26]</td>
    </tr>
  </tbody>
</table>

<p>表一的数据主要综合自官方挑战页、CirCor 原始论文和 PhysioNet 数据页。需要特别说明的是，心音数据集常同时存在“完整数据库”“挑战公开训练子集”“后处理统一版本”三种计数口径；因此，文中若涉及样本数与论文略有差异，优先采用官方发布页或原始数据论文中最可追溯的口径。</p>

<p><strong>公开数据与代表性开源代码</strong></p>

<ul>
  <li>Springer 心音分割 MATLAB 代码：<code class="language-plaintext highlighter-rouge">https://github.com/davidspringer/Springer-Segmentation-Code</code></li>
  <li>PhysioNet 2022 官方 Python 示例：<code class="language-plaintext highlighter-rouge">https://github.com/physionetchallenges/python-classifier-2022</code></li>
  <li>SpectroHeart（2022 挑战相关深度模型）：<code class="language-plaintext highlighter-rouge">https://github.com/ikwak2/SpectroHeart</code></li>
  <li>Listen2YourHeart（自监督心音杂音检测）：<code class="language-plaintext highlighter-rouge">https://github.com/aristotelisballas/listen2yourheart</code></li>
  <li>2022 挑战另一开源实现：<code class="language-plaintext highlighter-rouge">https://github.com/DeepPSP/cinc2022</code></li>
  <li>心音分析综述型资源库：<code class="language-plaintext highlighter-rouge">https://github.com/zhaoren91/awesome-heart-sound-analysis</code></li>
</ul>

<h2 id="临床验证与应用场景">临床验证与应用场景</h2>

<p>从工程到临床，最重要的问题不是“模型在公开数据上能否达到 95%+”，而是“它在真实医院、真实患者、真实设备与超声金标准面前能否保持性能”。这方面，现有证据最扎实的应用仍集中在心脏杂音/瓣膜病筛查、儿科病理性杂音筛查，以及心衰的声学生物标志物监测。</p>

<p><strong>表二</strong>列出若干具有代表性的模型和研究，尽量覆盖公开基准、疾病专病、儿科场景与真实临床验证。</p>

<table>
  <thead>
    <tr>
      <th>方法</th>
      <th>特征/输入</th>
      <th>数据集</th>
      <th>性能指标</th>
      <th>优点</th>
      <th>局限</th>
      <th>引用</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Potes 2016：AdaBoost + CNN 集成</td>
      <td>124 个时频特征 + 四频带心动周期 CNN</td>
      <td>PhysioNet/CinC 2016</td>
      <td>盲测 Sens 0.9424，Spec 0.7781，总分 0.8602</td>
      <td>挑战冠军；混合特征与深度学习</td>
      <td>依赖分割；任务仅二分类</td>
      <td>[13]</td>
    </tr>
    <tr>
      <td>Li 2020：多域手工特征 + 轻量 CNN</td>
      <td>497 个特征，含时域/频域/熵等</td>
      <td>PhysioNet/CinC 2016</td>
      <td>5 折 CV：Acc 86.8%，Sen 87.0%，Spec 86.6%，MCC 72.1%</td>
      <td>可解释性较强；性能均衡</td>
      <td>特征工程负担重</td>
      <td>[12]</td>
    </tr>
    <tr>
      <td>Humayun 2020：可学习滤波器组 CNN</td>
      <td>tConv/FIR learnable filterbanks</td>
      <td>多域公开数据</td>
      <td>AUC 91.36%，F1 84.09%，Macc 85.08%</td>
      <td>直接针对跨传感器/域偏移</td>
      <td>仍以二分类为主</td>
      <td>[14]</td>
    </tr>
    <tr>
      <td>Bondareva 2021：segmentation-free</td>
      <td>小波去噪 + 降维 + SVM/DNN</td>
      <td>PASCAL</td>
      <td>Precision：正常 81%，杂音 96%；用户独立设置下 92%/86%</td>
      <td>降低错误分割影响</td>
      <td>数据集小；报告指标有限</td>
      <td>[15]</td>
    </tr>
    <tr>
      <td>Zhou 2024：频谱图像编码 + ViT</td>
      <td>GAF/MTF 频谱图 + Vision Transformer</td>
      <td>儿科三分类数据集</td>
      <td>AUC：正常 0.92±0.05、无害杂音 0.83±0.04、病理杂音 0.88±0.04</td>
      <td>任务更贴近儿科真实临床</td>
      <td>单中心；正常样本部分外源引入</td>
      <td>[43]</td>
    </tr>
    <tr>
      <td>Liu 2022：RCRnet</td>
      <td>残差卷积递归网络</td>
      <td>884 条左向右分流 CHD 儿科录音</td>
      <td>Sens 0.932–1.000，Spec 0.944–0.997，Acc 0.940–0.994</td>
      <td>专病性能高；优于经验听诊</td>
      <td>疾病范围窄；无法泛化到全部 CHD</td>
      <td>[45]</td>
    </tr>
    <tr>
      <td>Chorba 2021：临床杂音检测算法</td>
      <td>商业数字听诊平台 + 深度神经网络</td>
      <td>373 例临床研究</td>
      <td>杂音检测 Sens 76.3%，Spec 91.4%；去除 I/VI 级软杂音后 Sens 90.0%；AS Sens 97.5%，MR Sens 64.0%</td>
      <td>真实医院数据；与专家比较</td>
      <td>商业平台；并非所有瓣膜病都高敏感</td>
      <td>[40]</td>
    </tr>
    <tr>
      <td>Roquemen-Echeverri 2025：商用 AI 外部验证</td>
      <td>Eko 平台 PCG + ECHO 金标准</td>
      <td>1029 人、4081 条 PCG</td>
      <td>总体 VHD 检测 Sens 39.3%，Spec 82.3%；不同瓣膜病敏感性差异大</td>
      <td>真实外部验证，非常有价值</td>
      <td>揭示商品化模型泛化不足</td>
      <td>[42]</td>
    </tr>
  </tbody>
</table>

<p>表二有一个重要启示：<strong>算法性能必须放在任务定义和验证场景中解释</strong>。公开挑战上的高分，常代表“在特定数据分布下的筛查能力”；而临床外部验证往往更残酷，尤其当金标准从“人工听诊标签”升级为“超声心动图证实的病变”时，敏感性通常明显下降。</p>

<blockquote>
  <p>图示占位说明：<strong>图二</strong>可放置“主要算法性能对比图”，建议按统一任务重绘为分组柱状图或 forest plot；由于不同研究的任务定义、标签体系和测试集并不一致，不建议直接把跨数据集准确率画在同一轴上而不作说明。</p>
</blockquote>

<p>在心脏杂音与瓣膜病场景，Chorba 等基于商业数字听诊平台的研究显示，自动杂音检测总体敏感性 76.3%、特异性 91.4%；若排除最轻度的 I/VI 级杂音，敏感性可升至 90.0%。他们进一步报告，对中-重度及以上主动脉瓣狭窄的识别敏感性可达 97.5%，但对中-重度二尖瓣反流的敏感性仅 64.0%，提示不同病种的可检测性差异很大。更重要的是，2025 年外部验证研究在 1029 人、4081 条真实临床 PCG 上发现，商用平台对 VHD 的总体敏感性只有 39.3%，虽然特异性为 82.3%，但并不足以覆盖所有瓣膜病作为通用筛查工具。与此同时，系统综述也表明，单纯人工心脏听诊对瓣膜病的敏感性与特异性范围很宽，受经验影响极大，这正是 AI 可能最先补位的环节。</p>

<p>在儿科与先天性心脏病场景，AI 的价值更接近“减少不必要转诊并尽早识别病理性杂音”。Papunen 等以前瞻性儿科队列显示，在“确有可闻杂音”的儿童中，算法区分病理与无害杂音的敏感性为 83%，特异性为 97%；但研究同时强调，没有产生杂音的心脏缺陷本方法无法发现。Liu 等针对左向右分流 CHD 的 RCRnet 报告了 0.932–1.000 的敏感性范围和 0.944–0.997 的特异性范围，且优于经验听诊。Zhou 等则把儿科任务进一步细化为“正常—无害杂音—病理杂音”三分类，这比传统二分类更贴近真实门诊决策逻辑。</p>

<p>在心衰场景，心音并不一定用于“疾病确诊”，而更适合做<strong>动态监测的声学生物标志物</strong>。系统综述指出，S3 与 electromechanical activation time（EMAT）是报道最频繁、证据较强的心衰心音指标；相关文献显示它们与左室功能、失代偿风险和临床结局有关。另有研究和综述认为，将 S3/EMAT 与 BNP/NT-proBNP、ECG 或远程症状监测结合，可能比单独听诊更有实际价值。</p>

<p>总体来看，当前最具现实性的应用场景有三类：门诊/基层的病理性杂音转诊筛查，儿科病理性杂音和部分 CHD 的初筛，以及心衰患者的远程随访。真正替代超声、给出具体瓣膜定量严重程度或覆盖“无杂音病变”的终局诊断，现阶段证据仍不足。</p>

<h2 id="性能局限伦理法规与未来方向">性能、局限、伦理法规与未来方向</h2>

<p>如果只看公开基准，很多论文都能报出 90% 以上的准确率；但从综述与临床验证看，心音 AI 仍有几类结构性局限。第一，<strong>数据集异质</strong>：采样率、设备、听诊点、年龄结构、噪声背景、标签粒度差异大。第二，<strong>标签噪声</strong>：很多旧数据的“异常”只是录音级粗标签，并不知道具体病种；有些则用听诊意见而不是超声作为金标准。第三，<strong>划分不规范</strong>：如果把同一患者不同周期、不同听诊点甚至增强样本同时放到训练和测试中，会高估性能。第四，<strong>外部验证稀缺</strong>：真实世界研究一做，往往性能显著回落。第五，<strong>任务定义不一致</strong>：有的研究分“正常/异常”，有的分“杂音/无杂音”，有的分“病理/无害/正常”，还有的直接预测临床结局，指标无法简单横比。</p>

<p>伦理与法规层面，心音 AI 基本属于医疗器械软件（SaMD）或嵌入式软件功能的范畴。FDA 将 SaMD 定义为“用于一个或多个医疗目的、且不属于硬件医疗器械组成部分的软件”；围绕 AI 医疗器械，FDA 近年持续发布生命周期管理、PCCP、透明度和 GMLP 相关指导，并维护 AI-enabled medical devices 官方清单。对于心音 AI 这样的辅助诊断工具，这意味着研发者不仅要报告 ROC/AUC，更要说明训练数据治理、适用人群、性能漂移、更新机制、人机协作边界和上市后监测策略。</p>

<p>真实商业产品也提醒我们，不应把“获得监管许可”误读为“可替代医生诊断”。例如 Eko Murmur Analysis Software（EMAS）在 FDA 510(k) 文件中的定位是<strong>为临床医师评估心音提供决策支持</strong>，而不是唯一诊断手段；2025 年新一代 EFAST 批件也明确写到其解释结果“旨在支持而非替代临床判断”。同时，欧洲监管实践也越来越强调 AI Act 与 MDR/IVDR 的并行合规，要求高风险 AI 医疗器械在追溯、数据治理、透明度、人类监督和上市后监测方面形成闭环。</p>

<p>未来研究最值得推进的方向，我认为不是再堆一个网络层，而是做以下五件“临床会真正买账”的事情。其一，<strong>以患者为单位的数据治理和验证</strong>，强制 patient-wise split、外部中心验证、前瞻性注册研究。其二，<strong>以超声/临床结局为标签而不是仅用听诊意见</strong>，尤其是瓣膜病和 CHD。其三，<strong>多模态融合</strong>，把 PCG 与 ECG、人口学信息、症状问卷乃至可穿戴运动/呼吸信号结合；EPHNOGRAM 与带同步 ECG 的数字听诊器都为此提供了方向。其四，<strong>更强的鲁棒性与低资源落地</strong>，包括跨设备域适配、噪声建模、自监督学习和手机端/边缘端部署。其五，<strong>可解释性与人机协同</strong>，例如从“此录音异常”升级到“异常出现在收缩期、最可能位于肺动脉/二尖区、对某些病种敏感但不覆盖无杂音病变”的结构化输出。</p>

<p><strong>开放问题</strong></p>

<p>当前仍未解决的问题包括：如何建立大规模、跨年龄、跨设备、跨国家、以超声和长期结局为锚点的标准化 PCG 队列；如何让模型在“低质量录音”和“低频率少听诊点场景”中仍保持可靠；如何规范报告标签来源、听诊点策略、分割依赖程度与数据泄漏防控；以及如何把 AI 输出嵌入基层转诊流程，而不是仅停留在论文 benchmark。</p>

<p><strong>结论</strong></p>

<p>心音诊断并不是过时技术的“AI 翻新”，而是一个典型的临床信号学再发现过程。它最强的价值不在于替代超声，而在于以极低门槛把“有无异常、是否需要进一步检查”前移到基层、家庭和资源受限环境。过去十年，公开数据集、分割算法、特征工程与深度学习模型已经证明 PCG 可以被系统、稳定地分析；未来十年，决定其临床命运的将是数据标准、外部验证、合规与工作流程整合，而不是单一模型的 SOTA 分数。</p>

<h2 id="参考文献">参考文献</h2>

<ol>
  <li>Azmeen A, Mauer HP, Krishna Kumar R, et al. <em>Heart sounds: Past, present, and future from a technological and clinical perspective – a systematic review</em>. 2023. URL: <code class="language-plaintext highlighter-rouge">https://pubmed.ncbi.nlm.nih.gov/37139865/</code></li>
  <li>Clifford GD, Liu C, Moody B, et al. Recent advances in heart sound analysis. <em>Physiol Meas</em>. 2017;38(8):E10-E25. doi: 10.1088/1361-6579/aa7ec8</li>
  <li>Dornbush S, Wiener R. Physiology, Heart Sounds. <em>StatPearls</em>. 2023. URL: <code class="language-plaintext highlighter-rouge">https://www.ncbi.nlm.nih.gov/books/NBK541010/</code></li>
  <li>Thomas SL, Sharma S. Physiology, Cardiovascular Murmurs. <em>StatPearls</em>. 2023. URL: <code class="language-plaintext highlighter-rouge">https://www.ncbi.nlm.nih.gov/books/NBK525958/</code></li>
  <li>Liu C, Springer D, Li Q, et al. An open access database for the evaluation of heart sound algorithms. <em>Physiol Meas</em>. 2016;37(12):2181-2213. doi: 10.1088/0967-3334/37/12/2181</li>
  <li>PhysioNet/Computing in Cardiology Challenge 2016 official dataset page. URL: <code class="language-plaintext highlighter-rouge">https://physionet.org/content/challenge-2016/1.0.0/</code></li>
  <li>Springer DB, Tarassenko L, Clifford GD. Logistic Regression-HSMM-Based Heart Sound Segmentation. <em>IEEE Trans Biomed Eng</em>. 2016;63(4):822-832. doi: 10.1109/TBME.2015.2475278</li>
  <li>Oliveira J, Renna F, Mantadelis T, Coimbra M. Adaptive Sojourn Time HSMM for Heart Sound Segmentation. <em>IEEE J Biomed Health Inform</em>. 2019;23(2):642-649. doi: 10.1109/JBHI.2018.2841197</li>
  <li>Renna F, Oliveira J, Coimbra MT. Deep Convolutional Neural Networks for Heart Sound Segmentation. <em>IEEE J Biomed Health Inform</em>. 2019;23(6):2435-2445. doi: 10.1109/JBHI.2019.2894222</li>
  <li>Fernando T, Ghaemmaghami H, Denman S, et al. Heart Sound Segmentation Using Bidirectional LSTMs With Attention. <em>IEEE J Biomed Health Inform</em>. 2020;24(6):1601-1609. doi: 10.1109/JBHI.2019.2949516</li>
  <li>Messner E, Zöhrer M, Pernkopf F. Heart Sound Segmentation—An Event Detection Approach Using Deep Recurrent Neural Networks. <em>IEEE Trans Biomed Eng</em>. 2018;65(9):1964-1974. doi: 10.1109/TBME.2018.2843258</li>
  <li>Li F, Tang H, Shang S, et al. Classification of Heart Sounds Using Convolutional Neural Network. <em>Appl Sci</em>. 2020;10(11):3956. doi: 10.3390/app10113956</li>
  <li>Potes C, Parvaneh S, Rahman A, Conroy B. Ensemble of Feature-based and Deep Learning-based Classifiers for Detection of Abnormal Heart Sounds. <em>Comput Cardiol</em>. 2016. URL: <code class="language-plaintext highlighter-rouge">https://moody-challenge.physionet.org/2016/papers/potes.pdf</code></li>
  <li>Humayun AI, Ghaffarzadegan S, Ansari MI, Feng Z, Hasan T. Towards Domain Invariant Heart Sound Abnormality Detection Using Learnable Filterbanks. <em>IEEE J Biomed Health Inform</em>. 2020;24(8):2189-2198. doi: 10.1109/JBHI.2020.2970252</li>
  <li>Bondareva E, Han J, Bradlow W, Mascolo C. Segmentation-free Heart Pathology Detection Using Deep Learning. <em>Proc IEEE EMBC</em>. 2021. doi: 10.1109/EMBC46164.2021.9630203</li>
  <li>Chen J, Guo Z, Xu X, et al. A Robust Deep Learning Framework Based on Spectrograms for Heart Sound Classification. <em>IEEE/ACM Trans Comput Biol Bioinform</em>. 2024;21(4):936-947. doi: 10.1109/TCBB.2023.3247433</li>
  <li>Shuvo SB, Ali SN, Swapnil SI, Al-Rakhami MS, Gumaei A. CardioXNet: A Novel Lightweight Deep Learning Framework for Cardiovascular Disease Classification Using Heart Sound Recordings. <em>IEEE Access</em>. 2021;9:36955-36967. doi: 10.1109/ACCESS.2021.3063129</li>
  <li>Deng M, Meng T, Cao J, et al. Heart sound classification based on improved MFCC features and convolutional recurrent neural networks. <em>Neural Netw</em>. 2020;130:22-32. doi: 10.1016/j.neunet.2020.06.020</li>
  <li>Maknickas V, Maknickas A. Recognition of normal-abnormal phonocardiographic signals using deep convolutional neural networks and mel-frequency spectral coefficients. <em>Physiol Meas</em>. 2017;38(8):1671-1684. doi: 10.1088/1361-6579/aa7841</li>
  <li>Zhang W, Han J, Deng S. Abnormal heart sound detection using temporal quasi-periodic features and long short-term memory without segmentation. <em>Biomed Signal Process Control</em>. 2019;53:101560. doi: 10.1016/j.bspc.2019.101560</li>
  <li>Xiao B, Xu Y, Bi X, et al. Heart sounds classification using a novel 1-D convolutional neural network with extremely low parameter consumption. <em>Neurocomputing</em>. 2020;392:153-159. doi: 10.1016/j.neucom.2018.09.101</li>
  <li>Chen W, Sun Q, Chen X, et al. Deep learning methods for heart sounds classification: A systematic review. <em>Entropy</em>. 2021;23(6):667. doi: 10.3390/e23060667</li>
  <li>Partovi E, Babic A, Gharehbaghi A. A review on deep learning methods for heart sound signal analysis. <em>Front Artif Intell</em>. 2024;7:1434022. doi: 10.3389/frai.2024.1434022</li>
  <li>Ren Z, Chang Y, Nguyen TT, et al. A Comprehensive Survey on Heart Sound Analysis in the Deep Learning Era. <em>IEEE Comput Intell Mag</em>. 2024;19(3):42-57. doi: 10.1109/MCI.2024.3401309</li>
  <li>Ameen A, Abbas S, Hassan M, et al. Advances in ECG and PCG-based cardiovascular disease classification: a review of deep learning and machine learning methods. <em>J Big Data</em>. 2024. doi: 10.1186/s40537-024-01011-7</li>
  <li>Oliveira JH, Renna F, Nogueira M, et al. The CirCor DigiScope Dataset: From Murmur Detection to Murmur Classification. <em>IEEE J Biomed Health Inform</em>. 2022. doi: 10.1109/JBHI.2021.3137048</li>
  <li>PhysioNet Challenge 2022 official dataset page. URL: <code class="language-plaintext highlighter-rouge">https://physionet.org/content/challenge-2022/1.0.0/</code></li>
  <li>Reyna MA, Elola A, Oliveira JH, et al. Heart murmur detection from phonocardiogram recordings. 2023. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC10495026/</code></li>
  <li>PASCAL Classifying Heart Sounds Challenge official page. URL: <code class="language-plaintext highlighter-rouge">https://www.peterjbentley.com/heartchallenge/</code></li>
  <li>Gomes EF, Bentley PJ, Coimbra M, Pereira E, Deng Y. Classifying Heart Sounds: Approaches to the PASCAL Challenge. <em>HEALTHINF 2013</em>. doi: 10.5220/0004234403370340</li>
  <li>EPHNOGRAM dataset official PhysioNet page. URL: <code class="language-plaintext highlighter-rouge">https://physionet.org/content/ephnogram/</code></li>
  <li>Kazemnejad A, Rivet B, Sameni R. An Open-Access Simultaneous Electrocardiogram and Phonocardiogram Database. 2024. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC12931432/</code></li>
  <li>Spadaccini A, Beritelli F. Performance evaluation of heart sounds biometric systems on an open dataset. <em>18th International Conference on Digital Signal Processing</em>. 2013. URL: <code class="language-plaintext highlighter-rouge">https://www.diit.unict.it/hsct11/index.php?dir=&amp;file=Performance+Evaluation+of+Heart+Sounds+Biometric+Systems+on+an+Open+Dataset.pdf</code></li>
  <li>Seah JJ, Jih XJ, Ching KS, et al. Review on the Advancements of Stethoscope Types in Chest Auscultation. <em>Cureus</em>. 2023. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC10177339/</code></li>
  <li>Ahmad RS, et al. Advancements in wearable heart sounds devices for the early diagnosis and monitoring of heart disease. <em>Smart Med</em>. 2025. doi: 10.1002/smm2.1311</li>
  <li>Roh KM, et al. Advances in Wearable Stethoscope Technology: Opportunities for the Early Detection and Prevention of Cardiovascular Diseases. <em>Cureus</em>. 2024. URL: <code class="language-plaintext highlighter-rouge">https://www.cureus.com/articles/318286-advances-in-wearable-stethoscope-technology-opportunities-for-the-early-detection-and-prevention-of-cardiovascular-diseases.pdf</code></li>
  <li>Luo H, et al. Smartphone as an electronic stethoscope: factors influencing heart sound quality. <em>Eur Heart J Digit Health</em>. 2022. URL: <code class="language-plaintext highlighter-rouge">https://academic.oup.com/ehjdh/article/3/3/473/6675713</code></li>
  <li>Li Y, et al. Smartphone for heart sound measurement in hospital. 2025. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC12088729/</code></li>
  <li>Palm D, et al. Artificial Neural Network Analysis of Heart Sounds Captured From an Acoustic Stethoscope and Emailed Using iStethoscopePro. <em>J Med Devices</em>. 2010;4(2):027531. doi: 10.1115/1.4001715</li>
  <li>Chorba JS, Shapiro AM, Le L, et al. Deep Learning Algorithm for Automated Cardiac Murmur Detection Via a Digital Stethoscope Platform. <em>J Am Heart Assoc</em>. 2021;10:e019905. doi: 10.1161/JAHA.120.019905</li>
  <li>Prince J, Shalen EF, Jacobs PG, et al. Deep Learning Algorithms to Detect Murmurs Associated With Clinically Significant Valvular Heart Disease. <em>J Am Heart Assoc</em>. 2023. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC10757522/</code></li>
  <li>Roquemen-Echeverri V, Jacobs PG, Shalen EF, et al. External evaluation of a commercial artificial intelligence-augmented digital auscultation platform in valvular heart disease detection using echocardiography as reference standard. <em>Int J Cardiol</em>. 2025;419:132653. doi: 10.1016/j.ijcard.2024.132653</li>
  <li>Zhou G, Chien C, Chen J, et al. Identifying pediatric heart murmurs and distinguishing innocent from pathologic using deep learning. <em>Artif Intell Med</em>. 2024;153:102867. doi: 10.1016/j.artmed.2024.102867</li>
  <li>Papunen I, Ylänen K, Lundqvist O, et al. Automated analysis of heart sound signals in screening for structural heart disease in children. <em>Eur J Pediatr</em>. 2024;183:4951-4958. doi: 10.1007/s00431-024-05773-3</li>
  <li>Liu J, Wang H, Yang Z, et al. Deep learning-based computer-aided heart sound analysis in children with left-to-right shunt congenital heart disease. <em>Int J Cardiol</em>. 2022;348:58-64. doi: 10.1016/j.ijcard.2021.12.012</li>
  <li>Davidsen AH, Andersen A, et al. Diagnostic accuracy of heart auscultation for detecting valve disease: a systematic review. <em>BMJ Open</em>. 2023;13:e068121. doi: 10.1136/bmjopen-2022-068121</li>
  <li>Butler J, et al. The role of cardiac acoustic biomarkers in monitoring patients with heart failure: a systematic literature review. <em>ESC Heart Fail</em>. 2025. doi: 10.1002/ehf2.15075</li>
  <li>Dao L, et al. A systematic review and meta-analysis comparing the ability of S3 heart sound and LVEF to diagnose heart failure. <em>Front Cardiovasc Med</em>. 2022. doi: 10.3389/fcvm.2022.918051</li>
  <li>Sung SH, et al. Effect of Acoustic Cardiography-guided Management on 1-Year Outcomes in Patients With Acute Heart Failure. <em>J Card Fail</em>. 2020. URL: <code class="language-plaintext highlighter-rouge">https://www.sciencedirect.com/science/article/abs/pii/S1071916419301927</code></li>
  <li>Wang S, et al. Acoustic cardiography helps to identify heart failure and its phenotypes. <em>Int J Cardiol</em>. 2013;167:681-686. doi: 10.1016/j.ijcard.2012.03.067</li>
  <li>Yang Y, Guo X, Wang H, Zheng YN. Deep learning-based heart sound analysis for left ventricular diastolic dysfunction diagnosis. <em>Diagnostics</em>. 2021;11(12):2349. doi: 10.3390/diagnostics11122349</li>
  <li>U.S. FDA. Artificial Intelligence-Enabled Medical Devices. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-enabled-medical-devices</code></li>
  <li>U.S. FDA. Software as a Medical Device. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/medical-devices/digital-health-center-excellence/software-medical-device-samd</code></li>
  <li>U.S. FDA. Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-software-medical-device</code></li>
  <li>U.S. FDA. Predetermined Change Control Plan for Artificial Intelligence-Enabled Device Software Functions. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/regulatory-information/search-fda-guidance-documents/marketing-submission-recommendations-predetermined-change-control-plan-artificial-intelligence</code></li>
  <li>U.S. FDA. Transparency for Machine Learning-Enabled Medical Devices: Guiding Principles. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/medical-devices/software-medical-device-samd/transparency-machine-learning-enabled-medical-devices-guiding-principles</code></li>
  <li>U.S. FDA. Good Machine Learning Practice for Medical Device Development: Guiding Principles. URL: <code class="language-plaintext highlighter-rouge">https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles</code></li>
  <li>U.S. FDA. K213794 510(k): Eko Murmur Analysis Software (EMAS). URL: <code class="language-plaintext highlighter-rouge">https://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfpmn/pmn.cfm?ID=K213794</code></li>
  <li>U.S. FDA. K251494 510(k): Eko Foundation Analysis Software with Transformers (EFAST). URL: <code class="language-plaintext highlighter-rouge">https://www.accessdata.fda.gov/cdrh_docs/pdf25/K251494.pdf</code></li>
  <li>European Commission MDCG 2025-6. Interplay between the Medical Devices Regulation and the Artificial Intelligence Act. URL: <code class="language-plaintext highlighter-rouge">https://health.ec.europa.eu/document/download/b78a17d7-e3cd-4943-851d-e02a2f22bbb4_en?filename=mdcg_2025-6_en.pdf</code></li>
  <li>ESC/EACTS. 2025 ESC/EACTS Guidelines for the management of valvular heart disease. URL: <code class="language-plaintext highlighter-rouge">https://www.escardio.org/guidelines/clinical-practice-guidelines/all-esc-practice-guidelines/valvular-heart-disease/</code></li>
  <li>ESC. 2020 ESC Guidelines for the management of Adult Congenital Heart Disease. URL: <code class="language-plaintext highlighter-rouge">https://www.escardio.org/guidelines/clinical-practice-guidelines/all-esc-practice-guidelines/adult-congenital-heart-disease/</code></li>
  <li>PhysioNet Challenges. Python example classifier for the PhysioNet Challenge 2022. URL: <code class="language-plaintext highlighter-rouge">https://github.com/physionetchallenges/python-classifier-2022</code></li>
  <li>Springer D. Springer-Segmentation-Code. URL: <code class="language-plaintext highlighter-rouge">https://github.com/davidspringer/Springer-Segmentation-Code</code></li>
  <li>Ballas A, Papapanagiotou V, Delopoulos A, Diou C. Listen2YourHeart: A Self-Supervised Approach for Detecting Murmur in Heart-Beat Sounds. <em>arXiv</em>. 2022. URL: <code class="language-plaintext highlighter-rouge">https://arxiv.org/abs/2208.14845</code></li>
  <li>Kwak I, et al. SpectroHeart: A Deep Neural Network Approach to Heart Murmur Detection Using Spectrogram and Peak Interval Features. URL: <code class="language-plaintext highlighter-rouge">https://github.com/ikwak2/SpectroHeart</code></li>
  <li>DeepPSP. cinc2022: Heart Murmur Detection from Phonocardiogram Recordings. URL: <code class="language-plaintext highlighter-rouge">https://github.com/DeepPSP/cinc2022</code></li>
  <li>Ren Z, et al. awesome-heart-sound-analysis. URL: <code class="language-plaintext highlighter-rouge">https://github.com/zhaoren91/awesome-heart-sound-analysis</code></li>
  <li>Noman FM, Salleh SH, Ting CM, et al. A Markov-switching model approach to heart sound segmentation and classification. <em>IEEE J Biomed Health Inform</em>. 2020;24(3):705-716. doi: 10.1109/JBHI.2019.2925036</li>
  <li>Papadaniil CD, Hadjileontiadis LJ. Efficient heart sound segmentation and extraction using ensemble empirical mode decomposition and kurtosis features. <em>IEEE J Biomed Health Inform</em>. 2014;18(4):1138-1152. doi: 10.1109/JBHI.2013.2294399</li>
  <li>Kui H, Chen J, et al. Heart sound classification based on log Mel-frequency spectral coefficients and hidden Markov model. <em>Biomed Signal Process Control</em>. 2021. URL: <code class="language-plaintext highlighter-rouge">https://www.sciencedirect.com/science/article/abs/pii/S1746809421004900</code></li>
  <li>Guven M, et al. Long Short-Term Feature Extraction from Heart Sound Data. <em>Sensors</em>. 2023;23(13):5835. doi: 10.3390/s23135835</li>
  <li>Moukadem A, Dieterlen A, Brandt C, et al. A robust heart sounds segmentation module based on S-transform and Shannon energy. <em>Biomed Signal Process Control</em>. 2015. URL: <code class="language-plaintext highlighter-rouge">https://pmc.ncbi.nlm.nih.gov/articles/PMC4450340/</code></li>
  <li>Ogawa S, et al. AI diagnosis of heart sounds differentiated with super-normal hearing. <em>J Cardiol</em>. 2024. URL: <code class="language-plaintext highlighter-rouge">https://www.journal-of-cardiology.com/article/S0914-5087(23)00229-0/fulltext</code></li>
  <li>Zhou Z, Xie K, et al. Automatic Diagnosis of Left Valvular Heart Disease Based on Artificial Intelligence Stethoscope. <em>JACC Adv</em>. 2025;4(11):101993. doi: 10.1016/j.jacadv.2025.101993</li>
  <li>Abdullah Jabbar A, et al. Congenital Heart Disease Classification Using Phonocardiograms: A Scalable Screening Tool for Diverse Environments. <em>arXiv</em>. 2025. URL: <code class="language-plaintext highlighter-rouge">https://arxiv.org/abs/2503.22773</code></li>
</ol>]]></content><author><name>Chenyang Xu</name><email>xcy@ieee.org</email></author><category term="medical-ai" /><category term="heart sound" /><category term="phonocardiogram" /><category term="deep learning" /><category term="clinical validation" /><category term="digital stethoscope" /><summary type="html"><![CDATA[系统综述心音诊断的生理基础、PCG 采集与预处理、公开数据集、深度学习方法、临床验证和监管合规。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://xcy1010.github.io/images/bibm.png" /><media:content medium="image" url="https://xcy1010.github.io/images/bibm.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">心音诊断：从听诊器到智能心脏听诊</title><link href="https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-from-auscultation-to-ai/" rel="alternate" type="text/html" title="心音诊断：从听诊器到智能心脏听诊" /><published>2026-05-25T21:00:00+08:00</published><updated>2026-05-25T21:00:00+08:00</updated><id>https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-from-auscultation-to-ai</id><content type="html" xml:base="https://xcy1010.github.io/medical-ai/heart-sound-diagnosis-from-auscultation-to-ai/"><![CDATA[<p>心音诊断看似古老，却一直是心血管筛查中最有生命力的入口之一。医生把听诊器放在胸前，听到的不是抽象的“声音”，而是瓣膜关闭、血流加速、心室充盈、结构异常共同投射出的机械信号。随着电子听诊器、心音图（phonocardiogram, PCG）和深度学习的发展，心音正在从主观听觉经验变成可记录、可分析、可复核的数字生理信号。</p>

<p>这篇文章不是医疗建议，而是一份面向研究和工程实现的整理：心音诊断到底在听什么，算法又应该学什么。</p>

<h2 id="1-心音首先是时间结构">1. 心音首先是时间结构</h2>

<p>最基础的心音是第一心音 S1 和第二心音 S2。S1 通常对应二尖瓣和三尖瓣关闭，标志着心室收缩期开始；S2 通常对应主动脉瓣和肺动脉瓣关闭，标志着收缩期结束、舒张期开始。对于心音算法而言，识别 S1/S2 并不只是一个预处理步骤，而是后续诊断推理的坐标系。</p>

<p>一个完整心动周期可以粗略拆成：</p>

<ul>
  <li>S1：房室瓣关闭，收缩期开始。</li>
  <li>Systole：心室射血阶段，许多收缩期杂音出现在这里。</li>
  <li>S2：半月瓣关闭，舒张期开始。</li>
  <li>Diastole：心室充盈阶段，舒张期杂音往往更需要警惕。</li>
</ul>

<p>临床听诊强调“杂音发生在 S1 和 S2 的哪个相对位置”。算法也一样：如果模型只把心音当成普通音频分类，很容易学到设备噪声、背景差异或采集域偏差；如果模型先理解心动周期，再分析每个阶段的能量、频谱和形态，结果通常更可解释。</p>

<h2 id="2-杂音不是一个标签而是一组线索">2. 杂音不是一个标签，而是一组线索</h2>

<p>心脏杂音本质上多与湍流血流有关。它可能是无害的生理性杂音，也可能提示瓣膜狭窄、关闭不全、先天性心脏病或其他结构性问题。判断一个杂音，通常不会只看“有没有”，还会结合：</p>

<ul>
  <li>时相：收缩期、舒张期或连续性。</li>
  <li>强度：是否响亮，是否伴随震颤。</li>
  <li>位置：在主动脉瓣区、肺动脉瓣区、三尖瓣区、二尖瓣区等位置的表现。</li>
  <li>传导：声音是否向颈部、腋下或背部传导。</li>
  <li>音调与形态：粗糙、吹风样、递增递减、全收缩期等。</li>
  <li>动态变化：体位、呼吸、Valsalva 动作后是否变化。</li>
</ul>

<p>这也解释了为什么心音 AI 不能简单替代临床诊断。心音信号能提供重要证据，但最终判断还要结合症状、体征、心电图、超声心动图和病史。好的模型应当输出“异常风险、可疑时相、信号质量和建议复查”，而不是给出过度确定的单点结论。</p>

<h2 id="3-pcg-信号处理的典型流程">3. PCG 信号处理的典型流程</h2>

<p>把心音变成算法输入，一般会经历几个环节。</p>

<p>第一步是采集与质控。真实心音常常很脏：衣物摩擦、说话、环境噪声、呼吸音、传感器接触不稳都会混进来。对移动端或基层筛查场景而言，信号质量评估甚至和分类模型同等重要。</p>

<p>第二步是预处理。常见做法包括重采样、带通滤波、归一化、去尖峰和片段裁剪。心音主要能量集中在较低频段，但病理杂音可能带有更复杂的频谱结构，因此滤波不能只追求“听起来干净”，还要避免抹掉诊断信息。</p>

<p>第三步是心动周期分割。传统方法会使用包络、隐马尔可夫模型或生理先验来定位 S1/S2；深度学习方法则可以用序列模型直接学习状态边界。分割的好处是把长录音拆成多个可比较的心动周期，减少心率差异带来的影响。</p>

<p>第四步是特征与建模。早期系统常用 MFCC、能量包络、频谱熵、小波特征等手工特征；现在更多模型会使用时频图、1D 卷积、Transformer、状态空间模型或多实例学习。对于短时、噪声、多设备的数据，模型的泛化能力往往比训练集精度更重要。</p>

<h2 id="4-ai-心音诊断真正难在哪里">4. AI 心音诊断真正难在哪里</h2>

<p>心音分类看起来是一个二分类问题：normal or abnormal。但真实难点远不止分类器本身。</p>

<p>一是数据域差异。不同听诊器、采样率、采集位置、人群年龄、医院流程都会改变信号分布。一个模型在公开数据上表现很好，并不保证能直接迁移到新的设备和新的临床场景。</p>

<p>二是标签粒度不足。很多公开数据只给 normal/abnormal 标签，但异常背后的病因并不相同。把主动脉瓣狭窄、二尖瓣反流、先心病和噪声伪影都压缩成 abnormal，会限制模型学习更细的医学结构。</p>

<p>三是可解释性需求高。医生通常不只想知道“异常概率 0.87”，还想知道模型依据的是哪一段心动周期、哪类频率模式、是否可能是采集噪声。可视化时频热图、周期级证据、S1/S2 对齐后的异常片段，都会提高模型的可信度。</p>

<p>四是筛查和诊断的目标不同。基层筛查系统更重视敏感性和可复查机制，宁愿把可疑病例转诊；专科辅助诊断则要求更细粒度、更高特异性，并且需要和超声、心电、病史等多模态信息对齐。</p>

<h2 id="5-一个更可靠的心音智能系统应具备什么">5. 一个更可靠的心音智能系统应具备什么</h2>

<p>我认为实用的心音 AI 系统至少应包含五个模块：</p>

<ol>
  <li>采集引导：告诉用户听诊位置、接触质量和录音时长是否合格。</li>
  <li>信号质控：识别环境噪声、摩擦噪声、过低音量和非心音片段。</li>
  <li>周期分割：定位 S1/S2，形成心动周期级分析单元。</li>
  <li>异常筛查：输出整体异常风险，并尽量区分收缩期、舒张期或连续性异常。</li>
  <li>解释与建议：展示关键片段、置信度、复查建议和“不能替代医生诊断”的边界。</li>
</ol>

<p>如果进一步走向研究前沿，心音还可以和 ECG、超声、临床文本、生命体征联合建模。心音提供机械活动，ECG 提供电活动，超声提供结构和血流影像。多模态融合的价值不在于堆更多数据，而在于让不同模态互相约束，减少单一信号的误判。</p>

<h2 id="6-写在最后">6. 写在最后</h2>

<p>心音诊断的魅力在于它足够轻量，却连接着复杂的心脏生理。听诊器时代依赖经验，PCG 时代强调信号，AI 时代则需要把经验、信号和临床工作流重新合在一起。真正有价值的模型，不只是跑出一个漂亮的准确率，而是能在噪声、设备差异和临床不确定性中，稳定地帮助医生发现需要进一步检查的人。</p>

<p>心音不是答案本身，但它常常是一个很好的问题开端。</p>

<blockquote>
  <p>免责声明：本文仅用于科研与工程学习，不构成医学诊断或治疗建议。若存在胸痛、气促、晕厥、心悸或医生提示心脏杂音等情况，应及时咨询专业医生并按需进行超声心动图等检查。</p>
</blockquote>

<h2 id="参考资料">参考资料</h2>

<ul>
  <li><a href="https://www.ncbi.nlm.nih.gov/books/NBK541010/">Physiology, Heart Sounds - StatPearls, NCBI Bookshelf</a></li>
  <li><a href="https://www.ncbi.nlm.nih.gov/sites/books/NBK553078/">Cardiac Exam - StatPearls, NCBI Bookshelf</a></li>
  <li><a href="https://www.heart.org/en/health-topics/heart-murmurs">Heart Murmurs - American Heart Association</a></li>
  <li><a href="https://www.heart.org/en/health-topics/heart-valve-problems-and-disease/getting-an-accurate-heart-valve-diagnosis">Getting an Accurate Heart Valve Diagnosis - American Heart Association</a></li>
  <li><a href="https://physionet.org/content/challenge-2016/">Classification of Heart Sound Recordings: PhysioNet/CinC Challenge 2016</a></li>
</ul>]]></content><author><name>Chenyang Xu</name><email>xcy@ieee.org</email></author><category term="medical-ai" /><category term="heart sound" /><category term="phonocardiogram" /><category term="cardiac diagnosis" /><category term="medical AI" /><summary type="html"><![CDATA[心音记录是理解心脏机械活动的一扇窗口。本文从 S1/S2、杂音、PCG 信号处理到 AI 辅助诊断，梳理心音诊断的基本逻辑与研究挑战。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://xcy1010.github.io/images/bibm.png" /><media:content medium="image" url="https://xcy1010.github.io/images/bibm.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">Welcome to My Blog</title><link href="https://xcy1010.github.io/jekyll/update/welcome-to-my-blog/" rel="alternate" type="text/html" title="Welcome to My Blog" /><published>2024-01-01T10:00:00+08:00</published><updated>2024-01-01T10:00:00+08:00</updated><id>https://xcy1010.github.io/jekyll/update/welcome-to-my-blog</id><content type="html" xml:base="https://xcy1010.github.io/jekyll/update/welcome-to-my-blog/"><![CDATA[<p>Welcome to my new blog! This will be a place where I share my learning notes and thoughts.</p>

<p>You can upload new markdown documents to the <code class="language-plaintext highlighter-rouge">_posts</code> folder to automatically publish them here. The format of the file name should be <code class="language-plaintext highlighter-rouge">YYYY-MM-DD-title-of-your-post.md</code>.</p>

<p>Make sure to include the following front matter at the top of your markdown file:</p>

<div class="language-yaml highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="nn">---</span>
<span class="na">title</span><span class="pi">:</span>  <span class="s2">"</span><span class="s">Your</span><span class="nv"> </span><span class="s">Post</span><span class="nv"> </span><span class="s">Title"</span>
<span class="na">date</span><span class="pi">:</span>   <span class="s">YYYY-MM-DD HH:MM:SS +0800</span>
<span class="na">categories</span><span class="pi">:</span> <span class="s">notes</span>
<span class="na">tags</span><span class="pi">:</span>
  <span class="pi">-</span> <span class="s">research</span>
<span class="na">image</span><span class="pi">:</span> <span class="s">images/your-post-image.png</span>
<span class="na">excerpt</span><span class="pi">:</span> <span class="s2">"</span><span class="s">A</span><span class="nv"> </span><span class="s">short</span><span class="nv"> </span><span class="s">summary</span><span class="nv"> </span><span class="s">of</span><span class="nv"> </span><span class="s">your</span><span class="nv"> </span><span class="s">post."</span>
<span class="nn">---</span>
</code></pre></div></div>]]></content><author><name>Chenyang Xu</name><email>xcy@ieee.org</email></author><category term="jekyll" /><category term="update" /><category term="jekyll" /><category term="notes" /><summary type="html"><![CDATA[This is a sample post to demonstrate the new blog layout. You can add an image and an excerpt to each post's front matter.]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://xcy1010.github.io/images/500x300.png" /><media:content medium="image" url="https://xcy1010.github.io/images/500x300.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry></feed>