本工具是一款专业的 说话人信息引导音频对抗攻击研究助手, 支持 语音识别系统 (ASR) 声纹验证 (SV) 语音唤醒 (KWS) 等多场景的对抗样本分析。 利用说话人嵌入信息引导梯度优化,生成具有高 隐蔽性 与 攻击成功率 的音频扰动。
利用特定说话人的声纹特征作为先验信息,引导对抗扰动的生成方向,确保扰动在听觉上难以察觉。
通过优化算法(如PGD或遗传算法变种),在满足信噪比(SNR)约束的同时,最大化攻击成功率。
生成的扰动经过严格的听觉掩蔽测试,在保证攻击效果的前提下,最大程度降低对音质的影响。
目前主要针对主流的深度神经网络(DNN)架构,包括ResNet、LSTM及Transformer类语音模型。