解码音频中的编码识别外文翻译资料

 2022-04-08 10:04

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


解码音频中的编码识别

Dragoş Drăghicescu1*, Gheorghe Pop2, Corneliu Burileanu1

1Speech and Dialogue (SpeeD) Laboratory, Faculty of Electronics, Telecommunications and IT, University “Politehnica” of Bucharest, Romania

2National Institute of Forensic Expertise, Bucharest, Romania

*Corresponding author (E-mail: dragosdraghicescu@gmail.com)

摘 要

在远程采集测试样本时,识别或验证未压缩格式的音频记录的编码在许多领域中是有用的,从音频真实性评估、法医学、优化生物识别说话人识别系统的使用。在没有噪声的情况下,本文提出了一种与未压缩音频一起使用的信道识别算法。我们考虑了高斯混合模型(GMM)的学习能力,并注意到由传输信道诱导到语音信号中的最小变化可以用于进行信道识别决策。据我们所知,这是第一个完整的方法来检测自适应多速率(AMR),宽带AMR(AMR -WB)和G.729编解码器在未压缩音频,虽然这是一些最常用的编解码器在全球移动电话系统(GSM)和语音互联网协议。

关键词:信道识别;GMM-UBM,AMR,AMR -WB,G.729,编解码检测,音频真实性

Abstract

Identifying or verifying the coding of an audio recording in uncompressed format may be useful in many fields, from audio authenticity assessment, in forensic science, to optimizing the use of biometric speaker recognition systems, when the test samples are collected remotely.

In this paper, a channel recognition algorithm is presented for use with uncompressed audio, in the absence of noise. We considered the learning capabilities of Gaussian mixture models (GMM) and noticed the slightest variations induced by the transmission channel into the speech signal can be used to make channel recognition decisions.

To the best of our knowledge, this is the first holistic approach of detecting adaptive multi-rate (AMR), wide band AMR (AMR- WB) and G.729 codecs in an uncompressed audio, although these are some of the most used codecs in global systems for mobile telephony (GSM) and voice over Internet protocol .

Keywords:channel recognition; GMM-UBM; AMR; AMR- WB; G.729; codec detection, audio authenticity.

一 介绍

Claude Shannon在40年代后期描述的信息系统理论告诉我们,为了交换信噪比(SNR)的带宽,必须考虑原始消息的统计结构以及信号的最终目的地。结果,在这样的通信中涉及数字语音信号的任何信道对信号的声学参数产生影响,因此它们必须以某种方式反映。

司法和数字信号技术的知识要求司法机构了解这些证据及其强度。在一个科学的音频真实性的方法,现在几乎普遍引入法医分析,负测试是所有重要的。测试作为真实性的确认因其逻辑不足而严重受损。

鉴于法律对音频证明不真实的使用没有任何意义,它的后续检查都没有意义。在未压缩格式的恢复音频的真实性,必须在各个方面进行验证,从其与已知或有关记录过程的一致性来确定说话人的身份。

为了实现对某些赝品的早期检测以及有助于优化使用某个语音或说话人识别系统,必须检查未压缩记录的起源。当信道行为损坏信号,以致在接收端错误不可恢复时,底层语音信号不能逃脱修改,并且这种修改对短语含义的影响可能对证据的可用性至关重要。这意味着检查被质疑的音频的历史,以及检测通过其他渠道的部分,而不是被指控的。

如前所述,为了有效的通信,首先必须通过编码源来减少语音部分的冗余性和不相关性,然后进行信道编码,这可以包括纠错实现。为了揭示和比较编解码器的具体特征,而不是典型的特征,我们提出的过程使用编解码器识别GMM的范式与通用背景模型(GMM-UBM)。这允许使用易于获得的用于说话人识别的手段。

本文解决了在解码音频中的源编码阶段中使用的编解码器的识别问题,推测是从移动电话会话中恢复的。使用编解码器如AMR、AMR WB(AS ITU-T G.722.2)和G.729分别模拟了信道对语音的影响。

二 现状

关于丢失样本、静音、信号下降、不正常的哔哔声或静默的数据包的检测已经发表了几项研究。为了评估对音频样本施加的任何压缩的影响,部署了音频质量度量以及一组可用于甚至检测压缩的实际比特率的统计。这些措施主要用于通过量化由编码引起的失真来诊断在电信或便携设备中先前压缩的音频中的质量问题。音频记录的MPEG层3(MP3)源分析,以检测他们可能的篡改,表明即使是无处不在的音频编辑软件所做的干预也不能总是逃脱MP3编码帧的排序方案。他们研究了修改后的离散余弦变换(MDCT)的自然和篡改信号的活动系数(NAC)的数目,这是寻找帧偏移的基础,从而用于音频伪造检测。

压缩历史的检测是在MP3和Windows媒体音频(WMA)源音频文件上进行的,通过分析音频的离散余弦变换(DCT)系数的统计。他们的目的是确定记录是否是原始的未压缩文件或特定压缩率的解压缩MP3,报告的准确率为98.46%。不仅压缩编解码器,而且移动电话的品牌和型号都有相关研究。Mel频率倒谱系数(MFCC)和它们的第一和第二阶导数,用于任务的技术,如支持向量机(SVM)和矢量量化(VQ)。

三 系统描述

在这项研究中,我们使用的技术,通常发现在说话人识别系统,并应用到录音上的语音编码的基础上,而不是说话人身份的基础。使用生成学习模型的中心思想是从每个记录中提取特征,并将它们训练在高斯模型的加权和的混合模型中,以考虑不代表平均向量和多维方差的解码伪影。

使用生成学习模型的中心思想是从每个记录中提取特征,并将它们训练在高斯模型的加权和的混合模型中,以考虑不代表平均向量和多维方差的解码伪影:

(1)

其中t是时间,x(t)是语音信号,c(t)是所有编码和解码效果都集中的函数,而n(t)是噪声函数。

给定来自说话者j的T帧话音,并且考虑到D维向量,话音可以表示为,1lt;tlt;T,其中是特征向量。在处理多维变化时,D变量概率分布是:

(2)

其中是均值向量,是协方差矩阵。一个完整高斯混合分布是: (3)

其中是总和为一的混合权重。可以将此混合模型描述为 (4)

我们选择使用高斯混合模型(GMM)这样一个通用的背景模型。因为他的理论能反应所有的特征。

在法医学方法中,双方的假设,从检察官H0,和H1防御,评估由证据来源的可能性被指控编解码器和其他任何。这导致了特定的公式为所陈述的假设,因此H0成为“质疑的信号遵循所谓的编解码器模型”,并且H1成为“被质疑的信号来自任何其他编解码器”,这是通过使用UBM作为通用编解码器模型来实现的。

从统计的角度来看,我们学习如何调整我们目前的赔率,通过应用贝叶斯规则的假设检验,也就是通过先验概率乘以似然比(LR)。我们通常取这个量的对数,用LLR表示。一般来说,E给出的H0的可能性在分子中,而E给出的H1的可能性在分母处。LLR表示当包括从考试推断出的知识时知识量将发生什么,并且数学上表示为:

(5)

识别测试被分类为“目标”,如果通过同一编解码器的模型对某一文件处理的文件进行测试,并且如果通过编解码器处理文件并对不同的对象进行测试,则“非目标”。在所定义的类上评估的测试结果的统计允许用户定义足够的阈值,从而达到提出的目标。

对识别结果的通常分析产生检测误差折衷(DET)曲线,这显示假阴性率作为假阳性率的函数。认知系统可能会在DET任何点运作,它对应于一个特定的决策阈值。由于对数是单调的,LLR比LR更适合直接解释,使得前一个正阈值的对数。然后将对数似然比计算为:

(6)

其中,是帧n的MFCC向量,N是数字帧,、、、UBM分别是CODEC C和UBM的均值向量和协方差矩阵。

四 实验和结果

所使用的数据库是专门为法医开发的应用程序,并且只包括女性演讲者,她们的演讲被录制在一个现实的场景中,60个扬声器被选中来自中国东北地区的这项研究。对于那个研究场景,只有中国女性被选中。

所选择的数据库显示了实用语音的很好的表示,它包含了非同期语音,以及代表每一个说话者的3种说话方式:休闲手机通话,电话交换信息和警察风格的假面采访。

图:编解码识别原理

在下面描述的实验中,通过对我们的研究中的每个编解码器编码和解码所有文件,在初始语音数据库的不同副本上模拟信道效应:AMR、AMR WB和G.729。

在收集了包含在研究中的每个编解码器的UBM保留的8个文件所产生的文件之后,提取识别特征(MFCC)并用于训练背景模型。我们选择MFCC作为识别特征,因为它们已经证明了对噪声的弹性。

为了识别信道对语音的影响,我们只考虑使用18 MFCC,在混合物中有64个高斯分量。这涉及由没有动态的信道引起的语音特征修改,并且在语音的编码和解码形式之间没有噪声。

在提取特征向量的过程中,使用0.97阶系数的一阶预加重滤波器,然后将信号分成50%帧重叠的20MS长帧。每个帧乘以Hamming窗,提取18个倒谱特征,然后通过类内协方差归一化(Wccn)方法归一化。

单独的编解码器模型通过将UBM适配到从8个保留文件中提取的MFCC,在被编解码器处理之后被训练。从UBM中运行三个单独的自适应过程,一个用于所包含的编解码器中的每个。

在实验中,我们紧跟着在测试中对每个编解码器的闭集和开集识别场景。对于开放集识别,60个说话人的集合分为三个部分:8个文件用于训练UBM和8个文件用于训练每个编解码器,44个文件用于测试。

通过处理来自每个数据库副本的剩余44个语音文件,准备了132个测试记录。每个单独的录音只包含一个扬声器的正常语音,长度约为3分钟。图中示出了从输入语音文件到对数似然比的计算以及编解码器识别判决的制作的处理链。

表示出了封闭集识别的全局识别结果,其中测试与来自训练文件的同一扬声器的记录一起进行,并且对开集场景的全局识别率进行测试,用从训练和自适应中未看到的记录进行语音测试阶段。

在开集场景中,每个编解码器的识别结果如表II所示。AMR WB具有100%的识别,最可能是因为它工作于宽带频谱,并且是GMM系统中最明显的。另两个则使用窄带,即使在识别率很高的情况下也会更容易受到混淆。

检测误差权衡(DET)曲线,如图2所示,用于闭集设置。如果需要更多的安全性,系统可以降低误报率(FPR),但提高假阴性率(FNR)。对于开集实验,等误差率(EER)变得更差,但系统的整体性能仍然可以被认为是好的。

五 结论与未来工作

这项工作提出了一种原始的方法来检测在源代码编码阶段在移动电话会话中使用的GMM-UBM算法的变体,从说话人识别方法启发。据我们所知,该方法以前没有应用过。此外,在录音上讲的内容在算法的性能方面几乎没有差别。

为了产生识别决策,必须设置阈值以便允许随机相似性和与识别的编解码器相关的相似性之间的良好区分。这意味着用户必须首先测试已知编解码器原点的文件,并计算导致最小总成本的操作点。在选择操作点时,这样的系统的法医用户需要记住错误识别的成本远高于错误排除的成本,有时是不可接受的,并且相等错误率(EER)仅给出系统性能的指示。

表1 全局识别结果 表2 编解码器识别率、假阳性和假阴性

<td

全文共8328字,剩余内容已隐藏,支付完成后下载完整资料</td


资料编号:[14363],资料为PDF文档或Word文档,PDF文档可免费转换为Word

Setup

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。