用于处理音频数据的方法和装置与流程

本公开总体上涉及一种对音频数据进行基于元数据的动态处理以用于回放的方法,并且特别是用于确定一个或多个处理参数并将所述一个或多个处理参数应用于音频数据,以结合个性化设置(对话增强、主场解说或客场解说等)进行响度调平(leveling)和/或动态范围压缩。本公开进一步涉及一种将音频数据和用于响度调平和/或动态范围压缩的元数据编码到比特流中的方法。本公开还进一步涉及一种相应的解码器和编码器以及一种相应的系统和计算机程序产品。本公开进一步涉及一种处理音频数据以用于回放的方法、一种用于处理音频数据以用于回放的解码器以及相应的计算机程序产品。尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。
背景技术:
1、在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
2、在回放音频内容时,响度是个人对声压的体验。在电影或电视内容中,节目中对话的响度被发现是决定听众对节目响度的感知的最关键参数。
3、为了确定节目(无论是完整节目还是仅对话)的平均响度,必须对整个节目执行分析。平均响度通常是响度合规性(compliance)所必需的(例如,美国的calm法案),并且还用于校准动态范围控制(drc)参数。节目的动态范围是其最安静声音与最响亮声音之间的差异。节目的动态范围取决于其内容(例如,与纪录片相比,动作电影可能具有不同且更宽的动态范围),并且反映了创作者的意图。然而,设备在原始动态范围内回放音频内容的能力差异很大。因此,除了响度管理之外,动态范围控制也是提供最佳收听体验的另一个关键因素。
4、为了执行响度管理和动态范围控制,必须分析整个音频节目或音频节目片段,并且可以将所得的响度和drc参数与音频数据或经编码的音频数据一起传递,以在解码器或回放设备中应用。
5、当无法在编码之前对整个音频节目或音频节目片段进行分析时,例如在实时(动态)编码中,使用响度处理或调平来确保响度合规性,并且在适用的情况下根据回放要求确保潜在的动态范围约束。这种方法提供了针对单一回放环境进行“优化”的经处理音频。
6、因此,存在对基于元数据的过程的现有需求,该基于元数据的过程提供“原始”未处理的音频以及附带的元数据,以允许回放设备根据设备约束、用户要求和用户设置(例如,音频个性化设置)使用元数据来动态修改音频。
7、此外,行业音频标准包括用于实现响度控制和/或响度管理的描述和语法。例如,运动图片专家组(mpeg),其是由国际标准化组织(iso)和国际电工委员会(iec)联合建立的工作组联盟,其为包括音频编码在内的媒体编码设定标准。mpeg是在iso/iec sc 29下组织的,并且音频组目前被标识为工作组(wg)6。该wg-6帮助建立了mpeg-h 3d音频标准,该标准包括对响度控制和/或响度管理(drc)技术的兼容性,然而需要进一步修订现有标准来处理上述元数据。
技术实现思路
1、根据本公开的第一方面,提供了一种对音频数据进行基于元数据的动态处理以用于回放的方法。所述方法可以包括由解码器接收比特流,所述比特流包括音频数据和用于响度调平的元数据。所述方法可以进一步包括由所述解码器对所述音频数据和所述元数据进行解码,以获得经解码的音频数据和元数据。所述方法可以进一步包括由所述解码器基于回放条件从所述元数据中确定用于响度调平的一个或多个处理参数。所述方法可以进一步包括将所确定的一个或多个处理参数应用于所述经解码的音频数据,以获得经处理的音频数据。并且所述方法可以包括输出所述经处理的音频数据以用于回放。
2、在一些实施例中,所述元数据可以针对多个回放条件指示用于响度调平的处理参数。
3、在一些实施例中,所述确定所述一个或多个处理参数可以进一步包括基于所述回放条件确定用于动态范围压缩drc的一个或多个处理参数。
4、在一些实施例中,所述回放条件可以包括以下各项中的一项或多项:所述解码器的设备类型、回放设备的特性、扬声器的特性、扬声器设置、背景噪声的特性、环境噪声的特性、在所述设备上选择的个性化体验和声学环境的特性。
5、个性化体验可以基于音频的版本(如语言)或用户体验(如增强对话)。它还可以包括选择不同体验或角度的能力,例如选择主队解说与客队解说,或者选择主场观众或客场观众作为背景。
6、个性化体验可以取决于先前的收听体验和/或收听设备的能力。或者,个性化体验可以由设备基于先前的收听偏好进行选择(包括通过经由云包括外部数据)。
7、个性化体验可以被实时编码,例如带有主场解说和客场解说的体育运动,其中,将使用响度调平来确保音频符合响度合规性(例如,美国的calm法案)。对于基于元数据的解决方案,将针对各种个性化体验、设备能力中的每一者生成响度调平元数据,其还可以包括drc元数据。
8、在一些实施例中,所述确定所述一个或多个处理参数可以进一步包括由所述解码器选择与所述回放条件相对应的drc序列集drcset、均衡器参数集eqset和下混中的至少一者。
9、在一些实施例中,所述确定所述一个或多个处理参数可以进一步包括识别指示所述至少一个所选择的drcset、eqset和下混的元数据标识符,以从所述元数据中确定所述一个或多个处理参数。
10、在一些实施例中,所述元数据可以包括与平均响度值相关的一个或多个处理参数,以及可选地与动态范围压缩特性相关的一个或多个处理参数。
11、在一些实施例中,所述比特流可以进一步包括用于要被应用于所述经解码的音频数据的静态响度调整的附加元数据。
12、在一些实施例中,所述比特流可以是mpeg-d drc比特流,并且可以基于mpeg-ddrc比特流语法用信号传输元数据的存在。
13、在一些实施例中,unidrcconfigextension()元素可以用于携带元数据作为有效载荷。
14、在一些实施例中,所述元数据可以包括一个或多个元数据有效载荷,其中,每个元数据有效载荷可以包括多个参数和标识符集,每个集包括drcset标识符drcsetid、eqset标识符eqsetid和下混标识符downmixid中的至少一者和与所述集中的标识符相关的一个或多个处理参数的组合。
15、在一些实施例中,所述确定所述一个或多个处理参数可以涉及基于由所述解码器选择的所述至少一个drcset、eqset和下混来在所述有效载荷中的所述多个集中选择一个集,其中,由所述解码器确定的所述一个或多个处理参数可以是与所选择的集中的标识符相关的所述一个或多个处理参数。
16、根据本公开的第二方面,提供了一种用于对音频数据进行基于元数据的动态处理以用于回放的解码器。所述解码器可以包括被配置为执行一种方法的一个或多个处理器和非暂态存储器,所述方法包括由所述解码器接收包括音频数据和用于响度调平的元数据的比特流;由所述解码器对所述音频数据和所述元数据进行解码,以获得经解码的音频数据和元数据;由所述解码器基于回放条件从所述元数据中确定用于响度调平的一个或多个处理参数;将所确定的一个或多个处理参数应用于所述经解码的音频数据,以获得经处理的音频数据;以及输出所述经处理的音频数据以用于回放。
17、根据本公开的第三方面,提供了一种将音频数据和用于响度调平的元数据编码到比特流中的方法。所述方法可以包括将原始音频数据输入到响度调平器中进行响度处理,以获得经响度处理的音频数据作为所述响度调平器的输出。所述方法可以进一步包括基于所述经响度处理的音频数据和所述原始音频数据生成用于响度调平的所述元数据。并且所述方法可以包括将所述原始音频数据和所述元数据编码到所述比特流中。
18、在一些实施例中,所述方法可以进一步包括生成用于要由解码器使用的静态响度调整的附加元数据。
19、在一些实施例中,生成元数据可以包括将所述经响度处理的音频数据与所述原始音频数据进行比较,其中,可以基于所述比较的结果生成所述元数据。
20、在一些实施例中,生成元数据可以进一步包括测量一个或多个预定义时间段内的响度,其中,可以进一步基于所测量的响度生成所述元数据。
21、在一些实施例中,所述测量可以包括测量所述音频数据的总体响度。
22、在一些实施例中,所述测量可以包括测量所述音频数据中对话的响度。
23、在一些实施例中,所述比特流可以是mpeg-d drc比特流,并且可以基于mpeg-ddrc比特流语法用信号传输所述元数据的存在。
24、在一些实施例中,unidrcconfigextension()元素可以用于携带元数据作为有效载荷。
25、在一些实施例中,所述元数据可以包括一个或多个元数据有效载荷,其中,每个元数据有效载荷可以包括多个参数和标识符集,每个集包括drcset标识符drcsetid、eqset标识符eqsetid和下混标识符downmixid中的至少一者和与所述集中的标识符相关的一个或多个处理参数的组合,并且其中,所述一个或多个处理参数可以是用于由解码器进行响度调平的参数。
26、在一些实施例中,所述drcsetid、所述eqsetid和所述downmixid中的所述至少一者可以与要由所述解码器选择的drc序列集drcset、均衡器参数集eqset和下混中的至少一者相关。
27、根据本公开的第四方面,提供了一种用于将原始音频数据和用于响度调平的元数据编码在比特流中的编码器。所述编码器可以包括被配置为执行一种方法的一个或多个处理器和非暂态存储器,所述方法包括将原始音频数据输入到响度调平器中进行响度处理,以获得经响度处理的音频数据作为所述响度调平器的输出;基于所述经响度处理的音频数据和所述原始音频数据生成用于响度调平的所述元数据;以及将所述原始音频数据和所述元数据编码到所述比特流中。
28、根据本公开的第五方面,提供了一种用于将原始音频数据和用于响度调平的元数据编码在比特流中的编码器和用于对音频数据进行基于元数据的动态处理以用于回放的解码器的系统。
29、根据本公开的第六方面,提供了一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时使所述设备执行一种对音频数据进行基于元数据的动态处理以用于回放的方法或一种将音频数据和用于响度调平的元数据编码到比特流中的方法。
30、根据本公开的第七方面,提供了一种存储有本文所述的计算机程序产品的计算机可读存储介质。
31、根据本公开的第八方面,提供了一种处理音频数据以用于回放的方法。所述方法可以包括由解码器接收包括经编码的音频数据和元数据的比特流,其中,所述元数据包括一个或多个动态范围控制(drc)集、以及针对每个drc集的所述drc集是否被配置用于提供响度调平效果的指示。所述方法可以进一步包括由所述解码器解析所述元数据,以识别被配置用于提供所述响度调平效果的drc集。所述方法可以进一步包括由所述解码器对所述经编码的音频数据进行解码,以获得经解码的音频数据。所述方法可以进一步包括由所述解码器选择被配置用于提供所述响度调平效果的所识别的drc集之一。所述方法可以进一步包括由所述解码器将与所选择的drc集相对应的所述一个或多个drc增益应用于所述经解码的音频数据,以获得经动态响度补偿的音频数据。并且所述方法可以包括输出所述经动态响度补偿的音频数据以用于回放。
32、在一些实施例中,所述元数据可以包括被配置用于提供所述响度调平的多个drc集,其中,所述多个drc集中的每一个还可以与一个或多个回放条件相关联,并且其中,所述选择可以是响应于提供给所述解码器的回放条件的指示而执行的。
33、在一些实施例中,除了提供响度调平效果之外,所述一个或多个drc集还可以被配置为提供动态范围控制。
34、在一些实施例中,所述回放条件可以包括以下各项中的一项或多项:所述解码器的设备类型、回放设备的特性、扬声器的特性、扬声器设置、背景噪声的特性、环境噪声的特性和声学环境的特性。
35、在一些实施例中,可以在指示由所述drc集提供的一个或多个效果的参数中提供所述drc集是否被配置用于提供所述响度调平效果的指示。
36、在一些实施例中,指示由所述drc集提供的一个或多个效果的所述参数可以是mpeg-d drc比特流的drcseteffect位字段,其中,所述drcseteffect位字段的各个位对应于不同的效果,并且所述drcseteffect位字段的位之一对应于所述响度调平效果。
37、在一些实施例中,所述drc集是否被配置用于提供所述响度调平效果的指示可以是所述drc集是否被指定在响度调平比特流有效载荷中。
38、在一些实施例中,可以在先前定义的比特流语法的扩展字段中包括所述响度调平比特流有效载荷。
39、在一些实施例中,所述扩展字段可以是mpeg-d drc比特流的unidrcconfigextension字段,并且,可以仅针对unidrcconfigexttype参数的特定值包括所述响度调平比特流有效载荷。
40、在一些实施例中,可以在所述先前定义的比特流语法的扩展字段中包括指定被配置用于提供所述响度调平效果的多个drc集的多个响度调平有效载荷。
41、在一些实施例中,所述drc集是否被配置用于提供所述响度调平效果的指示可以是先前定义的比特流语法的先前存在的配置元素的字段。
42、在一些实施例中,所述字段可以是levelingpresent参数,并且所述先前存在的配置元素可以是mpeg-d drc比特流的downmixinstructions元素、drcinstructionsbasic元素或drcinstructionsunidrc元素。
43、在一些实施例中,所述字段可以是为将来使用而保留的先前存在的字段。
44、在一些实施例中,所述drc集是否被配置用于提供所述响度调平效果的指示可以是先前定义的比特流语法的先前存在的配置元素的更新版本的字段。
45、在一些实施例中,所述字段可以是levelingpresent参数,并且所述先前存在的配置元素的更新版本可以是downmixinstructionsv2元素或drcinstructionsunidrcv2元素。
46、在一些实施例中,可以通过接口向所述解码器提供期望响度调平效果的指示,并且可以响应于通过所述接口提供给所述解码器的所述指示而选择所述drc集。
47、在一些实施例中,可以通过所述接口向所述解码器提供附加期望效果的指示,所述元数据可以包括被配置为提供所述响度调平效果的多个drc集,并且所述选择可以取决于所述附加期望效果。
48、在一些实施例中,可以通过dynamicrangecontrollerinterface有效载荷的drceffecttyperequest参数提供期望响度调平效果的指示。
49、在一些实施例中,所述元数据可以包括被配置用于向所述经解码的音频数据提供静态响度调整的一个或多个静态响度值。
50、在一些实施例中,可以响应于所述静态响度值中的一个或多个而将静态响度调整应用于所述经解码的音频数据或所述经动态响度补偿的音频数据。
51、在一些实施例中,所述drc集中的第一drc集可以被配置用于提供动态范围控制,并且所述第一drc集可以包括表明被配置用于提供所述响度调平效果的所选择的drc集可以被配置用于与所述第一drc集结合应用的指示。
52、在一些实施例中,所选择的drc集可以包括与所选择的drc集相对应的所述一个或多个drc增益是否仅可以和与所述第一drc集相对应的drc增益结合应用的指示。
53、在一些实施例中,可以从所述比特流中提取与所述第一drc集相对应的drc增益,并且将所述drc增益应用于所述经解码的音频数据。
54、根据本公开的第九方面,提供了一种用于处理音频数据以用于回放的解码器。所述解码器可以包括被配置为执行如上所述的处理音频数据以用于回放的方法的一个或多个处理器和非暂态存储器。
55、根据本公开的第十方面,提供了一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令适于使设备执行如上所述的处理音频数据以用于回放的方法。
56、根据本公开的第十一方面,提供了一种存储有本文所述的计算机程序产品的计算机可读存储介质。
技术研发人员:C·J·费什,S·G·诺克罗斯,D·菲舍尔,R·波墨
技术所有人:杜比实验室特许公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
