提取音频水印的方法、音频处理方法、添加音频水印的方法及相关产品与流程

2025-09-24 10:20:06 325次浏览

本技术涉及音频处理，尤其涉及一种提取音频水印的方法、音频处理方法、添加音频水印的方法及相关产品。

背景技术：

1、在互联网时代，音频数据可以快捷地传播和获取，但同时也滋生了音频数据的非法扩散、非法拷贝和非法篡改等侵犯版权的行为，因此为了保护音频数据的版权，音频水印技术应运而生。音频水印技术涉及从音频数据中提取水印，进而可基于所提取的水印判断音频数据是否为通过侵犯版权的行为得到的。因此如何从音频数据中提取水印具有非常重要的意义。

技术实现思路

1、本技术提供一种提取音频水印的方法、音频处理方法、添加音频水印的方法及相关产品，以从音频数据中提取音频水印，其中，相关产品包括提取音频水印的装置、音频处理装置、添加音频水印的方法装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面，提供了一种提取音频水印的方法，所述方法包括：

3、获取目标音频数据，所述目标音频数据是通过对携带水印编码信息的目标频谱信息进行时域转换得到的，所述目标频谱信息中的中心频率范围内的频谱信息携带水印编码信息；

4、将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印编码信息是所述目标音频水印的编码结果。

5、结合本技术任一实施方式，所述水印提取模型是基于训练水印与参考水印的差异迭代更新得到的，所述训练水印是所述水印提取模型从训练音频数据中提取得到的水印，所述参考水印是所述训练音频数据中携带的水印。

6、结合本技术任一实施方式，在所述将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印之前，所述方法还包括：

7、从所述目标音频数据中截取n帧待提取音频帧，所述n为大于1的整数；

8、所述将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，包括：

9、分别将所述n帧待提取音频帧输入所述水印提取模型，得到分别与所述n帧待提取音频帧对应的n个候选音频水印；

10、根据所述n个候选音频水印，得到所述目标音频水印。

11、结合本技术任一实施方式，所述根据所述n个候选音频水印，得到所述目标音频水印，包括：

12、确定所述n个候选音频水印中各音频水印出现的次数，得到目标次数；

13、根据所述目标次数和所述n个候选音频水印，得到所述目标音频水印。

14、结合本技术任一实施方式，所述根据所述目标次数和所述n个候选音频水印，得到所述目标音频水印，包括：

15、在所述目标次数的最大值与所述目标次数的第二大值的差异大于次数阈值的情况下，将所述n个候选音频水印中出现次数最多的音频水印，作为所述目标音频水印。

16、结合本技术任一实施方式，所述根据所述目标次数和所述n个候选音频水印，得到所述目标音频水印，包括：

17、在所述目标次数的最大值与所述目标次数的第二大值的差异小于或等于次数阈值的情况下，确定所述n个候选音频水印中的目标位置的值，得到n个候选值；

18、确定所述n个候选值中出现次数最多的值为所述目标音频水印中的所述目标位置的目标值；

19、根据所述目标值得到所述目标音频水印。

20、结合本技术任一实施方式，所述从所述目标音频数据中截取n帧待提取音频帧，包括：

21、按照预设步长对所述目标音频数据进行切分，得到n帧待提取音频帧，所述预设步长大于0且小于所述水印编码信息的长度。

22、结合本技术任一实施方式，所述n帧待提取音频帧包括第一音频帧，所述n个候选音频水印包括第一音频水印，所述第一音频水印是将所述第一音频帧输入所述水印提取模型后得到的音频水印；

23、所述分别将所述n帧待提取音频帧输入所述水印提取模型，得到分别与所述n帧待提取音频帧对应的n个候选音频水印，包括：

24、将所述第一音频帧输入所述水印提取模型的音频帧划分模块，获取m段待确认音频帧，待确认音频帧为所述第一音频帧的一部分；

25、分别将所述m段待确认音频帧输入所述水印提取模型的概率预测模块，分别预测各待确认音频帧包含水印的概率，得到m个预测概率；

26、将所述m个预测概率输入至所述水印提取模型的候选帧确定模块，确定与所述m个预测概率中最大的s个对应的待确认音频帧为s个候选音频帧，所述s小于所述m；

27、将所述s个候选音频帧输入至所述水印提取模型的音频水印提取模块，得到所述第一音频水印。

28、结合本技术任一实施方式，在所述将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印之前，所述方法还包括：

29、对所述目标音频数据进行频域转换，得到所述目标频谱信息；

30、所述将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，包括：

31、将所述目标频谱信息输入所述水印提取模型；

32、利用所述水印提取模型，从所述目标频谱信息中截取处于所述中心频率范围内的频谱信息，得到目标频谱信息；

33、利用所述水印提取模型，提取所述目标频谱信息中的水印编码信息，得到所述目标音频水印。

34、结合本技术任一实施方式，所述中心频率范围是根据共振峰频率确定的。

35、第二方面，提供了一种提取音频水印的方法，所述方法包括：

36、获取携带水印的目标音频数据，所述目标音频数据中的水印是通过第一水印添加方法向原始目标音频添加得到的，所述第一水印添加方法为与第一水印提取方法对应的水印添加方法；

37、通过第二水印提取方法从所述目标音频数据中提取水印，得到所述目标音频数据携带的目标音频水印，所述第二水印提取方法为与第二水印添加方法对应的水印提取方法；

38、其中，针对相同水印和原始音频数据，通过所述第一水印添加方法向所述原始音频数据添加水印的计算量小于通过第二水印添加方法向所述原始音频数据添加水印的计算量；

39、针对相同音频数据，通过所述第二水印提取方法从所述音频数据中提取水印的准确度高于通过所述第一水印提取方法从所述音频数据中提取水印的准确度。结合本技术任一实施方式，所述第一水印添加方法是基于水印编码信息调整音频数据的频谱信息，将水印添加至音频数据中的。

40、结合本技术任一实施方式，所述通过第二水印提取方法从所述目标音频数据中提取水印，得到所述目标音频数据携带的目标音频水印，包括：

41、将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印提取模型为具有从音频数据中提取水印的能力的深度学习模型。

42、结合本技术任一实施方式，所述目标音频数据为音频点播平台的音频数据。

43、第三方面，提供了一种音频处理方法，所述方法包括：

44、获取待处理音频数据和待添加水印；

45、对所述待添加水印进行编码，得到水印编码信息；

46、对所述待处理音频数据进行频域变换，得到待处理频谱信息；

47、基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息；

48、将所述目标频谱信息进行时域变换，得到携带水印的目标音频数据；

49、将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印编码信息是所述目标音频水印的编码结果。

50、第四方面，提供了一种添加音频水印的方法，所述方法包括：

51、获取待处理音频数据和待添加水印；

52、对所述待添加水印进行编码，得到水印编码信息；

53、对所述待处理音频数据进行频域变换，得到待处理频谱信息；

54、基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息；

55、将所述目标频谱信息进行时域变换，得到携带水印的目标音频数据。

56、结合本技术任一实施方式，在所述基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息之前，所述方法还包括：根据所述待处理频谱信息的共振峰频率确定所述中心频率范围。

57、结合本技术任一实施方式，所述水印编码信息为二进制序列，所述二进制序列的位数为x；

58、所述基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息，包括：

59、从所述待处理频谱信息的中心频率范围内的振幅中确定x组振幅；

60、根据所述二进制序列中的x位数值，确定x个振幅调整量，振幅调整量与二进制序列中的数值一一对应，相同数值所对应的振幅调整量相同，不同数值所对应的振幅调整量不同；

61、利用所述x个振幅调整量，对所述待处理频谱信息中的所述x组振幅进行调整，得到所述目标频谱信息。

62、结合本技术任一实施方式，在音频数据的幅度为所述振幅调整量的最大值与所述振幅调整量的最小值的差的情况下，音频数据的带宽处于预设范围内。

63、结合本技术任一实施方式，所述对所述待处理音频数据进行频域变换，得到待处理频谱信息，包括：

64、从所述待处理音频数据中截取一段音频作为待添加音频数据；

65、对所述待添加音频数据进行频域变换，得到所述待处理频谱信息；

66、所述将所述目标频谱信息进行时域变换，得到携带水印的目标音频数据，包括：

67、将所述目标频谱信息进行时域变换，得到携带水印的水印音频数据；

68、利用所述水印音频数据替换所述待处理音频数据中的所述待添加音频数据，得到所述目标音频数据。

69、结合本技术任一实施方式，所述待处理音频数据是目标对象通过目标平台发布的音频数据；

70、获取待添加水印，包括：

71、获取所述目标对象在所述目标平台的目标标识；

72、根据所述目标标识生成所述待添加水印。

73、结合本技术任一实施方式，所述根据所述目标标识生成所述待添加水印，包括：

74、根据所述目标标识生成待处理水印信息；

75、通过对所述待处理水印信息和预设标识进行合并，得到所述待添加水印。

76、第五方面，提供了一种提取音频水印的装置，所述提取音频水印的装置包括：

77、获取单元，用于获取目标音频数据，所述目标音频数据是通过对携带水印编码信息的目标频谱信息进行时域转换得到的，所述目标频谱信息中的中心频率范围内的频谱信息携带水印编码信息；

78、提取单元，用于将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印编码信息是所述目标音频水印的编码结果。

79、结合本技术任一实施方式，所述水印提取模型是基于训练水印与参考水印的差异迭代更新得到的，所述训练水印是所述水印提取模型从训练音频数据中提取得到的水印，所述参考水印是所述训练音频数据中携带的水印。

80、结合本技术任一实施方式，所述提取音频水印的装置，还包括：

81、截取单元，用于从所述目标音频数据中截取n帧待提取音频帧，所述n为大于1的整数；

82、所述提取单元，具体用于：

83、分别将所述n帧待提取音频帧输入所述水印提取模型，得到分别与所述n帧待提取音频帧对应的n个候选音频水印；

84、根据所述n个候选音频水印，得到所述目标音频水印。

85、结合本技术任一实施方式，所述提取单元，具体用于：

86、确定所述n个候选音频水印中各音频水印出现的次数，得到目标次数；

87、根据所述目标次数和所述n个候选音频水印，得到所述目标音频水印。

88、结合本技术任一实施方式，所述提取单元，具体用于：

89、在所述目标次数的最大值与所述目标次数的第二大值的差异大于次数阈值的情况下，将所述n个候选音频水印中出现次数最多的音频水印，作为所述目标音频水印。

90、结合本技术任一实施方式，所述提取单元，具体用于：

91、在所述目标次数的最大值与所述目标次数的第二大值的差异小于或等于次数阈值的情况下，确定所述n个候选音频水印中的目标位置的值，得到n个候选值；

92、确定所述n个候选值中出现次数最多的值为所述目标音频水印中的所述目标位置的目标值；

93、根据所述目标值得到所述目标音频水印。

94、结合本技术任一实施方式，所述截取单元，具体用于：

95、按照预设步长对所述目标音频数据进行切分，得到n帧待提取音频帧，所述预设步长大于0且小于所述水印编码信息的长度。

96、结合本技术任一实施方式，所述n帧待提取音频帧包括第一音频帧，所述n个候选音频水印包括第一音频水印，所述第一音频水印是将所述第一音频帧输入所述水印提取模型后得到的音频水印；

97、所述提取单元，具体用于：

98、将所述第一音频帧输入所述水印提取模型的音频帧划分模块，获取m段待确认音频帧，待确认音频帧为所述第一音频帧的一部分；

99、分别将所述m段待确认音频帧输入所述水印提取模型的概率预测模块，分别预测各待确认音频帧包含水印的概率，得到m个预测概率；

100、将所述m个预测概率输入至所述水印提取模型的候选帧确定模块，确定与所述m个预测概率中最大的s个对应的待确认音频帧为s个候选音频帧，所述s小于所述m；

101、将所述s个候选音频帧输入至所述水印提取模型的音频水印提取模块，得到所述第一音频水印。

102、结合本技术任一实施方式，所述提取音频水印的装置，还包括：

103、转换单元，用于对所述目标音频数据进行频域转换，得到所述目标频谱信息；

104、所述提取单元，具体用于：

105、将所述目标频谱信息输入所述水印提取模型；

106、利用所述水印提取模型，从所述目标频谱信息中截取处于所述中心频率范围内的频谱信息，得到目标频谱信息；

107、利用所述水印提取模型，提取所述目标频谱信息中的水印编码信息，得到所述目标音频水印。

108、结合本技术任一实施方式，所述中心频率范围是根据共振峰频率确定的。

109、第六方面，提供了一种提取音频水印的装置，所述提取音频水印的装置包括：

110、获取单元，用于获取携带水印的目标音频数据，所述目标音频数据中的水印是通过第一水印添加方法向原始目标音频添加得到的，所述第一水印添加方法为与第一水印提取方法对应的水印添加方法；

111、提取单元，用于通过第二水印提取方法从所述目标音频数据中提取水印，得到所述目标音频数据携带的目标音频水印，所述第二水印提取方法为与第二水印添加方法对应的水印提取方法；

112、其中，针对相同水印和原始音频数据，通过所述第一水印添加方法向所述原始音频数据添加水印的计算量小于通过第二水印添加方法向所述原始音频数据添加水印的计算量；

113、针对相同音频数据，通过所述第二水印提取方法从所述音频数据中提取水印的准确度高于通过所述第一水印提取方法从所述音频数据中提取水印的准确度。

114、结合本技术任一实施方式，所述第一水印添加方法是基于水印编码信息调整音频数据的频谱信息，将水印添加至音频数据中的。

115、结合本技术任一实施方式，所述提取单元，具体用于：

116、将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印提取模型为具有从音频数据中提取水印的能力的深度学习模型。

117、结合本技术任一实施方式，所述目标音频数据为音频点播平台的音频数据。

118、第七方面，提供了一种音频处理装置，所述音频处理装置包括：

119、获取单元，用于获取待处理音频数据和待添加水印；

120、编码单元，用于对所述待添加水印进行编码，得到水印编码信息；

121、变换单元，用于对所述待处理音频数据进行频域变换，得到待处理频谱信息；

122、调整单元，用于基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息；

123、所述变换单元，用于将所述目标频谱信息进行时域变换，得到携带水印的目标音频数据；

124、提取单元，用于将所述目标音频数据输入经过预先训练得到的水印提取模型，获取所述水印提取模型输出的目标音频水印，所述水印编码信息是所述目标音频水印的编码结果。

125、第八方面，提供了一种添加音频水印的装置，所述添加音频水印的装置包括：

126、获取单元，用于获取待处理音频数据和待添加水印；

127、编码单元，用于对所述待添加水印进行编码，得到水印编码信息；

128、变换单元，用于对所述待处理音频数据进行频域变换，得到待处理频谱信息；

129、调整单元，用于基于所述水印编码信息，对所述待处理频谱信息中的中心频率范围内的频谱信息进行调整，得到目标频谱信息；

130、所述变换单元，用于将所述目标频谱信息进行时域变换，得到携带水印的目标音频数据。

131、结合本技术任一实施方式，所述添加音频水印的装置还包括：确定单元，用于根据所述待处理频谱信息的共振峰频率确定所述中心频率范围。

132、结合本技术任一实施方式，所述水印编码信息为二进制序列，所述二进制序列的位数为x；

133、所述调整单元，具体用于：

134、从所述待处理频谱信息的中心频率范围内的振幅中确定x组振幅；

135、根据所述二进制序列中的x位数值，确定x个振幅调整量，振幅调整量与二进制序列中的数值一一对应，相同数值所对应的振幅调整量相同，不同数值所对应的振幅调整量不同；

136、利用所述x个振幅调整量，对所述待处理频谱信息中的所述x组振幅进行调整，得到所述目标频谱信息。

137、结合本技术任一实施方式，在音频数据的幅度为所述振幅调整量的最大值与所述振幅调整量的最小值的差的情况下，音频数据的带宽处于预设范围内。

138、结合本技术任一实施方式，所述变换单元，具体用于：

139、从所述待处理音频数据中截取一段音频作为待添加音频数据；

140、对所述待添加音频数据进行频域变换，得到所述待处理频谱信息；

141、所述变换单元，具体用于：

142、将所述目标频谱信息进行时域变换，得到携带水印的水印音频数据；

143、利用所述水印音频数据替换所述待处理音频数据中的所述待添加音频数据，得到所述目标音频数据。

144、结合本技术任一实施方式，所述待处理音频数据是目标对象通过目标平台发布的音频数据；

145、所述获取单元，具体用于：

146、获取所述目标对象在所述目标平台的目标标识；

147、根据所述目标标识生成所述待添加水印。

148、结合本技术任一实施方式，所述获取单元，具体用于：

149、根据所述目标标识生成待处理水印信息；

150、通过对所述待处理水印信息和预设标识进行合并，得到所述待添加水印。

151、第九方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任一实施方式，所述电子设备或者执行如上述第二方面及其任一实施方式，所述电子设备或者执行如上述第三方面，所述电子设备或者执行如上述第四方面及其任一实施方式。

152、第十方面，提供了另一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任一实施方式，所述电子设备或者执行如上述第二方面及其任一实施方式，所述电子设备或者执行如上述第三方面，所述电子设备或者执行如上述第四方面及其任一实施方式。

153、第十一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任一实施方式，或者使所述处理器执行如上述第二方面及其任一实施方式，或者使所述处理器执行如上述第三方面，或者使所述处理器执行如上述第四方面及其任一实施方式。

154、第十二方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一实施方式，或者使得所述计算机执行上述第二方面及其任一实施方式，或者使得所述计算机执行上述第三方面，或者使得所述计算机执行上述第四方面及其任一实施方式。

155、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本技术。

156、本技术中，由于目标频谱信息中的中心频率范围内的频谱信息携带水印编码信息，中心频率范围为语音在频谱信息中的频率范围，目标音频数据中的水印的频率处于目标音频数据中的语音的频率范围内。此时，如果通过对目标音频数据进行滤波，去除目标音频数据中的水印，那么需要通过滤波去除频率处于语音的频率范围内的水印，进而导致语音也会被去除，从而导致语音出现失真。因此，目标音频数据中的水印的抗干扰能力强、鲁棒性高。这样，提取装置在获取目标音频数据后，将目标音频数据输入经过预先训练得到的水印提取模型，获取水印提取模型输出的目标音频水印，可提高目标音频水印的准确度。

157、而且目标音频数据是通过对携带水印编码信息的目标频谱信息进行时域转换得到的，也就说明目标音频数据中的水印是通过对音频数据的频谱信息进行调整得到的，因此通过向音频数据中添加水印得到目标音频数据的计算量小、速度快。水印提取模型是经过预先训练得到的，在预先训练过程中，水印提取模型可学习到如何从音频数据中提取水印，其中，音频数据包括未经过水印干扰处理的音频数据和经过水印干扰处理的音频数据，水印干扰处理指可以去除音频数据中的水印的处理。例如，通过对音频数据进行滤波，可去除音频数据中的水印，水印干扰处理包括滤波。因此通过水印提取模型从音频数据中提取水印，可降低水印干扰处理对所提取出的水印的准确度的影响，提高所提取的水印的准确度。于是通过水印提取模型从目标音频数据中提取出目标音频水印，可提高目标音频水印的准确度。这样，既可快速将水印添加至音频数据，又可提高从音频数据中提取水印的准确度。

文档序号 : 【 40164027 】

技术研发人员：武倩平,请求不公布姓名,陈靖
技术所有人：书行科技（北京）有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

武倩平丨请求不公布姓名丨陈靖丨书行科技（北京）有限公司

一种准确语音唤醒控制方法及系统与流程 gag重组表位蛋白及其应用