一种以特征段音重数据为单元创建节奏感的方法和播放系统与流程

背景技术:
1、现在的变声技术目的是改变发声体的声音质量,或者是模拟为不同发声体的效果,对声音的处理追求的多是商业价值,不是娱乐价值。也存在对语音片段的分析,对比文件cn200910142537.0中“对波形相似度叠加方法进行修改,以确定子序列对的相似度度量中的最大化相似度”其对语音的每个序列进行分析,过分追求准确性,不考虑较大的噪音、杂音、次要的语音序列的影响,而节奏感的效果不是追求全部序列的声音效果。对比文件cn200910108163.0“根据变速要求按一定速率向音频缓冲区内输入原始音重数据”,是对整个音重数据进行变速处理,只能算音频处理技术的一种功能,还不能算是创建节奏感效果,更无法实现相同语音序列、不同语音序列下都可以创建不同节奏感效果,并且随机的节奏感效果具有更好的娱乐体验。还存在其他的人工剪辑形式产生的节奏感效果。。
技术实现思路
1、本技术技术主要目的是利用多媒体样本声音中明显的特征片段作为单元,通过创建大量不同节奏感,达到提高用户多媒体娱乐体验的效果。
2、本技术作为一种音频处理技术,特别是以特征段音重数据为单元创建节奏感的方法和播放系统,包括以下主要步骤:1)选取样本及提取样本特征;2)解析特征段有关的基本数据;3)确定节奏感类型和节奏感参数;4)计算节奏感音重数据;5)播放节奏感音重数据;6)结束。
3、所述样本必须是非静音多媒体文件,并满足数据转化及计算的要求。
4、所述样本的选取方式包括:网络检索文件、本地文件、系统资源库、现场录制。特别适合如小品、相声、歌曲、动物叫声、人物说话等特性化明显的多媒体题材。样本可以为整个文件、文件片段、或者一句话的语音。
5、所述样本特征,包括:音频采样率、音重数据、播放时长、声道数量等对音重数据计算有影响的数据。
6、当所述声道数量大于1时,所述音重数据采用样本第一声道音重数据。
7、所述特征段有关的基本数据,包括特征段数量、特征段音重数据、一般段数量和一般段音重数据。
8、本技术不限声音种类,选取的是样本中音重效果比较明显的片段进行处理。
9、为此需要确定特征段筛选系数、音重一般段筛选系数,来计算特征段筛选值和音重一般段筛选值。
10、其中,1.0>特征段筛选系数>音重一般段筛选系数>0.0。
11、所述特征段筛选系数用于筛选声音中音重比较明显的片段。当杂音、噪音越多时,可以选择较大的系数。
12、所述特征段筛选值等于样本最大音重值乘以特征段筛选系数。
13、所述音重一般段筛选系数用于剔除影响特征段和节奏感的声音片段,系数越大剔除越多,一般的音重数据影响越小。
14、所述音重一般段筛选值等于所述样本最大音重值乘以音重一般段筛选系数。
15、所述特征段数量,是指样本音重数据中连续大于特征段筛选值的音重数据组成段的段数。
16、所述特征段音重数据,是指按照特征段顺序,各特征段音重数据由以下相邻数据连接组成:1)连续大于特征段筛选值的音重数据;2)连续大于音重一般段筛选值的音重数据。
17、所述一般段音重数据由样本其他音重数据分段组成,段数为一般段数量。
18、所述节奏感类型由节奏感类型创建模型确定,节奏感参数由节奏感参数创建模型确定。
19、所述节奏感类型创建模型,是指选择创建模型确定每个特征段对应的初始节奏感类型,并按照节奏感类型优先级,由高到最低级依次创建可包含的所有节奏感类型。
20、所述节奏感类型,可创建的初始类型及优先级为:无效果<基本效果<附加效果<组合效果。
21、所述基本效果,是指以一个特征段音重数据为一个计算单元,由对应节奏感参数对其音重数据进行调整计算后,播放效果中所包含的特征段数量为一个。
22、所述附加效果,是指以n个特征段音重数据为一个计算单元,由对应节奏感参数对其音重数据进行调整计算后,播放效果中所包含的特征段数量为n+sn个,其中n≥1,sn≥1,当n>1时,特征段为连续的。
23、所述组合效果,是指以m个特征段音重数据为单元,m≥1,其中一个特征段创建的节奏感类型至少涉及基本效果和附加效果。
24、所述节奏感参数创建模型,是指针对创建的特征段所有节奏感类型,对涉及的节奏感参数类别和大小选择确认方法。
25、所述节奏感参数类别,是指以一个特征段音重数据为单元,节奏感类型对应音重数据的计算参数,包括特征段参与系数ka和kb、音重系数kc和kd、音长系数ke和kf。
26、所述节奏感参数类别,又指以nm个特征段音重数据为单元,nm≥1,依据对应的节奏感播放效果,包括对应的特征段参与数量kn、重复播放系数kg。
27、所述节奏感参数大小,均存在阈值限制。
28、所述ka代表以选定的特征段为单元,作为特征段音重数据的播放权重影响系数,ka<0,则在节奏感播放中,只播放特征段对应节奏感音重数据,不播放一般段音重数据。
29、所述kb代表以选定的特征段为单元,当创建的节奏感类型和参与创建节奏感类型最终为无效果时,令kb=0,则对应特征段音重数据不参与计算。
30、所述kc代表以选定的特征段为单元,用一个比例系数对其所有音重数值进行调整。
31、所述kd代表以选定的特征段为单元,对其所有音重数值附加一个调整值,kc是影响调整值大小的系数,可以参照特征段的最大音重数值计算。
32、所述ke代表以选定的特征段为单元,用一个比例系数对其音长进行调整。
33、所述特征段音长是指样本中特征段对应的播放时长,由特征段包含音重数据数量及音频采样率确定。
34、所述kf代表以选定的特征段为单元,用一个比例系数对其节奏感音长进行调整。
35、所述节奏感音长是利用节奏感参数计算后,节奏感包含特征段对应的实际播放时长。
36、所述kn代表以选定的一组连续特征段为单元,其中包含特征段的数量。
37、重复播放系数kg代表以选定的特征段为单元,在节奏感播放中的与播放次数有关的参数。
38、以上所述节奏感参数,均存在阈值限制。
39、所述节奏感类型与特征段的关系是:以nn个特征段音重数据为计算单元,结合对应节奏感参数,可以创建mm个特征段组成的节奏感类型,其中nn≥1,mm≥nn。
40、当所述nn>1时,其中nn个特征段是连续的。
41、按照特征段顺序,以及每个特征段创建的所有节奏感类型和对应节奏感参数,计算节奏感包含的各特征段对应音重数据,一般公式为:vvi=kc*vi+kd* vv,其中vvi为节奏感对应音重数值,vi为特征段音重数值,vv为计算参考值,可取对应特征段最大音重值;
42、当音重数值计算结果小于零时,以零值代替。
43、计算节奏感音长:tt=ke*t0,其中t0为特征段音长。
44、所述ke>1.0时,按照均匀分布原则,对节奏感音重数据线性内插补齐到对应时长。
45、所述ke<1.0时,按照均匀分布原则,对节奏感音重数据减少到对应时长。
46、计算节奏感实际播放时长:ytt=kf*tt,其中ytt为节奏感实际播放截止时长。
47、所述kf>1时,超出节奏感时长的对应时长范围内的音重数据以0值补足。
48、特征段播放次数:mn=kg,其中mn代表以特征段为单元,节奏感中对应特征段在节奏感中需要播放的次数。
49、当所述声道数量大于1时,采用相同的节奏感音重数据计算方法,匹配计算其他声道音重数据对应的节奏感音重数据。
50、当所述声道数量大于1时,采用相同的特征段分布、节奏感类型和节奏感参数,匹配计算其他声道音重数据对应的节奏感音重数据。
51、所述播放节奏感音重数据,是按照节奏感类型对应播放效果播放节奏感音重数据。
52、所述播放效果中,按照样本顺序播放特征段对应的节奏感音重数据和一般段音重数据,在ka满足设定条件下,仅播放节奏感音重数据。
53、所述播放效果对应节奏感类型,存在默认播放效果。
54、在所述默认播放效果中,部分附加效果对应细分节奏感效果的默认播放效果如下:
55、所述叠音效果的默认播放效果是特征段对应节奏感参数中,特征段参与数量=1,重复播放系数kg=2对应的播放效果。
56、所述口吃效果的默认播放效果是特征段对应节奏感参数中,特征段参与数量=1,重复播放系数kg>2对应的播放效果。
57、所述近回音效果的默认播放效果是特征段对应节奏感参数中,重复播放系数kg=nn,nn>1,以nn个连续特征段为单元,增加一组相同的节奏感音重数据作为辅助节奏感音重数据,并设定重复播放间隔,重复播放间隔等于第一个特征段对应的节奏感音长,播放节奏感音重数据每达到一次间隔时间后,播放一次辅助节奏感音重数据。
58、所述近回音效果的默认播放效果是特征段对应节奏感参数中,重复播放系数kg=mm,mm>1,以mm个连续特征段为单元,对计算的节奏感音重数据,播放一次,然后参与的特征段数量从头开始减去一段再重复播放,直至参与的特征段数量归零后结束。
59、当所述样本存在视频数据时,应考虑:1)尽量保持各视频帧与特征段音重数据对应一致;2)不同节奏感播放效果下,与对应特征段音重数据的播放次数保持一致;3)重复播放节奏感音重数据时,按照对应音重数据的首次引用确定视频帧播放。
60、本技术所述结束,代表以用户指令或者系统指令结束节奏感播放。
61、如果多媒体样本总时长比较大,可以按照时间分段创建节奏感。
62、以上节奏感类型名称基于主要播放效果,用于用户的不同选择,不影响计算存在的交叉性,也不影响因流程而存在部分改变。各节奏感类型和节奏感参数类别可以按照用户节奏感需求进行针对性制定或者修改。
63、根据用户需求可以将样本的音重一般段和创建节奏感对应的音重数据,以及对应的视频数据重新组合输出为新的多媒体文件。
64、本技术中,按照数据创建及计算需求,以上涉及的计算单元为数值或者数组。
65、与现有技术相比,本技术所达到的有益效果是:选取样本及提取样本特征,解析特征段有关的基本数据,确定节奏感类型和节奏感参数,计算节奏感音重数据,播放节奏感音重数据,直至节奏感播放结束。本技术保留了发声体的主要音频特征,可以不改变样本音重数据下创建多种节奏感类型:基本效果、附加效果、组合效果。附加效果包括了:叠音效果、口吃效果、近回音效果、远回音效果。在保持发声体不变前提下,用户可以在欣赏小品、歌曲、相声、语音等多媒体时,一个样本可以创建大量不同的节奏感效果,大大提高了用户的多媒体娱乐体验。
技术研发人员:张建强
技术所有人:北京好媒婆信息咨询有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
