一种外语口语智能训练方法

2025-09-23 14:00:06 617次浏览

本发明涉及口语训练，具体涉及一种外语口语智能训练方法。

背景技术：

1、目前，在口语教学实践中，为了使学生能够熟练掌握相应的口语发音技巧，一般采用的方法都是向学生提供不同类别的口语发音训练素材，以便学生能够反复随着口语发音训练素材进行跟读，从而使自身的实际口语发音能够接近口语发音训练素材对应的标准口语发音。

2、但是，上述口语发音训练方式只能依靠学生自身的主观感受来判断口语发音的训练结果是否与标准口语发音相符，不能对学生自身的实际口语发音情况进行客观的分析判断，不利于学生对自身的实际口语发音情况进行有针对性的调整改善，从而大大降低了口语发音训练的训练效果。此外，口语发音训练素材的训练内容有限，如何在已有的口语发音训练素材上对口语数据进行扩增，帮助学生扩展训练内容，也是需要解决的问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术所存在的上述缺点，本发明提供了一种外语口语智能训练方法，能够有效克服现有技术所存在的无法对口语数据进行扩增，以及不能对实际口语发音情况进行客观分析判断的缺陷。

3、(二)技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：

5、一种外语口语智能训练方法，包括以下步骤：

6、s1、收集口语数据，对口语数据进行预处理，得到口语数据集；

7、s2、对口语数据集进行数据扩增，得到扩增口语数据集，并利用扩增口语数据集进行外语口语训练；

8、s3、采集用户进行外语口语训练的训练语音数据，并提取训练语音数据的特征参数；

9、s4、根据训练语音数据的特征参数对训练语音数据进行发音错误识别，得到发音错误识别结果；

10、s5、针对发音错误识别结果在扩增口语数据集中匹配类似的口语数据，利用类似的口语数据重复进行外语口语训练。

11、优选地，s1中收集口语数据，对口语数据进行预处理，得到口语数据集，包括：

12、s11、收集口语数据，对口语数据进行加窗滤波和频域变换，得到对应的频谱序列，并对频谱序列进行归一化处理；

13、s12、采用线性预测编码方法提取归一化后的频谱序列的标准发音特征；

14、s13、对标准发音特征与口语数据进行匹配，并对口语数据进行标注，得到口语数据集。

15、优选地，s11中对口语数据进行加窗滤波和频域变换，得到对应的频谱序列，包括：

16、采用快速傅里叶变换对口语数据进行频域变换，得到对应的频谱序列：

17、

18、其中，f(a,b)表示频谱序列，a、b表示频谱序列二维向量，f(a,b)表示口语数据，a、b表示口语数据二维向量，m、n分别表示口语数据二维向量a、b的数量。

19、优选地，s2中对口语数据集进行数据扩增，得到扩增口语数据集，并利用扩增口语数据集进行外语口语训练，包括：

20、s21、构建生成对抗网络gan，将口语数据集输入生成对抗网络gan进行数据扩增；

21、s22、对扩增口语数据集中新的口语数据进行加窗滤波和频域变换，得到对应的频谱序列，并对频谱序列进行归一化处理；

22、s23、采用线性预测编码方法提取归一化后的频谱序列的标准发音特征；

23、s24、对标准发音特征与新的口语数据进行匹配，并对新的口语数据进行标注，得到扩增口语数据集；

24、s25、利用扩增口语数据集进行外语口语训练。

25、优选地，所述生成对抗网络gan包括生成网络g、第一判别网络d1和第二判别网络d2；

26、生成网络g，将口语数据集作为输入，捕捉样本数据的分布，尽可能生成在第一判别网络d1中被认为是真实的新的样本数据；

27、第一判别网络d1，对生成网络g生成的新的样本数据进行真实性判断；

28、第二判别网络d2，控制生成网络g生成的新的样本数据的真实性和平滑性。

29、优选地，s3中采集用户进行外语口语训练的训练语音数据，并提取训练语音数据的特征参数，包括：

30、s31、采集用户进行外语口语训练的训练语音数据，对训练语音数据进行加窗滤波和频域变换，得到对应的频谱序列；

31、s32、根据训练语音数据的频谱序列获取训练语音数据的混合特征向量；

32、其中，混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间，优化嗓音起始时间为声带震动与所对应音素结束中较早发生的时间与口腔除阻时间之差，口腔除阻时间为语音语料按音素切分后音素开始时间。

33、优选地，s32中根据训练语音数据的频谱序列获取训练语音数据的混合特征向量，包括：

34、s321、将训练语音数据的频谱序列输入一组mel刻度的三角滤波器组，以将频谱从线性刻度转换至mel刻度；

35、s322、对每个滤波器输出的能量取对数，并进行离散余弦变换dct，取预设数量的系数作为梅尔频率倒谱系数；

36、其中，mel刻度采用下式计算：

37、

38、上式中，fm为mel刻度，f为实际频率。

39、优选地，s4中根据训练语音数据的特征参数对训练语音数据进行发音错误识别，得到发音错误识别结果，包括：

40、s41、获取扩增口语数据集中的口语数据及其对应的频谱序列，将口语数据的频谱序列输入一组mel刻度的三角滤波器组，以将频谱从线性刻度转换至mel刻度；

41、s42、对每个滤波器输出的能量取对数，并进行离散余弦变换dct，取预设数量的系数作为梅尔频率倒谱系数；

42、s43、确定口语数据的声带震动与所对应音素结束中较早发生的时间与口腔除阻时间之差，口腔除阻时间为语音语料按音素切分后音素开始时间，得到口语数据的混合特征向量；

43、s44、对口语数据的混合特征向量与训练语音数据的混合特征向量进行匹配，以对训练语音数据进行发音错误识别，得到发音错误识别结果。

44、优选地，s5中针对发音错误识别结果在扩增口语数据集中匹配类似的口语数据，利用类似的口语数据重复进行外语口语训练，包括：

45、s51、获取发音错误的训练语音数据对应的目标口语数据的混合特征向量，通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据；

46、s52、获取类似的口语数据的标准发音语谱图，并给出预先录制好的标准发音口腔舌位动画，供用户重复进行外语口语训练。

47、优选地，s51中获取发音错误的训练语音数据对应的目标口语数据的混合特征向量，通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据，包括：

48、s511、对目标口语数据的混合特征向量和扩增口语数据集中其他口语数据的混合特征向量进行归一化处理；

49、s512、采用下式计算归一化后的目标口语数据的混合特征向量与扩增口语数据集中其他口语数据的混合特征向量之间的相似度：

50、

51、其中，s(x，yi)为目标口语数据的混合特征向量x与扩增口语数据集中第i个口语数据的混合特征向量yi之间的相似度，xj为目标口语数据的混合特征向量x的第j个分量，yij为扩增口语数据集中第i个口语数据的混合特征向量yi的第j个分量，n为混合特征向量的维度。

52、(三)有益效果

53、与现有技术相比，本发明所提供的一种外语口语智能训练方法，具有以下有益效果：

54、1)收集口语数据，对口语数据进行预处理，得到口语数据集，对口语数据集进行数据扩增，得到扩增口语数据集，并利用扩增口语数据集进行外语口语训练，构建生成对抗网络gan对口语数据集进行数据扩增，有效扩展了训练内容，同时通过对扩增口语数据集中的口语数据进行加窗滤波和频域变换，得到对应的频谱序列，并对频谱序列进行归一化处理，采用线性预测编码方法提取归一化后的频谱序列的标准发音特征，并对口语数据进行标注，使得用户能够利用标准发音特征进行规范化的外语口语训练；

55、2)采集用户进行外语口语训练的训练语音数据，并提取训练语音数据的特征参数，根据训练语音数据的特征参数对训练语音数据进行发音错误识别，得到发音错误识别结果，通过对口语数据的混合特征向量与训练语音数据的混合特征向量进行匹配，能够对训练语音数据进行发音错误识别，得到发音错误识别结果，从而能够对用户的实际口语发音情况进行客观分析判断；

56、3)针对发音错误识别结果在扩增口语数据集中匹配类似的口语数据，利用类似的口语数据重复进行外语口语训练，通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据，获取类似的口语数据的标准发音语谱图，并给出预先录制好的标准发音口腔舌位动画，供用户重复进行外语口语训练，从而能够帮助用户对自身的实际口语发音情况进行有针对性的调整改善，大大提升了口语发音训练的训练效果。

文档序号 : 【 40164115 】

技术研发人员：李星,刘飞,戴一鸣,徐勇,聂海文
技术所有人：安徽财经大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

李星丨刘飞丨戴一鸣丨徐勇丨聂海文丨安徽财经大学

一种以NDI-X为配体的MOFs催化剂、制备方法及在锌-硝酸根电池中的应用与流程烹饪设备多参数混合控制方法、烹饪设备和存储介质与流程