一种基于智能语音交互的建筑施工指挥沟通系统的制作方法

2025-09-08 16:40:06 351次浏览

本发明涉及建筑施工指挥沟通领域，具体而言，涉及一种基于智能语音交互的建筑施工指挥沟通系统。

背景技术：

1、在传统的建筑施工指挥过程中，主要依赖于人工沟通和现场监控，然而这种方式存在诸多问题，如沟通效率低下、信息传递不准确，甚至存在安全隐患；随着科技的飞速发展，尤其是语音识别、自然语言处理、增强现实等技术的日新月异，建筑施工指挥领域也开始寻求技术的融合与创新，以提升施工指挥的效率和安全性；然而，目前市场上的技术方案大多只集中在单一或少数几个技术的集成上，缺乏一个全面、智能、个性化且安全的建筑施工指挥系统；这种局限性使得现有的技术方案无法满足现代建筑施工指挥的复杂需求，特别是在处理多语言沟通、理解复杂语义、提供直观视觉指引以及确保用户反馈机制方面存在明显短板。

2、例如：中国发明专利（申请号：cn110288993a）所公开的“一种基于容器技术的个性化智能语音交互方法及装置”，其说明书公开：智能语音交互系统，是通过asr语音识别将用户的声音转化成文字的形式，然后使用nlp自然语言处理技术理解语义，得出最合适的回答，以此达到与用户的交互。现有的技术有些使用同一个语言模型处理不同用户的对话，有些使用不同的语言模型，但是使用同一个分词器对对话文本进行分词。现有的技术存在以下缺点：1、首先，使用同一个语言模型无法针对不同的用户做个性化的处理，无法优化语言交互的效果。2、其次，如果使用不同的语言模型，但是因为分词器相同，则无法对一些特殊场景的词语进行正确分词。比如：“我们是建筑行业的，不需要你们提供的数据”这句话里面“建筑行业”不需要分词，但是“我们是建筑行业的，你们能提供什么数据？”这句话里面的“建筑行业”就需要分词为“建筑”和“行业”，以便针对不同的行业做不同的答复。3、另外，加载后的语言模型会消耗很大的服务器性能（特别是内存），在该用户没有使用的时候这部分服务器资源是被浪费的；上述专利可以佐证现有技术存在的缺陷。

3、因此我们对此做出改进，提出一种基于智能语音交互的建筑施工指挥沟通系统。

技术实现思路

1、本发明的目的在于：针对目前市场上的技术方案大多只集中在单一或少数几个技术的集成上，缺乏一个全面、智能、个性化且安全的建筑施工指挥系统；这种局限性使得现有的技术方案无法满足现代建筑施工指挥的复杂需求，特别是在处理多语言沟通、理解复杂语义、提供直观视觉指引以及确保用户反馈机制方面存在明显短板。

2、为了实现上述发明目的，本发明提供了基于智能语音交互的建筑施工指挥沟通系统，以改善上述问题。

3、本技术具体是这样的：包括：

4、语音识别单元：用于将语音信号转换为文本，实现语音到文本的转换；

5、语言处理单元：用于对转换后的文本进行理解和处理，包括分词、词性标注、句法分析与语义理解，以提取关键信息和意图；

6、情感分析单元：用于分析语音中的情感信息，包括积极、消极与紧急，以辅助判断沟通内容的紧迫性和重要性；

7、语言翻译单元：用于将一种语言的语音信号转换为另一种语言的文本或语音，实现多语言环境下的有效沟通；

8、现实显示单元：用于将沟通信息以增强现实的形式显示在施工现场，提供直观的视觉辅助和指引；

9、所述现实显示单元具体包括：

10、无人机控制模块：利用无人机，采集建筑施工现场的图片以及视频，通过特征提取技术对所采集的图像以及视频进行处理，并通过数传电台通信技术，对处理后的图像以及视频进行传输；

11、ar显示模块：接收来自无人机控制模块处理后的图像以及视频信息，并对其进行二次处理，并对处理后的数据进行再次传输，同时对语音识别单元、语言处理单元、情感分析单元与语言翻译单元输出的信息进行展示；

12、危险预测模块：利用危险识别与机器深度学习技术，对ar显示模块传输的数据进行处理，从而进行风险评估，并配合ar显示模块对评估的结果进行展示与播报。

13、作为本技术优选的技术方案，所述无人机控制模块具体采用pid控制算法控制无人机飞行，且所述pid控制算法的算法公式为：

14、位置式pid：u(t)=kp×e(t)+ki×∫0te(τ)dτ+kd×de(t)/dt；

15、其中u(t)是时间t处的控制器输出；kp、ki和kd分别是比例、积分和微分增益；e(t)是时间t处的偏差，定义为设定点与过程变量之差：e(t)=sp−pv；∫0te(τ)dτ是偏差随时间的积分，从0到当前时间t；de(t)/dt是偏差随时间的变化率，即当前偏差与上次偏差之差除以时间间隔；

16、增量式pid：pid输出(n)=kp×当前偏差(n)+ki×∑i=0n偏差(i)+kd×[当前偏差(n)−上次偏差(n−1)]；

17、其中，kd×[当前偏差(n)−上次偏差(n−1)]是比例项的变化量；ki×∑i=0n偏差(i)是积分项的变化量，kp×当前偏差(n)是微分项的变化量。

18、作为本技术优选的技术方案，所述ar显示模块具体采用sift算法以及surf算法配合边缘检测技术，对图像进行二次处理，所述边缘检测技术的具体算法公式为：

19、gx=∑u=−11∑v=−11i(x+u、y+v)×sobelx(u+1、v+1)；

20、gy=∑u=−11∑v=−11i(x+u、y+v)×sobely(u+1、v+1)；

21、其中sobelx和sobely是固定的3x3矩阵，gx和gy分别是图像在x方向和y方向上的梯度；i(x+u、y+v)表示图像在点（x+u、y+v）处的强度，sobelx(u+1、v+1)和sobely（u+1、v+1）分别是sobel算子在x方向和y方向上的分量。

22、作为本技术优选的技术方案，所述危险预测模块中的危险识别与机器深度学习具体通过卷积神经网络与循环神经网络及其变体技术优化目标函数实现危险的识别，所述卷积神经网络的具体算法公式为：

23、s(i、j)=(i∗k)(i、j)=∑m∑ni(i−m、j−n)k(m、n)；

24、其中s（i、j）是输出信号或图像在位置（i、j）的值，i是输入信号或图像，k是卷积核；符号∗表示卷积操作；i(i−m、j−n)表示输入信号或图像在位置（i−m、j−n）的值；k(m、n)表示卷积核在位置（m、n）的值；∑m∑n是双重求和符号，意味着对卷积核的所有位置（m、n）进行遍历，并将乘积i(i−m、j−n)k(m、n)累加起来；

25、所述循环神经网络及其变体的具体算法公式为：

26、隐藏层状态计算：st=f(uxt+wst−1+b)；

27、其中st是当前时间步的隐藏状态，xt是当前时间步的输入，u是输入层到隐藏层的权重矩阵，w是上一时间步隐藏层到当前时间步隐藏层的权重矩阵，b是偏置向量，f是激活函数，st−1是前一个时间步的隐藏状态；

28、所述风险评估具体采用概率模型的方式，其具体的算法公式为：

29、p(a|b) = p(b|a) * p(a) / p(b)；

30、其中，p(a|b) 表示在事件b发生的条件下，事件a发生的概率；p(b|a) 表示在事件a发生的条件下，事件b发生的概率；p(a) 表示事件a发生的先验概率；p(b) 表示事件b发生的先验概率。

31、作为本技术优选的技术方案，所述情感分析单元具体包括如下步骤：

32、步骤一：情感语音数据采集，采集语言信息，并对采集到的数据进行标注以及预处理；

33、步骤二：利用梅尔频率倒谱系数与基频技术，对步骤一中处理后的数据进行特征提取；

34、步骤三：选择支持向量机与朴素贝叶斯模型配合深度学习技术，进行模型训练，从而将标注好的语音数据划分为训练集和验证集；

35、步骤四：根据步骤三中验证集上的表现对模型进行调整；

36、步骤五：对实时接收的语音进行分析与处理，进而输出相对应的情感类别，并根据实际应用中的反馈进行持续调整。

37、作为本技术优选的技术方案，所述步骤一中的预处理包括去噪以及归一化，且其算法公式分别为：

38、去噪：y[n]=（1/2k+1）∑i=−kkx[n+i]；

39、其中，x[n]是原始数据，y[n]是去噪后的数据，k是滤波器的大小，x[n+i]是x[n+i]是序列x在时间步n+i的值；

40、归一化：y=x−min(x)/max(x)−min(x)；

41、其中，x是原始数据，y是归一化后的数据，min（x）和max（x）分别是原始数据的最小值和最大值。

42、作为本技术优选的技术方案，所述步骤三中的支持向量机其具体的决策函数表示为：

43、f(x)=sign(wtϕ(x)+b)；

44、其中f（x）表示分类器的预测函数；sign表示符号函数，w是权重向量，ϕ（x）是特征映射函数；b是偏置项，t是转置；

45、所述朴素贝叶斯的分类公式为：

46、p(ck∣x)=p(ck)∏i=1np(xi∣ck)/∑j=1kp(cj)∏i=1np(xi∣cj)；

47、其中p(ck∣x)表示在给定特征向量x的情况下，样本属于类别ck的后验概率；p(ck)是类别ck的先验概率；p(xi∣ck)表示在给定类别ck的情况下，特征xi出现的概率；∏i=1np(xi∣ck)是所有特征在给定类别ck的条件下出现的联合概率；∑j=1kp(cj)∏i=1np(xi∣cj)是归一化因子，确保所有类别的后验概率之和为1。

48、作为本技术优选的技术方案，所述语音识别单元具体采用隐马尔可夫模型配合深度神经网络技术，建立语言模型，从而对捕捉的声音进行合成以及生成，所述隐马尔可夫模型的具体算法公式为：

49、p(o∣h)=t=1∏ap(ot∣ht)；

50、p(h)=t=1∏ap(ht∣ht−1)；

51、其中o表示观测序列，h表示隐藏状态序列，a表示观测序列的长度，ot表示第t个观测，ht表示第t个隐藏状态；p（ht∣ht−1）表示隐藏状态的转移概率，p(ot∣ht)是在给定隐藏状态ht下，观察到ot的概率。

52、作为本技术优选的技术方案，所述语言处理单元具体采用tf-idf方式：用于评估一个词语对于一个文件集与一个语料库中的其中一份文件的重要程度；tf和idf的计算公式如下：

53、tf= 某个词在文档中出现的次数 / 文档的总词数；

54、idf= log(总文档数 / (包含该词的文档数 + 1))；

55、tf-idf = tf * idf；

56、其中tf代表词频，idf代表逆文档频率；

57、所述语言处理单元还采用准确率：正确预测的样本数占总样本数的比例；其公式为：

58、accuracy = (tp + tn) / (tp + tn + fp + fn)；

59、其中tp、tn、fp、fn分别表示真正例、真反例、假正例、假反例的数量；

60、召回率与f1分数：用于评估模型在正例或负例上的性能；具体公式分别为：

61、precision = tp / (tp + fp)，recall = tp / (tp + fn)，f1 = 2 *(precision * recall) / (precision + recall)；

62、其中accuracy是准确率，precision 是精确率，recall是召回率，f1是精确率和召回率的调和平均数。

63、作为本技术优选的技术方案，所述语言翻译单元具体采用统计机器翻译与神经机器翻译，

64、所述统计机器翻译的算法公式表示为：

65、p(wt+1∣wt,wt−1,...,w1)；

66、其中，p(wt+1∣wt,wt−1,...,w1)表示目标语言单词wt+1在给定上下文中的概率；

67、所述神经机器翻译的表达公式为：

68、p(y∣x)=t=1∏tp(yt∣y<t,x)；

69、其中，p（y∣x）表示目标语言文本y给定源语言文本x的概率，yt表示第t个目标语言单词；p(yt∣y<t,x)表示在给定输入序列x和之前所有输出值y<t的条件下，观察到第t个输出值yt的概率。

70、与现有技术相比，本发明的有益效果：

71、在本技术的方案中：

72、1.为了解决现有技术中传统人工沟通中可能出现的信息传递延误与误解的问题，本技术通过设置的智能语音交互，实现了快速准确地识别并处理语音指令，从而大幅提升了沟通效率和准确性；

73、2.为了解决现有技术中直观视觉指引的问题，本技术通过设置的ar显示模块，实现了将语言信息以及危险预测信息充分展示出来，从而提供充分且直观的视觉指引；

74、3.通过设置的语言翻译单元，实现了采用统计机器翻译与神经机器翻译技术，可以实现多语言之间的即时翻译，解决了现有技术中面对不同语言时，存在语言障碍的问题；

75、4.通过设置的情感分析单元，实现了分析语音中的情感状态，为建筑施工指挥提供更加人性化的交互体验，解决了现有技术中智慧系统缺乏个性化的问题。

文档序号 : 【 40165117 】

技术研发人员：罗健,冉强,吴涛,朱向荣,张强,苟春波,杜俊,孙敏,黄志强,杨坤浩
技术所有人：成都太阳高科技有限责任公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

罗健丨冉强丨吴涛丨朱向荣丨张强丨苟春波丨杜俊丨孙敏丨黄志强丨杨坤浩丨成都太阳高科技有限责任公司