具有自适应推理的用于机器视频编码和解码的系统、方法和比特流结构与流程

本发明一般涉及视频压缩领域。具体而言,本发明涉及用于混合特征视频比特流和解码器的方法和系统。
背景技术:
1、尽管视频通常被认为是人类消费的媒体,但是在机器应用中使用视频的应用不断增长,诸如先进工业过程、自主车辆、iot应用等。预期这些应用将继续增长,并继续对视频信道带宽提出越来越高的要求。在一些应用中,期望提供针对人类和机器消费优化的视频内容。此比特流可被称作混合比特流。所提出的比特流和解码器的效用主要用于将比特流发送到人类观看者和分析视觉数据的机器的场景。比特流的视频部分旨在用于人类观看者,比特流的特征部分旨在用于机器分析。因此,开发可以压缩、编码和有效地传输适用于人类和机器应用的视频内容的系统和方法将是有益的。
2、边缘设备的迅速激增和自动视频分析的动态增加结合诸如5g和iot的技术和概念已经提出了对将机器视为终端用户的视频编码的改进的需要。
3、当前的现有技术方法是记录、编码来自边缘设备的所有信号并将其发送到服务器。在服务器上,信号的比特流被解码并传递到机器算法以进行分析和处理。这种方法的示例可以在流行的设备中找到,诸如亚马逊的利用alexa的echo、谷歌的利用assistant的home以及苹果的利用siri的设备等。由于这些设备主要处理声音(音频信号),因此有效载荷不会太大。
4、在许多应用(例如具有多个相机的监视系统、智能交通、智能城市应用和/或智能工业应用)中,传统视频编码可以针对机器消费和人类消费需要压缩来自相机的大量视频并且通过网络传输。然而,对于处理视频的设备,例如视频监视系统和住宅门铃相机,对网络带宽和可用性的要求通常非常高。为了减轻这种情况,设备本身可以进行处理的一些早期阶段,并且仅将压缩特征发送到服务器。这样,以边缘的计算复杂度为代价显著减少了有效载荷。减少的有效载荷(低网络使用)和计算复杂度(高电池使用)之间的折衷可以通过自适应委派来解决。处理可以完全由边缘设备完成,在边缘设备和服务器之间委派,或者完全在服务器上完成。
5、视频编解码器可以包括压缩或解压缩数字视频的电子电路或软件。它可以将未压缩的视频转换为压缩格式,反之亦然。在视频压缩的上下文中,压缩视频(和/或执行其某种功能)的设备通常可以被称为编码器,并且解压缩视频(和/或执行其某种功能)的设备可以被称为解码器。
6、压缩数据的格式可以符合标准视频压缩规范。压缩可能是有损的,因为压缩视频缺少原始视频中存在的一些信息。其结果可能包括解压缩视频可能具有比原始未压缩视频更低的质量,因为没有足够的信息来准确地重构原始视频。
7、在视频质量、用于表示视频的数据量(例如,由比特率确定)、编码和解码算法的复杂性、对数据丢失和错误的敏感性、编辑的容易程度、随机访问、端到端延迟(例如,等待时间)等之间可能存在复杂的关系。
8、运动补偿可以包括通过考虑相机和/或视频中的对象的运动来预测给定参考帧(诸如先前和/或未来帧)的情况下预测视频帧或其一部分的方法。它可以在用于视频压缩的视频数据的编码和解码中使用,例如在使用运动图像专家组(mpeg)的高级视频编码(avc)标准(也称为h.264)的编码和解码中使用。运动补偿可以根据参考图像到当前图像的变换来描述图像。,参考图片可以在与当前图片比较时在时间上是先前的,在与当前图片比较时是来自未来的。当可以从先前发送和/或存储的图像精确地合成图像时,可以提高压缩效率。
9、近来在机器人技术、监视、监控、物联网等方面的趋势引入了这样的使用情况,其中在现场记录的所有图像和视频的大部分仅被机器消费,而不会一直到达人的眼睛。这些机器以完成诸如对象检测、对象跟踪、分割、事件检测等任务为目标来处理图像和视频。认识到这种趋势是普遍存在的,并且在将来将只能加速,国际标准化机构致力于标准化图像和视频编码,该图像和视频编码主要是为机器消费而优化的。例如,除了已经建立的标准,例如视觉搜索紧凑描述子和视频分析紧凑描述子之外,还启动了像jpeg ai和机器视频编码的标准。因此,在本领域中越来越重要的是,进一步改进对由机器和混合系统消费的视频的编码和解码,在混合系统中人类观众和机器都消费视频。
技术实现思路
1、本公开包括用于对视频数据进行编码和解码的系统和方法,该视频数据通常用于机器消费,在该系统和方法中使用推理模型。还公开了一种合适的比特流结构。
2、在一个实施例中,一种适于机器应用的视频编码的视频编码器包括:推理选择器;和耦合到推理选择器且从该推理选择器接收模型选择参数的推理元数据编码器。推理编码器从推理选择器接收输入视频信号和推理模型选择参数,并且将输入信号路由到所选择的推理模型。特征编码器耦合到推理编码器并且生成编码的特征子流。复用器从推理元数据编码器接收推理元数据子流和从特征编码器接收特征子流,并且提供编码的比特流。
3、优选地,推理选择器针对输入信号产生对最佳匹配推理模型的建议。还优选的是,推理选择器针对输入信号的每个单元推荐推理模型。在一些实施例中,编码器包括多个推理模型,并且推理编码器操作以将输入信号的每个单元路由到针对该单元所推荐的推理模型。
4、本文还提供了一种用于使用推理编码器所编码的机器应用的视频编码的解码器的实施例。解码器通常包括解复用器,其接收具有编码特征和编码在其中的推理元数据的编码比特流。解复用器操作以从接收的比特流中提取特征子流和推理元数据子流。推理元数据解码器耦合到解复用器并且接收推理元数据子流。推理元数据解码器提取用于对比特流进行编码的推理模型的参数。
5、解码器还包括推理选择器,其响应于推理模型参数从多个推理模型中选择推理模型。特征解码器优选地耦合到解复用器,接收特征子流,并且从该特征子流中提取编码特征。推理解码器从特征解码器接收特征和从推理选择器接收所选择的推理模型,并且提供用于机器消费的解码的输出信号。
6、优选地,比特流包括流级报头,该流级报头具有可以由解复用器用于从比特流中提取特征子流和推理元数据子流的数据的。推理元数据子流还可以包括推理元数据报头和推理元数据有效载荷,并且推理元数据解码器可以使用推理元数据报头中的信息来提取和解码推理元数据有效载荷。特征子流可以包括特征流报头和特征流有效载荷,并且特征流报头可以被特征解码器用于解码特征流有效载荷。
7、在解码器中,推理选择器优选地针对输入信号产生对最佳匹配推理模型的建议。推理选择器优选地针对输入信号的每个单元推荐推理模型。在一些实施例中,解码器具有多个推理模型,并且推理编码器操作以将输入信号的每个单元路由到针对输入信号的该单元所推荐的推理模型。
8、一种使用推理模型所编码的用于图像信息的比特流架构通常包括:流级报头;包括特征流报头和特征流有效载荷的特征子流;以及包括推理元数据报头和推理元数据有效载荷的推理元数据子流。
9、在结合附图阅读本发明的具体非限制性实施例的以下描述时,本发明的非限制性实施例的这些和其他方面和特征对于本领域技术人员将变得显而易见。
技术研发人员:维利博尔·阿齐克,博里约夫·富尔特,哈里·卡尔瓦
技术所有人:OP解决方案有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
