视频编解码的方法和装置与流程

2025-11-23 16:20:06 737次浏览

本公开描述总体上涉及视频编解码的实施例。

背景技术：

1、可以使用具有运动补偿的图片间预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片，每个图片具有例如1920×1080亮度样本及相关色度样本的空间维度。所述系列图片可以具有固定的或可变的图片速率(也非正式地称为帧率)，例如每秒60张图片或60hz。未压缩的视频具有很高的比特率要求。例如，每个样本8比特的1080p60 4:2:0视频(60hz帧率下1920x1080亮度样本分辨率)要求接近1.5gbit/s带宽。一小时这样的视频就需要超过600gb的存储空间。

2、视频编码和解码的一个目的是通过压缩减少输入视频信号的冗余。压缩可以帮助降低对上述带宽或存储空间的要求，在某些情况下可降低两个或更多数量级。无损压缩和有损压缩、以及两者的组合均可采用。无损压缩是指从压缩的原始信号中重建原始信号精确副本的技术。当使用有损压缩时，重建信号可能与原始信号不完全相同，但是原始信号和重建信号之间的失真足够小，使得重建信号可用于预期应用。有损压缩广泛应用于视频。容许的失真量取决于应用。例如，相比于电视应用的用户，某些消费流媒体应用的用户可以容忍更高的失真。可实现的压缩比反映出：较高的允许/容许失真可产生较高的压缩比。

3、视频编码器和解码器可以利用几大类技术，例如包括：运动补偿、变换、量化和熵编码。

4、视频编解码器技术可以包括已知的帧内编解码技术。在帧内编解码中，在不参考先前重建的参考图片的样本或其它数据的情况下表示样本值。在一些视频编解码器中，图片在空间上被细分为样本块。当所有的样本块都以帧内模式编解码时，该图片可以为帧内图片。帧内图片及其衍生(例如独立解码器刷新图片)可用于复位解码器状态，并且因此可用作已编码视频比特流和视频会话中的第一图片，或用作静止图像。帧内块的样本可用于变换，并且可以在熵编码之前量化变换系数。帧内预测可以是一种使预变换域中的样本值最小化的技术。在某些情况下，变换后的dc值越小，且ac系数越小，则在给定的量化步长尺寸下表示熵编码后的块所需的比特越少。

5、如同从诸如mpeg-2编解码技术中所获知的，传统帧内编解码不使用帧内预测。然而，一些较新的视频压缩技术包括：试图从例如周围样本数据和/或元数据中得到数据块的技术，其中周围样本数据和/或元数据是在空间相邻块的编码/解码期间、且在解码顺序之前获得的。这种技术后来被称为"帧内预测"技术。需要注意的是，至少在某些情形下，帧内预测仅使用正在重建的当前图片的参考数据，而不使用参考图片的参考数据。

6、可以存在许多不同形式的帧内预测。当在给定的视频编解码技术中可以使用超过一种这样的技术时，所使用的技术可以按帧内预测模式进行编解码。在某些情形下，模式可以具有子模式和/或参数，且这些模式可以单独编解码或包含在模式码字中。给定模式/子模式/参数组合使用哪个码字会影响通过帧内预测获得的编解码效率增益，因此用于将码字转换成比特流的熵编码技术也会出现这种情况。

7、h.264引入了一种帧内预测模式，其在h.265中进行了改进，且在诸如联合开发模型(jem)、通用视频编解码(vvc)、基准集合(bms)等更新的编解码技术中进一步被改进。使用属于已经可用的样本的相邻样本值可以形成预测块。将相邻样本的样本值按照某一方向复制到预测块中。对所使用方向的引用可以被编码在比特流中，或者本身可以被预测。

8、运动补偿可以是一种有损压缩技术，且可涉及如下技术：来自先前重建的图片或重建图片一部分(参考图片)的样本数据块在空间上按运动矢量(下文称为mv)指示的方向移位后，用于新重建的图片或图片部分的预测。在某些情况下，参考图片可与当前正在重建的图片相同。mv可具有两个维度x和y，或者三个维度，其中第三个维度表示正在使用的参考图片(后者间接地可以是时间维度)。

9、在一些视频压缩技术中，应用于样本数据的某个区域的mv可根据其它mv来预测，例如根据与正在重建的区域空间相邻的样本数据的另一个区域相关的、且按解码顺序在该mv前面的那些mv。这样做可以大大减少编解码mv所需的数据量，从而消除冗余并增加压缩量。mv预测可以有效地进行，例如，因为在对从相机导出的输入视频信号(称为自然视频)进行编解码时，存在一种统计上的可能性，即面积大于单个mv适用区域的区域，会朝着类似的方向移动，因此，在某些情况下，可以使用从相邻区域的mv导出的相似运动矢量进行预测。这导致针对给定区域发现的mv与根据周围mv预测的mv相似或相同，并且在熵编解码之后，又可以用比直接编解码mv时使用的比特数更少的比特数来表示。在某些情况下，mv预测可以是对从原始信号(即样本流)导出的信号(即mv)进行无损压缩的示例。在其它情况下，例如由于根据几个周围mv计算预测值时产生的取整误差，mv预测本身可能是有损的。

10、h.265/hevc(itu-t h.265建议书，“高效视频编解码”，2016年12月)描述了各种mv预测机制。在h.265提供的多种mv预测机制中，本公开描述的是下文称为“空间合并”的技术。

11、参照图1，当前块(101)包括编码器在运动搜索过程中发现的样本，所述样本可以根据已在空间上移位的相同大小的先前块进行预测。不直接对mv进行编解码，而是使用与五个周围样本中的任何一个相关联的mv，从与一个或多个参考图片相关联的元数据中导出该mv，例如，从最近的(按解码顺序)参考图片中导出该mv。其中，五个周围样本分别用a0、a1和b0、b1、b2(分别为102到106)表示。在h.265中，mv预测可使用相邻块正在使用的同一参考图片的预测值。

技术实现思路

1、本公开的各方面提供了一种在视频解码器处进行视频解码的第一方法。所述方法可以包括：接收第一高级语法(hls)元素，所述第一hls元素指示对帧内编码块启用还是禁用显式多变换选择(mts)；接收第二hls元素，所述第二hls元素指示对帧间编码块启用还是禁用所述显式mts。所述第一hls元素和所述第二hls元素控制同一组编码块，所述同一组编码块包括所述帧内编码块和所述帧间编码块。当所述第一hls元素指示对所述帧内编码块禁用所述显式mts，并且所述第二hls元素指示对所述帧间编码块启用所述显式mts时，对所述帧内编码块启用隐式mts。

2、所述方法的实施例可以进一步包括将所述隐式mts应用于所述帧内编码块。用于处理所述帧内编码块的变换类型根据所述帧内编码块的大小来确定。在各种示例中，所述第一hls元素或所述第二hls元素为以下之一：视频参数集(vps)语法元素，序列参数集(sps)语法元素，图片参数集(pps)语法元素，切片头语法元素，图块头语法元素，或图块组头语法元素。在实施例中，所述帧内编码块不使用帧内子分区(isp)模式进行编码。在实施例中，所述方法可以进一步包括：接收第三hls元素，所述第三hls元素指示对所述帧间编码块和所述帧内编码块中的每一个启用mts。

3、本公开的各方面提供了一种在视频解码器处进行视频解码的第二方法。所述第二方法可以包括：接收第一hls元素，所述第一hls元素指示对帧内编码块启用还是禁用显式mts；接收第二hls元素，所述第二hls元素指示对所述帧内编码块禁用还是启用不可分离二次变换(nsst)或基于矩阵的帧内预测(mip)。当所述第一hls元素指示对所述帧内编码块禁用所述显式mts，并且所述第二hls元素指示对所述帧内编码块禁用所述nsst或所述mip时，对所述帧内编码块启用隐式mts。

4、本公开还提供了一种在视频解码器处进行视频解码的第三方法。所述第三方法可以包括：接收与第一块级别语法元素和第二块级别语法元素相关联的帧内编码块，所述第一块级别语法元素指示是否应用mts，所述第二块级别语法元素指示是否应用nsst。当所述第一块级别语法元素指示不应用所述mts，并且所述第二块级别语法元素指示不应用所述nsst时，对所述帧内编码块启用隐式mts。

5、注意，虽然本技术涉及nsst，但所公开的方法和系统可以应用于nsst的变体，例如缩减大小变换(rst)和低频不可分离二次变换(lfnst)。因此，nsst、rst和/或lfnst可以在整个本技术中互换使用。

文档序号 : 【 40126320 】

技术研发人员：刘杉,赵欣,李翔
技术所有人：腾讯美国有限责任公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

刘杉丨赵欣丨李翔丨腾讯美国有限责任公司