增强型插值滤波的制作方法

2026-02-27 16:40:01 366次浏览

本公开涉及用于增强型插值滤波的方法和装置。

背景技术：

1、在通用视频编码（vvc）中，色度插值滤波器的长度是4抽头。然而，在联合视频探索小组（jvet）-y0172中，表明通过将滤波器长度增加至12抽头，可以获得显著增益。因此，在jvet-y02024中，在探索实验中研究了将滤波器长度增加至6抽头、8抽头和12抽头的影响。

2、视频和图片

3、视频序列由一系列图片组成。在vvc中，用图片顺序计数（poc）值来标识每个图片。poc值表示图片的显示顺序。具有较小poc值的图片在具有较大poc值的另一图片之前显示。

4、分量

5、每个分量可以描述为样本值的二维矩形阵列。通常每个图片由三个分量组成；一个亮度分量y，其中样本值是亮度值；以及两个色度分量cb和cr，其中样本值是色度值。

6、还通常的是，色度分量的尺寸在每个维度上是亮度分量的一半。例如，高清（hd）图片的亮度分量的尺寸是1920x1080，而每个色度分量的尺寸是960x540。分量有时被称为颜色分量。

7、编码单元和编码块

8、块是样本的一个二维阵列。在视频编码中，将每个分量划分成块，并且编码视频比特流包括一系列编码块。在视频编码中，通常将图片划分为覆盖图片的特定区域的单元。

9、每个单元包括来自构成该特定区域的所有分量的所有块，并且每个块完全属于一个单元。vvc中的编码单元（cu）是单元的示例。在vvc中，可以递归地将cu划分为较小cu。顶层处的cu被称为编码树单元（ctu）。

10、cu通常包含三个编码块，即针对亮度的一个编码块和针对色度的两个编码块。亮度编码块的尺寸与cu的尺寸相同。在当前vvc（即，版本1）中，cu的尺寸可以是4x4至128x128。

11、参数集、切片首部和图片首部

12、vvc指定了三种类型的参数集：图片参数集（pps）、序列参数集（sps）和视频参数集（vps）。pps包含对于整个图片通用的数据，sps包含对于编码层视频序列（clvs）通用的数据，并且vps包含对于多个clvs通用的数据（例如，比特流中多层的数据）。

13、在切片的概念中，图片被划分为独立编码的切片，其中，对图片中的一个切片的解码独立于相同图片的其他切片。每个切片具有包括语法元素的切片首部。当解码切片时，使用来自这些语法元素的已解码的切片首部值。

14、在vvc中，编码图片包含图片首部。图片首部包含对于编码图片的所有切片通用的参数。

15、帧内预测

16、在帧内预测（又名空间预测）中，块是使用相同图片内的先前解码的块来预测的。使用来自相同图片内的先前解码的块的样本来预测当前块内部的样本。仅由帧内预测的块组成的图片被称为帧内图片。

17、帧间预测

18、在帧间预测（又名时间预测）中，使用来自先前解码的图片的块来预测当前图片的块。使用来自先前解码的图片的块的样本来预测当前块内部的样本。

19、允许帧间预测块的图片被称为帧间图片。用于帧间预测的先前解码的图片被称为参考图片。

20、使用运动矢量（mv）来指示参考块在参考图片内的位置。每个mv由x分量和y分量组成，这些分量表示当前块和参考块之间的在x维度或y维度上的位移。位移量可以比样本之间的距离更精细。在这种情况下，执行滤波（通常为插值）以计算用于预测的值。图15示出了针对当前块c的mv的示例。

21、帧间图片可以取决于若干个参考图片。通常将参考图片放入到两个参考图片列表l0和l1中。在当前图片之前输出的参考图片通常是l0中的第一图片。在当前图片之后输出的参考图片通常是l1中的第一图片。

22、帧间预测块可以使用以下两种预测类型之一：单向预测和双向预测。根据一个参考图片（使用l0或l1）来预测单向预测块。双向预测根据两个参考图片（来自l0的一个参考图片和来自l1的另一参考图片）进行预测。图16示出了预测类型的示例。

23、低延迟图片和非低延迟图片

24、低延迟图片是其所有参考图片都在该图片之前显示的图片。换言之，对于低延迟图片，其所有参考图片的poc值都小于当前poc。

25、非低延迟图片是其参考图片中的至少一个在该图片之后显示的图片。换言之，非低延迟图片具有poc值比当前poc大的至少一个参考图片。

26、分数mv、插值滤波器和mv舍入

27、mv的x或y分量的值可以对应于具有比整数（样本）位置更精细的粒度的样本位置。这些位置也被称为分数（样本）位置。

28、在vvc中，mv可以在1/16样本位置处（以亮度样本给出，因此对于4:2:0，色度的对应mv在1/32样本位置处）。图17描绘了水平（x）维度上的若干个分数位置。实心方块表示整数位置。圆圈表示1/16位置。例如，mv=（4,10）表示x分量在4/16位置处且y分量在10/16位置处。

29、在视频编码中，有时使用mv舍入过程将一个位置处的mv转换为另一目标位置处的mv。舍入的一个示例是将分数mv位置舍入到最近的整数位置。

30、当mv在分数位置处时，进行滤波（通常为插值）以计算分数位置处的样本值。在vvc中，针对亮度分量的插值滤波器的长度（滤波器抽头的数量）是8，如下表所示（这里，滤波器增益是64（例如，系数之和等于64），这意味着滤波器响应通过除以64或右移6位来进行归一化，以具有单位增益）。

31、

32、在vvc中，当分数样本位置在半像素位置（8/16）处时，可以使用备选滤波器。与前一表中的半像素滤波器相比，备选半像素滤波器具有更多（更强）的低通性质。备选半像素滤波器的系数如下所示。

33、

34、用于对样本块进行滤波的过程是：首先在水平方向上应用滤波，然后在竖直方向上对第一次滤波的输出进行滤波。对最终输出进行归一化（r），使得滤波具有单位增益。可以对第一阶段中的滤波进行向下移位（p），以减少第二次滤波的位深。

35、残差、转换和量化

36、然后，通常通过空间转换压缩源块（包含原始样本）的样本与预测块（又名残差块）的样本之间的差异，以消除进一步的冗余。然后，通过量化参数（qp）对转换系数进行量化，以控制残差块的保真度和压缩该块所需的比特率。编码块标志（cbf）用于指示是否存在任何非零量化转换系数。然后，所有编码参数在编码器处进行熵编码，并在解码器处进行解码。如果编码块标志是1并然后将其添加到预测块，则可以通过对量化转换系数进行逆量化和逆变换来导出重建块。

37、层次化图片编码结构

38、在随机接入配置中，帧内编码图片以固定间隔（如每秒）定位。帧内图片之间的图片通常使用如图3中所示的b-gop结构进行编码。首先对图片0进行编码，然后使用图片0作为图片8的参考图片对图片8进行编码。然后使用图片8和图片0作为参考图片对图片4进行编码。然后类似地对图片2和图片6进行编码。最后，对图片1、3、5和7进行编码。

39、我们将图片1、3、5和7称为最高层次级别，将图片2、4和6称为次最高层次级别，以及将图片4称为次最低级别并且将图片8称为最低级别。通常，图片1、3、5和7不用作任何其他图片的参考。它们被称为非参考图片。图18示出了针对每个图片使用两个参考图片的四层b图片组（gop）结构的示例。

40、针对每个图片指派的qp通常不同并且根据层次级别来设置。针对处于较高层次级别的图片指派较高qp

41、帧间预测/运动信息

42、在vvc中，对于帧间图片内的帧间块，帧间预测信息由以下三个元素组成：

43、（1）参考图片列表标志（refpiclistflag）。该标志表示哪个参考图片列表被用于该块。当该标志的值等于0时，表示仅使用l0来预测当前块。当该标志的值等于1时，表示仅使用l1来预测当前块。当该标志的值等于2时，表示使用l0和l1两者来预测当前块。

44、（2）所使用的每个参考图片列表的参考图片索引（refpicidx）。该索引表示参考列表内的哪个参考图片要用于预测当前块。

45、（3）所使用的每个参考图片的运动矢量（mv）。它表示参考图片内的用于预测当前块的位置。

46、帧间预测信息也被称为运动信息。解码器存储每个帧间块的运动信息。换言之，帧间块维护其自己的运动信息。

47、编码器决策和率失真（rd）成本

48、实际上，为了编码器决定当前块的最佳预测模式，它将评估当前块的所有可能预测模式，并且选择产生最小率失真（rd）成本的预测模式。

49、rd成本被计算为。d（失真）测量重建块和对应源块之间的差异。用于计算d的一个常用度量是平方差之和（sse），其中，其中，和分别是两个块a和b中的样本值。r（速率）通常是对该模式进行编码所花费的比特的估计。是r和d之间的权衡参数。

50、运动信息信令

51、vvc包括隐式地用信号发送每个块的运动信息的若干种方法，包括合并方法和子块合并方法。该隐式方法背后的常见动机是继承或重用来自相邻编码块的运动信息。

52、合并（块合并）方法和合并模式

53、合并方法类似于高效视频编码（hevc）标准中的方法。该方法有时被称为块合并方法，因为所导出的运动信息用于生成整个块的样本。

54、该方法首先生成运动信息候选的列表。该列表也被称为合并列表。这些候选是从先前编码的块中导出的。这些块可以是空间相邻的相邻块或相对于当前块的时间共址块。

55、合并列表构建过程通常以预定义顺序检查先前编码的块，例如t-l-tr-lb-tl。对于正在被检查的每个先前编码的块，如果该先前编码的块是帧间编码的并且其运动信息在该列表中没有重复，则将该先前编码的块的运动信息添加到合并列表中。图19示出了用于获取相邻运动信息的可能的空间相邻块：左（l）、上（t）、右上（tr）、左下（lb）和左上（tl）空间相邻块。

56、在生成合并列表之后，该列表内的候选之一用于导出当前块的运动信息。在编码器侧进行候选选择过程。编码器将从该列表中选择最佳候选，并且在比特流中对索引（merge_index）进行编码，以用信号发送给解码器。解码器接收该索引，它遵循与编码器相同的合并列表导出过程，并且使用该索引来检索正确候选。使用块合并方法的块有时被称为合并模式下的块。

57、在ecm（一种具有超过vvc的压缩能力的增强型压缩模型）的当前开发中，在合并列表构建期间，还考虑从非相邻空间块获取运动信息。图20示出了那些非相邻空间块中的一些（被标记为na1、na2和na3）。

58、子块合并方法和子块运动细化

59、vvc还包括子块合并方法以及基于子块的运动细化。当前块被划分为多个子块，并且允许每个子块具有其自己的运动信息。图21示出了当前块及其子块的示例。对于每个子块，它维护其自己的运动信息。

60、显式运动信息信令

61、vvc还包括显式运动信息信令方法，诸如amvp（备选运动矢量预测）。对于当前帧间块，其参考图片数量、参考图片索引以及运动矢量被用信号发送并且编码到比特流中。

62、当直接继承或重用来自先前编码的帧间块的运动信息不是很好地适合于当前块时，编码器通常选择显式运动信息信令。例如，当先前编码的块和当前块属于不同的对象时，先前编码的块和当前块的运动可能没有很好的相关性。

63、当编码器决定对当前块的mv使用显式信令时，该过程通常涉及导出运动矢量预测器（mvp），其中，mvp是从先前编码的块的mv中导出的。在导出mvp之后，mvp和当前mv之间的运动矢量差（mvd）被计算为mvd=mv-mvp。图22示出了mvd导出的示例。

64、可以清楚地看出，mvd也具有两个分量：x分量和y分量。每个分量具有两部分信息：幅度和符号。在比特流中用信号发送x分量和y分量的幅度和符号信息（如果幅度非零）两者。

65、例如，如果当前块的mv是（+10, -5），并且所导出的mvp是（+7, +3），则mvd将是（+3, -8），其中，3=10-7并且-8=-5-3。在比特流中用信号发送幅度3和8以及符号+和-。

66、为了解码器重建当前块的mv，需要从比特流中解码mvd的x分量和y分量两者的幅度和符号信息。然后，解码器遵循与编码器相同的预测器导出过程来导出mvp，通过使用mvp和mvd来重建mv。通过使用上述示例，解码器从比特流中解码幅度3和8以及符号+和-，以得到mvd（+3, -8）。然后，解码器使用相同的预测器导出过程来得到mvp（+7, +3）。mv被导出为（+10, -5），其中，10=3+7，-5=-8+3。

67、参考图片重采样（rpr）

68、rpr是一种vvc工具，其可以用于使得能够在视频比特流中在不同分辨率之间切换，而无需对具有帧内图片的新序列的启动进行编码。这为调整分辨率以控制比特率（其可以用于例如视频会议或自适应流式传输）提供了更大的灵活性。作为当前图片间预测的一部分，rpr可以通过将其分辨率低于或高于要编码的当前图片的分辨率的先前编码的图片重新缩放到当前图片的分辨率，来利用该先前编码的图片。

技术实现思路

1、存在某些挑战。jvet-y0172和jvet-y02024（测试ee2-2.6）中提出的滤波器在较低频率下具有相位错位。图23（a）至图23（b）中示出了ee2-2.6中建议的滤波器的相位和幅度响应。在图23（a）中，绿色直线示出了理想相位延迟响应，并且红色曲线示出了ee2-2.6滤波器的相位延迟响应。类似地，在图23（b）中，图中的绿线示出了理想幅度响应，并且红色曲线示出了ee2-2.6滤波器的幅度响应。如图23（a）和图9（b）所示，ee2-2.6滤波器在较低频率下具有次优相位特性，并且这种次优相位特性不仅对于12抽头滤波器特别显著，而且对于6抽头滤波器和8抽头滤波器也特别显著，如图24（a）至图25（b）所示。另外，如图26（a）至图27（b）所示，高效视频编码（shvc）滤波器的可缩放扩展中存在相位错位，该shvc滤波器可以用于ecm中的rpr，以与使用12抽头进行亮度运动补偿以进行放大（upscaling）相一致。此外，如图28（a）至图29（b）所示，vvc和ecm中使用的用于2x和1.5x缩小（downscaling）的4抽头色度rpr滤波器在较低频率下衰减，因此与所需程度相比，它们移除了更多的信息。

2、此外，jvet-z0062中提出的用于下采样（又名“缩小”）的2x滤波器会导致较低频率分量的某种放大和较低频率下的一些相位错位。另一方面，虽然jvet-z0062中提出的用于下采样的1.5x滤波器通常效果良好，但它们会导致具有非零幅度的一些较高频率分量的通过。

3、图33（a）至图34（b）示出了jvet-z0062中建议的滤波器的相位和幅度响应（注意，图33示出了与图5（a）和图5（b）所示的滤波器集合#3相同的滤波器）。图33（a）和图34（a）中的直线对应于理想相位延迟响应，图33（a）中的曲线对应于来自jvet-z0062的1.5x下采样12抽头滤波器的相位延迟响应，并且图34（a）中的曲线对应于来自jvet-z0062的2x下采样12抽头滤波器的相位延迟响应（注意，图34（a）示出了与图27（a）和图27（b）中的滤波器相同的滤波器）。

4、图33（b）和图34（b）中的直线对应于参考幅度响应，图33（b）中的实线对应于来自jvet-z0062的1.5x下采样12抽头滤波器的幅度响应，并且图34（b）中的曲线对应于来自jvet-z0062的2x下采样12抽头滤波器的幅度响应。参考幅度响应是与理想响应相似但并非完全理想响应的参考响应。例如，在图33（b）和图34（b）中，直线对应于参考幅度响应但并非理想幅度响应，因为理想幅度响应应从归一化频率0至特定截止频率具有恒定值1并且从该截止频率到归一化频率1具有恒定值0。

5、因此，在本公开实施例的一个方面，提供了一种用于对视频进行编码或解码的方法，该视频包括一系列图片，该一系列图片包括第一图片（例如，参考图片）和第二图片（例如，当前图片）。该方法包括获得第一块中包括的样本的第一组值，其中，第一块被包括在第一图片中；从滤波器集合中选择用于生成第二块中包括的第二组值的滤波器，其中，第二块被包括在第一图片或第二图片中；以及使用所选择的滤波器和第一组值来生成第二组值，其中，滤波器包括6、8、10或12个系数值的集合，并且系数值的该集合是从系数值2的组中选择的。在下述实施例a1中公开了系数值组。

6、在另一方面，提供了一种用于对视频进行编码或解码的方法，该视频包括一系列图片，该一系列图片包括第一图片和第二图片，该方法包括：获得第一块中包括的样本的第一组值，其中，第一块被包括在第一图片中；基于第一图片或第二图片中包括的重建样本的特性来选择滤波器的长度；至少基于所选择的长度来选择滤波器；使用所选择的滤波器对第一组值进行插值；基于对第一组值进行插值的结果，生成第二块中包括的样本的第二组值，其中，第二块被包括在第一图片或第二图片中；以及至少基于第二组值，对该视频进行编码或解码。

7、在不同的方面，提供了一种包括指令的计算机程序，该指令当由处理电路执行时，使该处理电路执行上述实施例中任一实施例所述的方法。

8、在不同的方面，提供了一种用于对视频进行编码或解码的装置，该视频包括一系列图片，该一系列图片包括第一图片和第二图片。该装置被配置为：获得第一块中包括的样本的第一组值，其中，第一块被包括在第一图片中；使用滤波器对第一组值进行插值；基于对第一组值进行插值的结果，生成第二块中包括的样本的第二组值，其中，第二块被包括在第一图片或第二图片中；以及至少基于第二组值，对该视频进行编码或解码，其中，滤波器包括6、8、10或12个系数值的集合，并且该6、8、10或12个系数值的集合是从系数值2的组中选择的。在下述实施例a1中公开了系数值组。

9、在不同的方面，提供了一种用于对视频进行编码或解码的装置，该视频包括一系列图片，该一系列图片包括第一图片和第二图片。该装置被配置为：获得第一块中包括的样本的第一组值，其中，第一块被包括在第一图片中；基于第一图片或第二图片中包括的重建样本的特性来选择滤波器的长度；至少基于所选择的长度来选择滤波器；使用所选择的滤波器对第一组值进行插值；基于对第一组值进行插值的结果，生成第二块中包括的样本的第二组值，其中，第二块被包括在第一图片或第二图片中；以及至少基于第二组值，对该视频进行编码或解码。

10、在不同的方面，提供了一种装置。该装置包括存储器和耦接到该存储器的处理电路，其中，该装置被配置为执行上述实施例中任一实施例所述的方法。

11、本公开的实施例提供了用于插值的具有精确相位的插值滤波器，用于在视频编码中执行运动补偿预测、放大至更高分辨率、缩小至更低分辨率和/或同时用于执行运动补偿（例如，rpr）。滤波器可以至少用于一个颜色或亮度或色度分量。

文档序号 : 【 40163589 】

技术研发人员：肯尼思·安德森,余若洋
技术所有人：瑞典爱立信有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

肯尼思·安德森丨余若洋丨瑞典爱立信有限公司

半导体装置的制造方法与流程处理系统和信息呈现装置的制作方法