- A+
图像检索在搜索引擎中起着至关重要的作用。 通常,他们的用户使用图像或文本作为查询来检索所需的目标图像。 然而,基于文本的检索有其局限性,因为使用短语准确描述目标图像可能具有挑战性。 例如,当搜索流行商品时,用户可能想要具有与他们在网站上找到的商品不同的特定属性(例如徽标的颜色或徽标本身)的商品。 然而,在现有搜索引擎中搜索该商品并不是一件容易的事,因为通过文本准确描述流行商品可能具有挑战性。 为了解决这个问题,组合图像检索 (CIR) 根据组合图像和文本示例的查询来检索图像ai怎么把图案嵌入图形,这些示例提供有关如何更改图像以适应预期检索目标的说明。 为此,CIR 可以通过图像和文本的结合来精确检索目标图像。
然而,CIR方法需要大量的标记数据,即1)查询图像、2)描述和3)目标图像的三元组。 收集这些标记数据的成本很高,但在其上训练的模型通常是针对特定用例定制的,限制了它们泛化到不同数据集的能力。
为了应对这一挑战,在“Pic2Word:将图片映射到短语以进行零样本合成图像检索”中,我们提出了一项称为零样本 CIR(ZS-CIR)的任务。 在 ZS-CIR 中,我们的目标是构建一个 CIR 模型,该模型可以执行各种 CIR 任务,例如对象组合、属性编辑或域转换,而无需标记三元组数据。 相反,我们建议使用大规模图像标题对和未标记图像来训练检索模型,这比大规模监督 CIR 数据集更容易收集。 为了鼓励可重复性并进一步推进该领域,我们还发布了代码。
现有复合图像检索模型的描述。
我们仅使用图像标题数据训练组合图像检索模型。 我们的模型检索与查询图像和文本的组成一致的图像。
方法概述
我们建议在对比语言图像预训练(CLIP)中利用语言编码器的语言特征,它擅长为各种文本概念和属性生成语义上有意义的语言嵌入。 因此,我们在 CLIP 中使用轻量级映射子模块,专用于将输入图像(例如猫的照片)从图像嵌入空间映射到短语标记(例如“cat”)。 整个网络通过视觉语言对比损失进行优化,以再次确保在给定一对图像及其文本描述的情况下,视觉和文本嵌入空间尽可能接近。 之后,查询图像可以被视为短语。 这使得语言编码器能够灵活、无缝地结合查询图像特征和文本描述。 我们将我们的方法称为 Pic2Word 并在右图中概述了其训练过程。 我们希望映射的标记以短语标记的形式表示输入图像。 然后,我们训练映射网络从语言嵌入重建图像嵌入 p。 具体来说,我们优化了 CLIP 中提出的视觉嵌入 v 和文本嵌入 p 之间的对比损失。
映射网络(fM)仅使用未标记的图像进行训练。 我们仅使用冻结的视觉和文本编码器来优化映射网络。
给定一个经过训练的映射网络,我们可以将图像视为短语标记,并将它们与文本描述配对ai怎么把图案嵌入图形,以灵活地组成图文联合查询,如右图所示。
通过经过训练的映射网络,我们将图像视为短语标记,并将它们与文本描述配对,以灵活地组成图像-文本联合查询。
评价
我们进行了各种实验来评估 Pic2Word 在各种 CIR 任务上的性能。
域名转换
我们首先评估所提出的方法在域变换方面的组合能力——给定图像和所需的新图像域(例如雕像、折纸、q-版本、玩具),系统的输出应该是相同的内容,但是与新的所需图像字段或样式的图像。 如右图所示,我们分别评估以图形和文本方式结合类别信息和领域描述的能力。 我们使用 ImageNet 和 ImageNet-R 评估从真实图像到四个域的转换。
为了与不需要监督训练数据的方法进行比较,我们选择了三种方法:(i)仅使用视觉嵌入的图像检索,(ii)仅使用文本嵌入的文本,以及(iii)图像+文本平均视觉和文本嵌入来形成查询。 与(iii)的比较显示了使用语言编码器组成图像和文本的重要性。 我们还与 Combiner 进行比较,后者在 Fashion-IQ 或 CIRR 上训练 CIR 模型。
我们的目标是将输入查询图像的域转换为文本描述的域,例如折纸。
如右图所示,我们提出的方法大大优于基线。
组合图像检索的结果(回想@10,检索到的前 10 张图像中相关实例的比例)进行域转换。
趋势属性的构成
接下来,我们使用 Fashion-IQ 数据集来评估趋势属性的构成,例如面料颜色、徽标和袖口厚度。 右图展示了给定查询所需的输出。
CIR 潮流特性概述。
在右侧面板中,我们提供了与基线的比较,包括使用三元组训练 CIR 模型的监督基线:(i) CB 使用与我们的方法相同的架构,(ii) CIRPLANT、ALTEMIS、MAAF 使用较小的主干网,例如 ResNet50。 与这些方法进行比较将使我们能够看到我们的零样本方法在此任务上的表现如何。
尽管 CB 优于我们的方法,但我们的方法优于主干较小的监督基线。 这一结果表明,通过利用强大的 CLIP 模型,我们可以训练一个高效的 CIR 模型,而无需带注释的三元组。
Fashion-IQ 数据集上的组合图像检索结果(recall @10,前 10 个检索图像中相关实例的比例)(越高越好)。 浅黄色条使用三元组训练模型。 请注意,我们的方法与那些具有浅(较小)主干的监督基线相当。
定性结果
我们在右图中展示了几个示例。 与不需要监督训练数据(文本+图像特征平均)的基线方法相比,我们的方法在正确检索目标图像方面做得更好。
各种查询图像和文本描述的定性结果。
推论和未来的工作
在本文中,我们介绍了 Pic2Word,一种将图片映射到 ZS-CIR 短语的方法。 我们建议将图像转换为短语标记,以仅使用图像标题数据集来实现 CIR 模型。 通过各种实验,我们验证了训练模型在不同 CIR 任务上的有效性,表明在图像描述数据集上进行训练可以建立强大的 CIR 模型。 未来一个潜在的研究方向是使用标题数据训练地图网络,尽管我们在目前的工作中仅使用图像数据。