Learning Transferable Visual Models From Natural Language Supervision (CLIP)

论文在线阅读

中文翻译：从自然语言监督中学习可迁移的视觉模型

论文介绍

发表时间与作者：该论文由 OpenAI 的 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh 等众多研究人员共同撰写，于 2021 年 1 月首次发布在 arXiv 上，并在 ICML 2021 会议上发表。
研究背景：传统的计算机视觉模型（尤其是在 CLIP 之前）通常严重依赖于大规模、人工标注的数据集（如 ImageNet）进行监督学习，这不仅成本高昂，而且限制了模型对新任务和新概念的泛化能力。研究人员希望利用互联网上更容易获取的大量带有自然语言描述的图像数据进行学习。
解决问题：论文旨在解决如何利用网络上自然存在的、未经严格筛选的（图像，文本）对数据，通过自然语言监督来训练一个强大的、可迁移的视觉模型。核心目标是让模型能够以零样本（Zero-Shot）的方式泛化到各种视觉识别任务，而无需针对特定任务进行微调或使用特定任务的标注数据。
解决效果：CLIP (Contrastive Language-Image Pre-training) 模型取得了革命性的成果：
- 强大的零样本迁移能力：CLIP 在没有针对特定数据集进行训练的情况下，在超过 30 个不同的图像分类基准（包括 ImageNet, CIFAR, STL-10 等）上展现了惊人的零样本分类性能，其表现常常可以媲美甚至超越在该数据集上进行专门监督训练的模型。
- 鲁棒性：相比标准的 ImageNet 训练模型，CLIP 对自然分布变化表现出更强的鲁棒性。
- 任务通用性：除了图像分类，CLIP 的特征还被证明可用于多种下游任务，如动作识别、OCR、细粒度分类、地理定位等，通常也以零样本方式进行。
- 效率：虽然预训练计算量巨大，但 CLIP 在下游任务上的零样本推理非常高效，因为它不需要为每个新任务重新训练或微调。
影响力：CLIP 是多模态学习和计算机视觉领域的里程碑式工作。截至 2025 年初，该论文已被引用数万次。它极大地推动了利用大规模网络数据和自然语言进行视觉预训练的研究方向，普及了对比学习在视觉-语言领域的应用，并为后续的许多多模态基础模型（如 DALL·E 2, Stable Diffusion 中的文本编码器）奠定了基础。

论文主要内容概括

核心方法：对比语言-图像预训练 (CLIP)

CLIP 的核心思想是学习一个多模态嵌入空间，使得匹配的（图像，文本）对在该空间中的表示尽可能接近，而不匹配的对则尽可能远离。

模型架构：
- 图像编码器 (Image Encoder)：将输入的图像编码成一个特征向量。论文中实验了多种架构，包括 ResNet 和 Vision Transformer (ViT)。
- 文本编码器 (Text Encoder)：将输入的文本描述编码成一个特征向量。通常使用基于 Transformer 的架构。
训练数据：
- 从互联网上收集了一个包含 4 亿个（图像，文本）对的大规模数据集 (WIT - WebImageText)。这些数据相对嘈杂，未经严格筛选。
对比学习目标 (Contrastive Objective)：
- 在一个训练批次 (batch) 中，假设有 N 个（图像，文本）对。
- 将 N 个图像输入图像编码器，得到 N 个图像特征向量 {I_1, ..., I_N}。
- 将 N 个文本输入文本编码器，得到 N 个文本特征向量 {T_1, ..., T_N}。
- 计算所有 N x N 个可能的（图像，文本）对之间的余弦相似度。
- 目标是最大化 N 个正确配对（即 (I_i, T_i)）的相似度，同时最小化 N² - N 个错误配对（即 (I_i, T_j) 其中 i ≠ j）的相似度。这通常通过对称的交叉熵损失函数来实现。

零样本预测 (Zero-Shot Prediction)

CLIP 最引人注目的能力是其零样本预测能力，尤其是在图像分类任务上：

构建分类器：对于一个给定的分类任务（例如，区分猫、狗、飞机），不需要重新训练模型。而是将类别名称嵌入到预定义的文本模板中，形成描述性文本（例如，“a photo of a cat.”, “a photo of a dog.”, “a photo of a plane.”）。
编码文本：使用预训练好的文本编码器对这些描述性文本进行编码，得到每个类别的文本特征向量。
编码图像：使用预训练好的图像编码器对需要分类的图像进行编码，得到图像特征向量。
预测：计算图像特征向量与所有类别文本特征向量之间的余弦相似度。选择相似度最高的类别作为预测结果。

关键发现

自然语言监督的有效性：证明了仅使用网络上的自然语言描述作为监督信号，就可以学习到非常强大且可迁移的视觉表示。
规模效应：模型性能随着模型大小和训练数据量的增加而提升。
零样本学习的潜力：展示了通过对比学习可以在无需任务特定标注的情况下实现强大的零样本泛化。
Prompt Engineering 的重要性：发现使用描述性文本模板（如 "a photo of a {class}"）比仅使用类别名称（如 "{class}"）能显著提高零样本分类性能。

局限性

细粒度识别能力有限：在需要区分非常相似类别（如不同种类的鸟）的任务上，表现不如专门训练的模型。
抽象概念理解困难：难以处理计数、复杂空间关系或更抽象的任务。
数据偏见：由于训练数据来自互联网，模型可能学习并放大了数据中存在的社会偏见。
对措辞敏感：零样本预测性能有时对文本提示的措辞比较敏感。

主要结论

自然语言是学习视觉概念的有效监督信号：利用大规模（图像，文本）对进行对比学习，可以训练出强大的视觉模型。
零样本迁移是可行的：预训练好的 CLIP 模型可以直接应用于多种视觉任务，无需微调。
简单、可扩展的方法：CLIP 的对比学习方法相对简单且易于扩展到更大的模型和数据集。

实际应用与意义

CLIP 的发布对 AI 领域产生了深远影响：

改变了视觉预训练范式：从依赖 ImageNet 等标注数据集转向利用更大规模、更多样化的网络数据和自然语言监督。
赋能零样本/少样本学习：极大地推动了零样本和少样本学习在计算机视觉中的应用，降低了对大量标注数据的依赖。
多模态研究的基石：成为许多后续多模态模型（如 DALL·E 2, Stable Diffusion）的关键组成部分或重要基准。
广泛的应用场景：被用于图像检索、图像生成引导、视频理解、机器人感知等多种场景。

CLIP 展示了一种更接近人类学习方式（通过语言和感官经验关联）的模型训练方法，并为构建更通用、更鲁棒的人工智能系统开辟了新的道路。

Learning Transferable Visual Models From Natural Language Supervision (CLIP) ​

论文介绍 ​

论文主要内容概括 ​

核心方法：对比语言-图像预训练 (CLIP) ​

零样本预测 (Zero-Shot Prediction) ​

关键发现 ​

局限性 ​

主要结论 ​

实际应用与意义 ​