聚类 – NLP菜鸟笔记

论文：https://arxiv.org/pdf/2103.12953.pdf

代码：https://github.com/amazon-science/sccl

概述

无监督聚类的目的是根据在表示空间中测量的一定距离发现数据的语义类别。然而，在学习过程的开始阶段，不同的类别往往在表示空间中相互重叠，这对基于距离的聚类在实现不同类别之间的良好分离提出了重大挑战。为此，论文提出了用对比学习支持聚类(SCCL)——一个利用对比学习促进更好分离的新框架。论文实验证明SCCL在利用自底向上实例识别和自顶向下聚类的优势方面的有效性，在使用真实聚类标签进行评估时，可以获得更好的簇内和簇间距离。

即使使用深度神经网络，在聚类开始之前，数据在不同类别之间仍然存在显著重叠。因此，通过优化各种基于距离或相似度的聚类目标学习到的聚类纯度较低。

实例对比学习（Instance-CL）通常在通过数据增强获得的辅助集上进行优化。顾名思义，对比损失用于将原始数据集中同一实例的增强样本拉到一起，而将不同实例的增强样本推开。Instance-CL将不同的实例分散开来，同时在某种程度上隐式地将相似的实例聚集在一起。通过将重叠的类别分散开来，可以利用这种有益的属性来支持聚类。然后进行聚类，从而更好地分离不同的簇，同时通过明确地将该簇中的样本集中在一起，使每个簇更紧密。如图所示：

继续阅读

分类：聚类

论文笔记：Supporting Clustering with Contrastive Learning

概述