Paper
Code
Introduction
본 논문은 deep-clustering 논문과 같이 simple하게 clustering과 representation learning을 섞은 방법이 degenerate solutions을 만들어 낸다는 문제가 있다는 점을 지적했다.
Invariant Information Clustering (IIC) 방법은 x와 transformation이 적용된 x' sample간의 mutual information을 이용하여 objective function을 구성한 것이 특징이다.
IIC는 다른 method들에 비해 robust한데,
먼저 clustering degeneracy에 대해 robust하다. clustering degeneracy는 cluster의 prediction을 하나의 class로 prediction하는 현상으로 특히 k-means와 representation learning을 조합했을 때, 더 잘 나타난다.
이러한 현상을 IIC에서는 entropy maximisation term을 넣어서 하나의 class로 prediction할 경우 loss값이 커지게 만들어서 해결한다.
두번째는 모델이 label을 잘못 prediction함으로 생기는 noisy data가 발생한다는 것이다.
이러한 문제를 IIC에서는 auxiliary output layer를 사용함으로 해결한다. 이때 output의 수는 원래 gt의 수보다 더 많게 설정된다. (Auxiliary over-clustering)
Method
IIC는 다음과 같이 x, x'의 representation의 mutual information 값을 maximization하는 방법을 사용한다.
위와 같은 식을 사용하면 x, x'의 representation을 같게 만들어주는 효과가 있다.
위의 mutual information식은 아래와 같이 표현이 가능하다.
위 식을 maximizing하는 것은 다음과 같다.
H(z)를 max로 만드는 것은 z의 확률이 equally하게 형성된다는 것을 의미하며, cluster label assign이 equally하게 되는 것을 의미한다. H(z|z')이 최소화 된다는 것의 의미는 한 sample이 어떤 label로 assign되었을때, 다른 sample도 label이 확정된다는 것을 의미한다.
이때 , H(z)가 maximize됨으로 cluster degeneration을 막을 수 있다. (하나의 cluster만 형성되는 것을 막을 수 있음)