Dirichlet Distribution & LDA

2021. 5. 28. 19:28

728x90

디리클레 분포(Dirichlet Distribution)는 Beta distribution을 다항분포 형태로 확장시킨 분포이다.

디리클레 분포의 수식은 아래과 같이 표현되며 α는 디리클레 분포의 하이퍼 파라메터 벡터이다.

예시는 아래와 같다.

가위/바위/보는 3가지 경우가 나타나는 사건이므로 다항분포(카테고리 분포)에 속합니다. 따라서 관측 사건이 다항분포이므로, 사전확률을 다항분포의 켤레 분포인 디리클레 분포를 사용하면 손쉽게 사후확률 분포를 계산할 수 있겠죠.

그러므로 친구가 가위/바위/보를 내는 확률 X는 디리클레 분포를 따른다고 가정하고 시작합시다. 관측된 값이 없으므로 하이퍼 파라미터 3개는 모두 1로 주었습니다.
사전 확률 분포: X ~ Dir(1, 1, 1)
가위바위보 5판을 했는데, 친구가 (가위, 바위, 보) = (2, 2, 1) 번을 냈습니다.
관측값: (2, 2, 1)
관측값을 바탕으로 사후 확률분포를 계산합니다. 디리클레 분포의 하이퍼 파라미터를 각각 (2, 2, 1) 씩 키워주면 되겠죠.
사후 확률 분포: X' ~ Dir(3, 3, 2)
가위바위보 3판을 더했는데, 친구가 (가위, 바위, 보) = (0, 1, 2)번을 냈습니다.
관측값: (0, 1, 2)
관측값을 바탕으로 사후 확률분포를 또 업데이트합시다.
새로운 사후 확률 분포: X'' ~ Dir(3, 4, 4)