📄 MSc Thesis: Conversational Topic Segmentation with Clustering-based Intermediate Training
📄 MSc Thesis: Conversational Topic Segmentation with Clustering-based Intermediate Training

📄 MSc Thesis: Conversational Topic Segmentation with Clustering-based Intermediate Training

Description
정보공학 석사 (MSc Informatics) 학위 논문 프로젝트입니다. 프로젝트 주제 선정 시, 1) 언어 모형과 관련된 2) 다양한 영역에서 활용될 수 있는 연구 주제를 선정하고자 했습니다. 이러한 이유로, 해당 프로젝트에서는 Topic segmentation이라는 구체적인 Task를 주제로 하고 있지만, 해당 Task의 성능 향상을 위해 기존 모형의 ‘아키텍쳐를 수정’하기보다는, ‘학습 프로세스를 개선’할 수 있는 방안에 대해 고민하였습니다. 모형의 아키텍쳐 변경은 목표로 하는 Task에 대한 성능 향상에 초점이 맞춰져있는 반면, 개선된 학습 프로세스는 Topic segmentation 뿐만 아니라 다양한 다른 Tasks를 위한 모형의 학습에도 적용할 수 있을 것으로 기대했기 때문입니다. 또한 기존에 머신러닝 모델링 업무를 하면서 가장 빈번하게 겪었던 문제가 레이블 데이터의 부족이었기 때문에, 이를 극복하거나 완화시킬 수 있는 방향으로 연구를 진행하였습니다. 해당 논문은 최종 심사에서 ‘A (Distinction)’를 획득하였습니다.
Demo

논문 요약

문제 제기

  • 토픽 세그멘테이션(Topic Segmentation)은 하나의 텍스트를 의미론적으로 일관된 여러 개의 세그먼트로 분할하는 작업을 의미한다. 해당 태스크는 텍스트의 가독성 향상 및 다양한 다운스트림 NLP 태스크 성능 향상에 기여할 수 있다는 점에서 핵심적인 NLP 태스크 중 하나이다.
  • 토픽 세그멘테이션을 위한 모형으로 사전 학습된 언어 모형(Pre-trained Language Model)을 활용한 계층적 뉴럴 네트워크가 널리 이용되고 있으며, 토픽 세그멘테이션 작업을 위한 미세 조정(Fine-tuning)에는 텍스트의 어느 위치에서 주제 변경이 발생하는지가 표기된 대량의 레이블 데이터가 요구된다.
  • Wikipedia, Article과 같은 구조적 텍스트(written text)의 경우, 글에 존재하는 구조적 정보(섹션, 문단, 소제목 등)를 통해 레이블을 자동으로 확보할 수 있지만, ASR을 통해 획득한 대화 데이터의 경우에는 이러한 구조적 정보가 없으므로 수작업을 통한 레이블링에 매우 의존적일 수 밖에 없다.

본 연구에서 제안한 접근법

  • 사전 학습된 언어 모형을 최종 작업에 맞추어 미세 조정하는 과정에서, 사전 학습 태스크(MLM, NSP)와 미세 조정 태스크(Predicting Topic Changes) 사이에는 상당한 차이가 존재한다. 한편, 최근의 연구들은 사전 학습과 미세 조정의 Objectives(Tasks) 사이의 차이가 클수록, 미세 조정에 필요한 데이터의 양이 증가한다는 것을 밝혀왔다. 다시 말해, 두 학습 프로세스의 Objective가 유사할수록 미세 조정에 필요한 레이블 데이터의 양은 감소한다.
  • 이에 따라, 이 연구는 상이한 학습 목표를 지니고 있는 두 학습 프로세스를 Bridge 하기 위한 방안으로 클러스터링 기반의 중간 학습(Intermediate Training)을 제안한다. 중간 학습이란, 사전 학습된 모형을 최종 태스크에 미세 조정하기에 앞서, 사전 학습 목표(MLM, NSP)보다 최종 목표(Predicting Topic Changes)와 유사한 중간 목표(Predicting Cluster Labels)에 대한 미세 조정을 수행하는 것을 의미한다. 이러한 클러스터링 기반의 중간 학습은, 클러스터링을 통해 생성된 레이블이 최종 작업의 레이블(토픽 변경 여부)과 관계가 있다는 가정에 기반한다.

제안된 접근법의 의의

  • 제안된 접근법은 중간 학습을 통해 기존의 사전 학습과 미세 조정 태스크 사이의 차이를 감소시킴으로써, 소량의 레이블 데이터만으로도 최종 작업에 대한 미세 조정을 효과적으로 수행할 수 있도록 한다.
  • 기존의 학습 프로세스는 지도 학습 프레임워크에 기반하고 있는 반면, 본 연구에서 제안한 접근법은 이를 준지도학습(Semi-supervised learning) 기반으로 전환한다. 즉, 클러스터링은 비지도적 방법이므로, 최종 레이블(토픽 변경 발생 여부)이 없는 비레이블 데이터에 대해서도 적용할 수 있다. 따라서, 기존에는 미세조정에 활용할 수 없었던 비레이블 데이터에 대해서도 클러스터 레이블을 생성할 수 있으며, 이를 중간 학습 과정에 활용할 수 있다. 따라서, 제안된 접근법은 레이블링 되지 않은 데이터를 모형 학습 과정에 추가로 활용할 수 있는 방향을 제시한다.
  • 제안된 접근법은 비지도적 방법인 클러스터링을 통해 pseudo-label 을 생성하고, 이를 중간 훈련의 타겟 레이블로 활용한다는 점에서 자기지도학습(Self-supervised learning)에 해당한다고 볼 수 있다.

연구 결과

  • 클러스터링을 통해 생성된 각 군집에서, 토픽 변경이 발생하는 문장과 발생하지 않는 문장의 비율에는 상당한 차이가 있다. 즉, 클러스터링 알고리즘은 토픽 변경이 발생하는 문장들의 유사성을 일정 수준에서 Capture 할 수 있다. 따라서, 클러스터 레이블과 최종 레이블(토픽 변경 여부) 사이에는 일정 수준의 상관관계가 존재한다.
  • 이에 따라, 클러스터 레이블 예측을 목적으로 하는 중간 학습은 사전 학습과 최종 미세 조정을 효과적으로 Bridge 할 수 있으며, 이는 최종 작업에 대한 미세 조정의 효과성을 제고할 수 있다. 따라서, 동일하게 소량의 레이블 데이터가 주어진 경우에도 기존의 접근법보다 향상된 성능을 모형을 학습시킬 수 있다. 본 연구에서는 실험을 통해 레이블 데이터의 비율이 전체 데이터의 10%일 때, 세그멘테이션 성능을 평가하기 위한 지표 가 0.2969에서 0.2731로 감소하여 8% 정도 수준의 성능 개선을 확인하였다.
  • 추가적으로, 연구자가 확인할 수 있는 테스트 도메인에 대한 정보를 활용하여 클러스터링 알고리즘의 하이퍼 파라미터를 튜닝함으로써, 본 연구에서 제안한 클러스터링 기반 중간 훈련의 효과성을 극대화 할 수 있다는 사실을 경험적으로 확인하였다.
 

초록 (Abstract)

초록 (국문)

토픽 세그멘테이션(Topic Segmentation)은 텍스트를 의미론적으로 일관된 여러 텍스트 조각들로 분할하는 핵심적인 NLP 태스크이다. 해당 태스크는 텍스트의 가독성을 향상시킬 수 있을 뿐만 아니라, 텍스트 요약이나 검색과 같은 다양한 다운스트림 NLP 태스크의 성능 향상에도 기여할 수 있다. 최근의 연구들은 사전 학습된(Pre-trained) 문장 인코더와 세그먼트 예측기로 구성된 계층적 신경망 기반의 세그멘테이션 모형을, 자동으로 레이블링된 텍스트 데이터셋에 대해 미세 조정(Fine-tuning)하는 것이 해당 작업에 매우 효과적이라는 것을 밝혀왔다. 하지만 대화 데이터에 대한 토픽 세그멘테이션에 있어서 미세 조정을 위한 충분한 양의 레이블을 확보하는 것은 쉽지않은데, 이는 해당 데이터에 대한 레이블링이 수작업에 매우 의존적이기 때문이다. 결과적으로, 충분하지 않은 양의 대화 데이터를 통해 미세 조정된 모형은 잠재적인 수준보다 훨씬 낮은 성능을 보일 수 밖에 없다. 한편, 사전 학습과 미세 조정의 두 학습 단계의 학습 objectives를 align하면 미세 조정에 필요한 레이블 데이터의 양을 효과적으로 감소시킬 수 있다는 것이 밝혀져왔다. 이에 따라, 이 연구에서는 사전 학습과 미세 조정 사이의 서로 다른 두 태스크를 bridge할 수 있는 클러스터링 기반의 중간 훈련(Intermediate Training)을 토픽 세그멘테이션 모형에 적용할 것을 제안한다.
이 연구는 클러스터링 기반의 중간 훈련이 대화 데이터에 대한 토픽 세그멘테이션 성능을 향상시킬 수 있음을 보인다. 우리는 클러스터링을 통해 생성된 중간 레이블이 최종 작업 레이블과의 상당한 상관관계를 보이는 것을 확인할 수 있었다. 또한 시뮬레이션된 Low-resource 조건 하에서의 실험을 통해, 레이블 데이터의 비율이 매우 적을 때 중간 훈련이 매우 효과적이라는 것을 확인하였다. 추가적으로, 우리는 클러스터링 알고리즘이 중간 훈련에 미치는 영향에 대해 탐구한다. 중간 훈련의 효과는 하이퍼 파라미터, 즉 군집의 수 에 따라 달라진다. 클러스터의 수가 지나지게 적을 경우 클러스터 정보는 세그멘테이션 작업에 less informative하다. 반대로 클러스터 수를 지나치게 증가시키면, 성질이 유사한 불필요한 클러스터들이 생성되어 Noise를 발생시킨다. 마지막으로, 우리는 테스트 도메인에 대한 지식을 활용하여 하이퍼 파라미터 를 최적화할 수 있음을 실증적으로 보인다. 즉, 우리 실험에서 중간 훈련의 효과는 데이터셋의 실제 토픽 개수에 기반하여 가 설정되었을 때 가장 극대화되었다.

Abstract (English)

Topic segmentation is a fundamental NLP task that breaks down the structure of texts into semantically coherent segments. It can enhance the readability of a text and improve downstream NLP tasks such as summarisation and retrieval. Recent studies have shown that it is highly effective to fine-tune a hierarchical neural segmentation model, comprising a pre-trained sentence encoder and a segment predictor, on an automatically annotated written text dataset. Nevertheless, in conversational topic segmentation, securing sufficient labels for fine-tuning is difficult because this is highly dependent on manual annotation. As a result, the segmentation model fine-tuned on conversational data performs considerably below its potential. It has been studied that aligning the tasks in two training phases can reduce the minimum amount of labels required for fine-tuning. Accordingly, this work suggests applying clustering-based intermediate training to the topic segmentation model, which bridges the gap between different tasks in pre-training and fine-tuning.
This work shows that clustering-based intermediate training can improve the segmentation performance for conversational data. The intermediate labels generated through clustering show a considerable correlation with the final task labels. In simulated low-resource situations, intermediate training is most effective when the proportion of labelled data is very small. Additionally, we investigate the effect of clustering algorithm settings on intermediate training. The effectiveness of intermediate training changes according to the hyper-parameter: the number of clusters . When the number of clusters is excessively small, the cluster information is less informative for the segmentation task. In contrast, as the number of clusters increases several redundant clusters are generated which cause unnecessary noise. Finally, we empirically demonstrate that researchers can exploit their knowledge of the test domain to optimise the hyper-parameter . The intermediate training was most effective when was set based on the ground truth number of topics in the dataset.