Head vs breakz

[Chatbot] - Recipes for building an open-domain chatbot / 살펴보기 - 2 본문

Head/chatbot

[Chatbot] - Recipes for building an open-domain chatbot / 살펴보기 - 2

headbreakz 2020. 9. 21. 13:23

training data

데이터셋은 모두 영어로 된 것을 사용하였습니다. Pre-training으로는 많은 연구에서 사용된 Reddit를 사용하였습니다. subreddits의 경우는 다양한 주제를 다루기 떄문에 오픈-도메인으로 학습하는데 큰 도움이 됩니다. 데이터는 heuristic rule를 통해 필터링을 하였습니다. 그리고 총 9개의 조건 중 하나라도 충족되면 댓글과 하위 댓글을 삭제 시켰습니다.

1. 저자가 봇 인 경우

2. 영어가 아닌 경우

3. 댓글이 제거/삭제 된 경우

4. 띄어쓰기를 제외한 2048개의 문자 일 경우

5. 128 BPE tokens 보다 길 경우 

6. 5개 문자보다 짧은 경우

7. URL를 포함한 경우

8. 시작이 non-ASCII 문자인 경우

9. 깊이가 7보다 더한 경우..(?)

모델은 최대 문장길이를 128 BPE token으로 설정하여 모델을 학습시켰습니다. 최종 데이터는 1.50B 댓글이 포함된 6.8B의 라벨 BPE token과 88.8B의 문장 token을 사용하였습니다. Pre-train의 데이터는 그룹으로 구성되어 있고, 유효한 항목이 많지만, 필터링이 되지 않아 노이즈가 많이 있습니다. 그래서 미세조정으로 ConvA12, Empathetic Dialogues, Wizard of wikipedia , Blended Skill Talk을 사용하였습니다. 


 데이터의 경우 Reddit에서 예외인 경우를 제외한 모든 데이터를 사용하였습니다. 필터링 없이 Pre-train을 위해 사용하였고, 4개의 정리된 데이터를 사용하여 미세 조정을 하였습니다. 확실히 많은 데이터를 사용하고, 모델을 다듬었으니 확실히 의미있는 결과를 보였을 것 입니다.


 

 이후 내용은 평가와 모델의 성능에 대한 결론을 이야기하고 있습니다. 이 부분은 생략하도록 하겠습니다.

 


 

Discussion

인간성과 참여도 부분에서 한발 전진하는 모습을 보여주었지만, 아직까지 open-domain에서는 부족한 모습을 보였습니다. 여전히 다양한 문제를 가지고 있습니다.

1. 모순되거나 반복하는 경우 

2. 별도의 대화에서 동일한 문구를 반복하는 경우

3. 다른 생성 시스템에서 보이는 hallucinate knowledge

 human evaluaions을 통해 평가하는 경우 짧은 대화로 이루어지기 때문에 긴 대화에서는 위와 같은 문제가 더욱 발생 할 수 있습니다. 더 긴 대화의 경우에는 제한된 대화를 가지고 있다는 것을 보여줄 것입니다. 현재의 구조에서 긴 대화를 통합하여 사용하고자 하지만, 긴 대화를 수집하고 평가하는 부분에서 더 큰 어려움이 발생합니다. 대안은 대화 진행에서 사용자에게 지침을 제공하여 챗봇을 사용하도록 하는 것입니다. 그러나 모델이 일관성이 있고 , 반복되지 않을려면 대화가 더욱 자세하고 학습을 위한 반복되는 대화가 필요합니다. 

챗봇은 사람의 평균보다 더욱 무결성을 가질 것으로 기대하고 있습니다. 그러나 챗봇은 사람보다 챗봇이 이야기 하는 것을 휠씬 이해하지 못하고 있습니다. 그렇기 때문에  최대한 성별 편견 완화를 위해 연구하였지만, 아직 해야하는 것들이 많이 있습니다. 

데이터를 선택하고, 추가하고, 정제하고, 가공하는지 전체적으로 중요한 방향으로 유지하도록 해야합니다.


논문의 시작부터 끝까지, 아직 부족한 부분이 많다는 것을 계속적으로 보여주고 있습니다. 최대한 많은 데이터를 사용하고,  다양한 방법을 사용하여, 모델을 제작하였다는 것을 확인 할 수 있었습니다. 이러한 노력에도 아직까지 모델이 부족하고 연구해야하는 부분이 많다는 것을 이야기하고 있습니다. 

아직은 챗봇은 부족한 부분을 많이 보여주고 있지만, 자연스럽게 대화할 날이 멀지는 않을 것 같습니다.

 

Comments