## 🚀 Feature <!-- 제안하는 기능에 대해서 간결하고 명확하게 설명해주세요.--> BART의 pre-training을 위해 corpus를 pre-processing하는 script를 개발한다. - 사전에 corruption을 해서 integer 형태로 떨궈놓기 - `tokenizers` package를 이용, byte pair encoding하기 ## Motivation <!-- 제안하는 기능의 필요성과 동시에 대해서 서술해주세요. 제안하는 기능이 GitHub 관련 이슈와 같이 다른 문제여도 좋습니다. --> ## Pitch <!-- 어떻게 구현할지 간략하게 설명해주세요. --> ## Additional context <!-- 추가적인 정보가 있다면 서술해주세요.-->