Skip to content

[FEATURE] corpus를 pre-processing하는 script를 개발한다. #3

@seopbo

Description

@seopbo

🚀 Feature

BART의 pre-training을 위해 corpus를 pre-processing하는 script를 개발한다.

  • 사전에 corruption을 해서 integer 형태로 떨궈놓기
  • tokenizers package를 이용, byte pair encoding하기

Motivation

Pitch

Additional context

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions