Tokenizer에 대한 질문

#4
by min913 - opened

Tokenizer에 대한 질문이 두가지가 있습니다.
첫번째는 유저가 끝나고, end of turn이 안나오는데 특별한 이유가 있는지 궁금합니다.
Assistant와 user가 시작할 때, 뒤에 /n이 없어서 ] 과 ]. 토큰이 다른 토큰으로 분류되어서 처리하기가 곤란합니다.

혹시 수정 계획이 있으신지 궁금합니다.
감사합니다.

LG AI Research org

안녕하세요, 문의 작성해주셔서 감사합니다.

질문하신 내용에 답변드리자면,

  1. 저희는 user turn과 assistant turn을 하나의 turn으로 보았기 때문에 구분자인 [|endofturn|]을 둘 사이에 넣지 않았습니다. 만약 user turn 이후 assistant turn이 시작되기 전 구분자가 필요한 경우가 있다면, 저희에게 공유해주시면 이를 고려해 개선할 수 있을 것 같습니다.
  2. \n 의 유무로 인해 ]]. 토큰이 분리된다고 설명해주신 걸로 이해했는데, 실제 사용 케이스를 공유해주신다면 이를 검토해 다음 버전에 적절하게 반영할 수 있을 것 같습니다. 가능하신 선에서 공유해주시면 문제 상황을 파악하는 데에 도움이 될 것 같습니다.

확인 감사합니다.

Sign up or log in to comment