Tokenizer에 대한 질문
#4
by
min913
- opened
Tokenizer에 대한 질문이 두가지가 있습니다.
첫번째는 유저가 끝나고, end of turn이 안나오는데 특별한 이유가 있는지 궁금합니다.
Assistant와 user가 시작할 때, 뒤에 /n이 없어서 ] 과 ]. 토큰이 다른 토큰으로 분류되어서 처리하기가 곤란합니다.
혹시 수정 계획이 있으신지 궁금합니다.
감사합니다.
안녕하세요, 문의 작성해주셔서 감사합니다.
질문하신 내용에 답변드리자면,
- 저희는 user turn과 assistant turn을 하나의 turn으로 보았기 때문에 구분자인
[|endofturn|]
을 둘 사이에 넣지 않았습니다. 만약 user turn 이후 assistant turn이 시작되기 전 구분자가 필요한 경우가 있다면, 저희에게 공유해주시면 이를 고려해 개선할 수 있을 것 같습니다. \n
의 유무로 인해]
과].
토큰이 분리된다고 설명해주신 걸로 이해했는데, 실제 사용 케이스를 공유해주신다면 이를 검토해 다음 버전에 적절하게 반영할 수 있을 것 같습니다. 가능하신 선에서 공유해주시면 문제 상황을 파악하는 데에 도움이 될 것 같습니다.
확인 감사합니다.