--- datasets: - beomi/KoAlpaca-v1.1a - dbdu/ShareGPT-74k-ko - heegyu/korquad-chat-v1 - HAERAE-HUB/KoInstruct-QA - changpt/ko-lima-vicuna - nlpai-lab/kullm-v2 language: - ko --- # heegyu/polyglot-ko-3.8b-chat - [EleutherAI/polyglot-ko-3.8b](https://huggingface.co/EleutherAI/polyglot-ko-3.8b)를 여러 한국어 instruction 데이터셋으로 학습한 모델 ## 사용한 데이터셋 | Dataset | # instance | 타입 | | --- | --- | --- | | [KoAlpaca v1.1](https://raw.githubusercontent.com/Beomi/KoAlpaca/main/KoAlpaca_v1.1.jsonl) | 50K | 싱글턴 | | [dbdu/ShareGPT-74k-ko 의 part2_ko_uncleaned](https://huggingface.co/datasets/dbdu/ShareGPT-74k-ko/resolve/main/part2_ko_uncleaned.json) | 36K | 멀티턴 | | [heegyu/korquad-chat-v1](https://huggingface.co/datasets/heegyu/korquad-chat-v1) | 9.6K | 멀티턴, 지식기반 | | [lcw99/evolve-instruct](https://github.com/lcw99/evolve-instruct/) | 37K | 싱글턴 | | [HAERAE-HUB/KoInstruct-QA](https://huggingface.co/datasets/HAERAE-HUB/KoInstruct-QA) | 50.3k | 싱글턴 | | [changpt/ko-lima-vicuna](https://huggingface.co/datasets/changpt/ko-lima-vicuna) | 1K | 싱글턴, 멀티턴(극히 일부) | | [nlpai-lab/kullm-v2](https://huggingface.co/datasets/nlpai-lab/kullm-v2) | 15K | 싱글턴 | - KULLM v2 데이터셋에서는 GPT4ALL, Dolly 데이터만 추출해서 사용했습니다. - 다양한 학습 데이터셋은 [HeegyuKim/open-korean-instructions](https://github.com/HeegyuKim/open-korean-instructions) GitHub repository를 참고하세요. ## 생성 Prompt - EOS token(<|endoftext|>)이 나올 때까지 생성하면 됩니다. - 최상단 프롬프트는 있는게 좋은 답변이 더 자주 나오는 것 같아요. ``` 당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요. ### 사용자: 서울에서 강릉 가려면 어떻게 가야해? ### 챗봇: ``` 생성된 답변: ``` 서울에서 강릉 가는 방법은 다양합니다. 비행기를 타고 가거나 KTX를 이용하거나 자가용으로 이동하는 방법이 있습니다. 1. 비행기: 비행기는 서울에서 양양 또는 원주 공항까지 운항합니다. 소요 시간은 약 2시간이며, 운임은 약 20,000원입니다. 2. KTX: KTX는 서울에서 강릉까지 운행하며, 요금은 일반 및 특실 모두 6,550원으로 통일되어 있습니다. 열차 시간은 서울에서 강릉까지 1시간 30분 정도 소요됩니다. 3. 자가용: 자가용을 이용해 강릉으로 가는 방법도 많이 있습니다. 서울에서 경포에 이르는 길은 다양하며, 도로 상황에 따라 주행 시간 및 이동 거리는 달라질 수 있습니다. 참고할 수 있는 정보는 강릉 관광안내소에서 받으실 수 있습니다. 위 방법을 이용하여 서울에서 강릉까지의 이동 시간과 비용을 고려했습니다. 그러나 교통 상황이나 도로 상황 등에 따라 추가 정보가 필요할 수 있습니다. ``` 대화 예시 (with prompt) ``` 당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요. ### 사용자: 중국의 여행지 추천해줘 ### 챗봇: 아래는 중국의 다양한 여행지 중 몇 가지를 추천해드리겠습니다. - 상하이: 중국의 상하이는 현대적인 건물과 높은 빌딩이 많은 도시입니다. 강을 따라 이동하는 선박은 상하이의 풍경과 문화를 감상할 수 있는 장소입니다. (사진: 중국 사진 제공 사이트) - 치바오: 치바오는 상하이의 한 도시로, 독특한 건축물과 역사적인 유물들이 많이 있는 곳입니다. 아름다운 해변도 있으니 일정을 확인해보시면 좋을 것 같습니다. (사진: 중국 사진 제공 사이트) - 항저우: 항저우는 중국의 4대 정원 중 하나로 유명한 곳입니다. 아름다운 정원, 오래된 건물, 그리고 풍부한 역사 문화 체험을 즐길 수 있는 도시입니다. (사진: 중국 사진 제공 사이트) - 난징: 난징은 중국의 수도인 난징에 위치한 도시로, 역사와 문화를 기반으로 다양한 명소들을 찾을 수 있습니다. (사진: 중국 사진 제공 사이트) - 베이징: 중국의 수도인 베이징은 중국의 문화와 역사를 체험할 수 있는 도시입니다. 다양한 관광 명소와 역사 유물들이 여러분을 기다리고 있을 것입니다. (사진: 중국 사진 제공 사이트) - 베이징의 창춘: 창춘은 중국의 동북 지방에 위치한 도시로, 전통 문화와 역사를 체험할 수 있는 좋은 장소입니다. 이 외에도 중국 문화와 역사에 대한 자세한 정보는 위의 목록을 참고하여 다양한 매체에서 찾아보실 수 있습니다. ``` 멀티턴 대화 예시 (with prompt) ``` 당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요. ### 사용자: 요즘 즐겨하는 컴퓨터 게임이 있어? ### 챗봇: 죄송하지만 질문에 대한 정확한 답변을 위해서는 게임의 유형과 장르를 더 자세히 알려주시는 것이 좋습니다. ### 사용자: 음 RPG 장르 쪽으로 추천받고 싶은데 ### 챗봇: RPG 장르 중에서도 간단한 캐주얼 게임을 선호하신다면, 제가 추천해드릴 수 있습니다. 바로 'Rogue Dragon(가칭)'이라는 게임입니다. 이 게임은 판타지, 액션 등 다양한 장르를 접목하여 즐길 수 있으며, 화려한 그래픽, 탄탄한 스토리에 중독성 강한 타격시스템도 특징입니다. ### 사용자: 어디서 할 수 있어? ### 챗봇: 'Rogue Dragon'은 스팀에서 무료로 플레이하실 수 있습니다. 다른 방법으로는, 공식 웹사이트에서 다운로드하셔서 플레이하실 수 있습니다. ```