HIT-TMG
/

dialogue-bart-base-chinese

Text2Text Generation

bart-base-chinese

Inference Endpoints

Model card Files Files and versions Community

YanshekWoo commited on Aug 19, 2022

Commit

3f4ede4

•

1 Parent(s): 0ae23a9

Create README.md

Files changed (1) hide show

README.md +49 -0

README.md ADDED Viewed

	@@ -0,0 +1,49 @@

+---
+language:
+  - zh
+thumbnail: "url to a thumbnail used in social sharing"
+tags:
+- bart-base-chinese
+datasets:
+- Chinese Persona Chat (CPC)
+- LCCC
+- Emotional STC (ESTC)
+- KdConv
+---
+# dialogue-bart-base-chinese
+This is a seq2seq model fine-tuned on several Chinese dialogue datasets, from bart-base-chinese.
+# Datasets
+We utilize 4 Chinese dialogue datasets from [LUGE](https://www.luge.ai/#/)
+|                              |            |                       |
+| ----                         | ----       | ----                  |
+|                              | Count      | Domain                |
+| Chinese Persona Chat (CPC)   | 23,000     | Open                  |
+| LCCC                         | 11,987,759 | Open                  |
+| Emotional STC (ESTC)         | 899,207    | Open                  |
+| KdConv                       | 3,000      | Movie, Music, Travel  |
+|                              |            |                       |
+# Data format
+Input: `[CLS] 对话历史：<history> 知识：<knowledge> [SEP]`
+Output: `[CLS] <response> [SEP]`
+# Example
+```python
+from transformers import BertTokenizer, BartForConditionalGeneration
+# Note that tokenizer is an object of BertTokenizer, instead of BartTokenizer
+tokenizer = BertTokenizer.from_pretrained("HIT-TMG/dialogue-bart-base-chinese")
+model = BartForConditionalGeneration.from_pretrained("HIT-TMG/dialogue-bart-base-chinese")
+# an example from CPC dev data
+history = ["可以 认识 一下 吗 ？", "当然 可以 啦 ， 你好 。", "嘿嘿 你好 ， 请问 你 最近 在 忙 什么 呢 ？", "我 最近 养 了 一只 狗狗 ， 我 在 训练 它 呢 。"]
+history_str = "对话历史：" + tokenizer.sep_token.join(history)
+input_ids = tokenizer(history_str, return_tensors='pt').input_ids
+output_ids = model.generate(input_ids)[0]
+print(tokenizer.decode(output_ids))
+ ```