voidful
/

wav2vec2-large-xlsr-53-tw-gpt

@@ -9,7 +9,7 @@ tags:
 - xlsr-fine-tuning-week
 license: apache-2.0
 model-index:
-- name: XLSR Wav2Vec2 Chinese (Taiwan) by Voidful
   results:
   - task:
       name: Speech Recognition
@@ -25,7 +25,7 @@ model-index:
 ---
 # Wav2Vec2-Large-XLSR-53-tw-gpt
-Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on zh-tw using the [Common Voice](https://huggingface.co/datasets/common_voice).
 When using this model, make sure that your speech input is sampled at 16kHz.
 ## Usage
@@ -48,7 +48,7 @@ model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
-chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\"#$%&()*+,\\\\-.\\\\:;<=>?@\\\\[\\\\]\\\\\\\\\\\\/^_`{|}~]"
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
@@ -113,7 +113,7 @@ model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
-chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\"#$%&()*+,\\\\-.\\\\:;<=>?@\\\\[\\\\]\\\\\\\\\\\\/^_`{|}~]"
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
@@ -170,7 +170,7 @@ from transformers import AutoTokenizer, AutoModelWithLMHead
 model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
-chars_to_ignore_regex = r"""[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\"#$%&()*+,\\\\-.\\\\:;<=>?@\\\\[\\\\]\\\\\\\\\\\\/^_`{|}~]"""
 tokenizer = AutoTokenizer.from_pretrained("ckiplab/gpt2-base-chinese")
 gpt_model = AutoModelWithLMHead.from_pretrained("ckiplab/gpt2-base-chinese").to(device)

 - xlsr-fine-tuning-week
 license: apache-2.0
 model-index:
+- name: XLSR Wav2Vec2 Taiwanese Mandarin(zh-tw) by Voidful
   results:
   - task:
       name: Speech Recognition
 ---
 # Wav2Vec2-Large-XLSR-53-tw-gpt
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on zh-tw using the [Common Voice](https://huggingface.co/datasets/common_voice).
 When using this model, make sure that your speech input is sampled at 16kHz.
 ## Usage
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
+chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\\\\\"#$%&()*+,\\\\\\\\-.\\\\\\\\:;<=>?@\\\\\\\\[\\\\\\\\]\\\\\\\\\\\\\\\\\\\\\\\\/^_`{|}~]"
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
+chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\\\\\"#$%&()*+,\\\\\\\\-.\\\\\\\\:;<=>?@\\\\\\\\[\\\\\\\\]\\\\\\\\\\\\\\\\\\\\\\\\/^_`{|}~]"
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
 model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
+chars_to_ignore_regex = r"""[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞���〰〾〿–—‘’‛“”„‟…‧﹏.．!\\\\\\\\"#$%&()*+,\\\\\\\\-.\\\\\\\\:;<=>?@\\\\\\\\[\\\\\\\\]\\\\\\\\\\\\\\\\\\\\\\\\/^_`{|}~]"""
 tokenizer = AutoTokenizer.from_pretrained("ckiplab/gpt2-base-chinese")
 gpt_model = AutoModelWithLMHead.from_pretrained("ckiplab/gpt2-base-chinese").to(device)