diff --git a/app.py b/app.py index 5400855372dbf72624af91516f62982a5197889c..b543d610cdb601e34e55c2cf61bf52ad044e366f 100644 --- a/app.py +++ b/app.py @@ -16,6 +16,9 @@ title = '
Tokenizer Arena ⚔️
' interface_list = [playground_tab, compression_tab, character_tab] tab_names = [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"] +# interface_list = [compression_tab, character_tab] +# tab_names = ["🏆 Compression Leaderboard", "📊 Character Statistics"] + with gr.Blocks(css="css/style.css", js="js/onload.js") as demo: gr.HTML( f"

{title}

" @@ -25,12 +28,12 @@ with gr.Blocks(css="css/style.css", js="js/onload.js") as demo: with gr.Tab(label=tab_name): interface.render() - model_name = gr.Textbox( - placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...", - show_label=False, - ) - - model_name.submit() + # model_name = gr.Textbox( + # placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...", + # show_label=False, + # ) + # + # model_name.submit() # demo.load(js=open("js/onload.js", "r", encoding="utf-8").read()) diff --git a/compression_app.py b/compression_app.py index 0f1b531779ef8a259ce743af51a503f719f3572c..0e88c4c25a375397d963728d2bf4d4f8cd09025e 100644 --- a/compression_app.py +++ b/compression_app.py @@ -37,9 +37,9 @@ The encoding and decoding process can be formulated as - **Lossless**
Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`. - - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-casedcc100.zh-Hans.diff.json). + - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-cased%20@%20cc100.zh-Hans.diff.json). - Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338), - which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.jsonn) to the reconstructed text. + which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.json) to the reconstructed text. - **Compression Rate**
There are mainly two types of metric to represent the `input_text`: @@ -49,8 +49,6 @@ There are mainly two types of metric to represent the `input_text`: To evaluate compression rate, simple metrics can be "how many bytes per token" or "how many chars per token".
In this leaderboard, we adopt more frequently used metric: "how many billion tokens per gigabytes corpus" and "how many chars per token", i.e. `b_tokens/g_bytes` and `char/token`. - - 💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions) """ diff --git a/playground_app.py b/playground_app.py index 24734faadad77e087c044542a64758a0ff019d8f..ef0a68ffc3b952e924d6ec9a6b8d5545a8af9e70 100644 --- a/playground_app.py +++ b/playground_app.py @@ -5,10 +5,10 @@ import gradio as gr from vocab import tokenizer_factory from playground_examples import example_types, example_fn -from playground_util import tokenize, tokenize_pair, basic_count, get_overlap_token_size, on_load - - - +from playground_util import (tokenize, + tokenize_pair, basic_count, + get_overlap_token_size, on_load, + default_user_input, default_tokenizer_name_1, default_tokenizer_name_2) get_window_url_params = """ function(url_params) { @@ -39,7 +39,7 @@ with gr.Blocks() as demo: elem_classes="example-style" ) user_input = gr.Textbox( - # value=default_user_input, + value=default_user_input, label="Input Text", lines=5, show_label=False, @@ -77,6 +77,7 @@ with gr.Blocks() as demo: tokenizer_name_1 = gr.Dropdown( all_tokenizer_name, label="Tokenizer 1", + value=default_tokenizer_name_1, ) with gr.Group(): with gr.Row(): @@ -120,6 +121,7 @@ with gr.Blocks() as demo: tokenizer_name_2 = gr.Dropdown( all_tokenizer_name, label="Tokenizer 2", + value=default_tokenizer_name_2 ) with gr.Group(): with gr.Row(): diff --git a/stats/character_stats.json b/stats/character_stats.json index ff3182f55ef1c220eec1dca5650eb79a07600986..57f570124e6247d523cd715149e9111344792136 100644 --- a/stats/character_stats.json +++ b/stats/character_stats.json @@ -1784,5 +1784,24 @@ "len(ja-kana)": "1,1,3", "num(ko)": 0, "len(ko)": "-" + }, + "rinna/bilingual-gpt-neox-4b": { + "tokenizer": "bilingual-gpt-neox-4b", + "organization": "ABEJA", + "vocab_size": 65536, + "num(digit)": 266, + "len(digit)": "1,6,6", + "num(space)": 3, + "len(space)": "1,1,1", + "num(ar)": 108, + "len(ar)": "1,1,4", + "num(zh)": 30158, + "len(zh)": "1,2,16", + "num(ja)": 40298, + "len(ja)": "1,3,16", + "num(ja-kana)": 21366, + "len(ja-kana)": "1,4,16", + "num(ko)": 384, + "len(ko)": "1,1,1" } } \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ee3d4e568b6ab2b64676d3aa0b54aadaaa6b0735 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC", + "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc", + "diff": [ + "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.07017543859649122, + "oov_charset": "[\"C\", \"N\", \"B\"]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bfe135345762a72aa875f0a4df2a6674aace192a --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json @@ -0,0 +1,194 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", + "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", + "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", + "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", + "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", + "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", + "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", + "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", + "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.07142857142857142, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", + "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.0759493670886076, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", + "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", + "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05825242718446602, + "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.08, + "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", + "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", + "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", + "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", + "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", + "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", + "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", + "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", + "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", + "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", + "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", + "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", + "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.048672566371681415, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", + "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", + "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", + "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", + "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.04072398190045249, + "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", + "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", + "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", + "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", + "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", + "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", + "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", + "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.042328042328042326, + "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", + "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", + "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", + "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.05789473684210526, + "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9b5cb271c356e920aa35eb5479e3f245e6933bf8 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json @@ -0,0 +1,123 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", + "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", + "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", + "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", + "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", + "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", + "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", + "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", + "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..44e93d8908c5476ead5dec923971e2a331ec8cf1 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json @@ -0,0 +1,114 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", + "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", + "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", + "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.026785714285714284, + "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"H\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", + "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.026881720430107527, + "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"A\", \"L\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el período o períodos de su disfrute se fijará de común", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"E\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03333333333333333, + "oov_charset": "[\"A\", \"L\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e1235ed709db31f4e825ca2a1bac712f90a377ea --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "آشپزخانه کوچک من: february 2012", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"F\"]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", + "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.022900763358778626, + "oov_charset": "[\"T\", \"F\", \"P\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"B\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011764705882352941, + "oov_charset": "[\"V\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"E\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"J\", \"P\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"J\", \"E\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.012738853503184714, + "oov_charset": "[\"J\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois être mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"J\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"J\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..47bd971103cce3b4ca2d2f400e64eaa54e7c507f --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json @@ -0,0 +1,111 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.26666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", + "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", + "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", + "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", + "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05405405405405406, + "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" + }, + { + "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", + "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", + "diff": [ + "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03, + "oov_charset": "[\"E\", \"P\", \"L\"]" + }, + { + "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "diff": [ + "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"N\"]" + }, + { + "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "diff": [ + "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04807692307692308, + "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" + }, + { + "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "diff": [ + "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04878048780487805, + "oov_charset": "[\"A\", \"G\"]" + }, + { + "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"P\", \"O\"]" + }, + { + "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", + "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", + "diff": [ + "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", + "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" + }, + { + "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", + "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", + "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024193548387096774, + "oov_charset": "[\"A\", \"C\", \"D\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json @@ -0,0 +1,163 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04205607476635514, + "oov_charset": "[\",\", \"S\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", + "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", + "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", + "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 16, + "oov_ratio": 0.07960199004975124, + "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ee3d4e568b6ab2b64676d3aa0b54aadaaa6b0735 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC", + "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc", + "diff": [ + "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.07017543859649122, + "oov_charset": "[\"C\", \"N\", \"B\"]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bfe135345762a72aa875f0a4df2a6674aace192a --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json @@ -0,0 +1,194 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'", + "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'", + "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'", + "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'", + "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'", + "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'", + "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'", + "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'", + "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.07142857142857142, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'", + "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.0759493670886076, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'", + "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'", + "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05825242718446602, + "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.08, + "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'", + "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'", + "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'", + "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'", + "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'", + "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'", + "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'", + "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'", + "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'", + "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'", + "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'", + "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'", + "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.048672566371681415, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'", + "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'", + "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'", + "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'", + "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.04072398190045249, + "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''", + "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'", + "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'", + "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'", + "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'", + "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'", + "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'", + "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.042328042328042326, + "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'", + "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'", + "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'", + "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.05789473684210526, + "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9b5cb271c356e920aa35eb5479e3f245e6933bf8 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json @@ -0,0 +1,123 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'", + "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'", + "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'", + "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'", + "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'", + "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'", + "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'", + "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'", + "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'", + "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..44e93d8908c5476ead5dec923971e2a331ec8cf1 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json @@ -0,0 +1,114 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'", + "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'", + "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'", + "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.026785714285714284, + "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"H\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'", + "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.026881720430107527, + "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"A\", \"L\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el período o períodos de su disfrute se fijará de común", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"E\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"E\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03333333333333333, + "oov_charset": "[\"A\", \"L\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e1235ed709db31f4e825ca2a1bac712f90a377ea --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "آشپزخانه کوچک من: february 2012", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"F\"]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'", + "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.022900763358778626, + "oov_charset": "[\"T\", \"F\", \"P\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"B\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011764705882352941, + "oov_charset": "[\"V\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"E\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"J\", \"P\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"J\", \"E\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.012738853503184714, + "oov_charset": "[\"J\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois être mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"J\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"J\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"J\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..47bd971103cce3b4ca2d2f400e64eaa54e7c507f --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json @@ -0,0 +1,111 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.26666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'", + "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'", + "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'", + "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'", + "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.05405405405405406, + "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]" + }, + { + "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.", + "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.", + "diff": [ + "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03, + "oov_charset": "[\"E\", \"P\", \"L\"]" + }, + { + "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”", + "diff": [ + "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"N\"]" + }, + { + "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.", + "diff": [ + "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04807692307692308, + "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]" + }, + { + "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.", + "diff": [ + "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04878048780487805, + "oov_charset": "[\"A\", \"G\"]" + }, + { + "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"P\", \"O\"]" + }, + { + "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.", + "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.", + "diff": [ + "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'", + "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]" + }, + { + "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'", + "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'", + "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024193548387096774, + "oov_charset": "[\"A\", \"C\", \"D\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0 --- /dev/null +++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json @@ -0,0 +1,163 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04205607476635514, + "oov_charset": "[\",\", \"S\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'", + "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'", + "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'", + "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 16, + "oov_ratio": 0.07960199004975124, + "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..19d6c53867a33cf11a112ebbbef5852943f6481f --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json @@ -0,0 +1,177 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللا / ل اللا - ا.. ( 1)", + "diff": [ + "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", + "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", + "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", + "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", + "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", + "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", + "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", + "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", + "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", + "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" + ], + "n_oov_chars": 21, + "oov_ratio": 0.42, + "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", + "diff": [ + "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", + "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", + "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", + "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", + "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", + "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", + "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", + "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", + "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", + "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", + "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", + "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", + "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", + "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", + "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", + "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", + "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" + ], + "n_oov_chars": 567, + "oov_ratio": 0.5869565217391305, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", + "diff": [ + "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", + "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", + "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", + "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", + "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" + ], + "n_oov_chars": 208, + "oov_ratio": 0.6135693215339233, + "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", + "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", + "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", + "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", + "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", + "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", + "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", + "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", + "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", + "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", + "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", + "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", + "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", + "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", + "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", + "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", + "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", + "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", + "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", + "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", + "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", + "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", + "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", + "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", + "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", + "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", + "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", + "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" + ], + "n_oov_chars": 74, + "oov_ratio": 0.5826771653543307, + "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", + "diff": [ + "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", + "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" + ], + "n_oov_chars": 84, + "oov_ratio": 0.5874125874125874, + "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", + "diff": [ + "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", + "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" + ], + "n_oov_chars": 91, + "oov_ratio": 0.5796178343949044, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", + "diff": [ + "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", + "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", + "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", + "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", + "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", + "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" + ], + "n_oov_chars": 132, + "oov_ratio": 0.584070796460177, + "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", + "diff": [ + "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", + "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", + "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", + "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", + "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", + "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", + "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" + ], + "n_oov_chars": 243, + "oov_ratio": 0.597051597051597, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", + "diff": [ + "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", + "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" + ], + "n_oov_chars": 156, + "oov_ratio": 0.631578947368421, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", + "diff": [ + "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", + "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", + "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", + "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", + "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" + ], + "n_oov_chars": 111, + "oov_ratio": 0.5721649484536082, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5de8e43c739a5399115bc40b1f43f48c7c6d6a4f --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] '„' --> ''", + "replace text[202:203] --> decoded_text[206:211] '€' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"„\", \"€\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:62] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"„\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "diff": [ + "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014749262536873156, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0022624434389140274, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "diff": [ + "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0018867924528301887, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "diff": [ + "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "diff": [ + "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"ß\"]" + }, + { + "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "diff": [ + "replace text[132:133] --> decoded_text[132:137] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0036363636363636364, + "oov_charset": "[\"„\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d22a93959dc662f1135f415167fcc23cf6c3572a --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:254] '£' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6d5c1d03b7edb92acc9db7e4d32848fd725d178d --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50% del periodo restante en la fecha sealada", + "diff": [ + "replace text[55:56] --> decoded_text[55:60] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", + "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los aos que están por venir.", + "diff": [ + "replace text[76:77] --> decoded_text[76:81] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un nio pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "delete text[206:207] --> decoded_text[206:206] '…' --> ''", + "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... '", + "replace text[313:314] --> decoded_text[317:322] 'ñ' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"…\", \"¡\", \"ñ\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo ao, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "diff": [ + "replace text[63:64] --> decoded_text[63:68] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003125, + "oov_charset": "[\"ñ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e22060dee89eb8abafc06fd4562a36cf3297d87a --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json @@ -0,0 +1,180 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "ا : February 2012", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.41935483870967744, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.8125, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": " :2 ا ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", + "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", + "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", + "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", + "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", + "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", + "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6923076923076923, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": " :2 ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", + "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", + "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": ":225 ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", + "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", + "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", + "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", + "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", + "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": ":11/2 ا+ 3 ا ا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", + "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", + "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", + "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", + "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", + "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", + "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", + "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.5454545454545454, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": " ا:2 1/2ا ا ", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", + "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", + "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", + "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", + "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", + "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", + "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", + "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" + ], + "n_oov_chars": 19, + "oov_ratio": 0.6129032258064516, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": " 350 اا ", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", + "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", + "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", + "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", + "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", + "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" + ], + "n_oov_chars": 25, + "oov_ratio": 0.6756756756756757, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": " ا ا ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", + "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", + "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", + "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", + "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", + "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", + "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", + "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", + "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", + "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", + "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", + "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", + "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", + "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", + "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", + "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", + "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", + "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", + "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", + "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", + "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7126436781609196, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ا ال اا ", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", + "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", + "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", + "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", + "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", + "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", + "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", + "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", + "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", + "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", + "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", + "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" + ], + "n_oov_chars": 31, + "oov_ratio": 0.6595744680851063, + "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7131da7057911ab1a20bb6a75ebebb47fb66160b --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", + "diff": [ + "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0053475935828877, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004347826086956522, + "oov_charset": "[\"û\"]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", + "diff": [ + "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005988023952095809, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "diff": [ + "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", + "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", + "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", + "diff": [ + "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", + "diff": [ + "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", + "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", + "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ê\", \"î\"]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", + "diff": [ + "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", + "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008583690987124463, + "oov_charset": "[\"ê\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d729eddac37003accee685c0de0293dddc73df58 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '備' --> ''", + "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029850746268656716, + "oov_charset": "[\"備\", \"圏\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"ぅ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '診' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"診\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"歩\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", + "replace text[14:15] --> decoded_text[18:23] '処' --> ''", + "replace text[29:30] --> decoded_text[37:42] '効' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.075, + "oov_charset": "[\"薬\", \"処\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", + "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", + "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", + "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.0625, + "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", + "diff": [ + "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", + "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.028169014084507043, + "oov_charset": "[\"駆\", \"抜\"]" + }, + { + "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"絶\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8f7f74b82862bc469d4dfd2df19495f4ddde1432 --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json @@ -0,0 +1,255 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ", + "diff": [ + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": " 15~17 3 .", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", + "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", + "replace text[11:12] --> decoded_text[17:22] '번' --> ''", + "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", + "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", + "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", + "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", + "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1'- ' 2 .", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", + "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", + "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", + "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", + "replace text[14:15] --> decoded_text[25:30] '이' --> ''", + "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", + "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", + "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", + "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", + "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": " ' ' . .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", + "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", + "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", + "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", + "replace text[16:17] --> decoded_text[25:30] '의' --> ''", + "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", + "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", + "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", + "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", + "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", + "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", + "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", + "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", + "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", + "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", + "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", + "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", + "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", + "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", + "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", + "replace text[25:26] --> decoded_text[33:38] '는' --> ''", + "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", + "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", + "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", + "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", + "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", + "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", + "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", + "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", + "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", + "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", + "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", + "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", + "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", + "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", + "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", + "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", + "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", + "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", + "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", + "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", + "replace text[28:29] --> decoded_text[36:41] '조' --> ''", + "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", + "replace text[36:37] --> decoded_text[51:56] '강' --> ''", + "replace text[39:40] --> decoded_text[58:63] '강' --> ''", + "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", + "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", + "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", + "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", + "replace text[76:77] --> decoded_text[100:105] '조' --> ''", + "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", + "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", + "replace text[87:88] --> decoded_text[121:126] '강' --> ''", + "replace text[90:91] --> decoded_text[128:133] '강' --> ''", + "replace text[93:94] --> decoded_text[135:140] '강' --> ''", + "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", + "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", + "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", + "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": " . ' 1' , .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", + "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", + "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", + "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", + "replace text[17:18] --> decoded_text[30:35] '한' --> ''", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", + "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", + "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", + "replace text[59:60] --> decoded_text[85:90] '한' --> ''", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", + "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", + "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", + "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", + "replace text[85:86] --> decoded_text[123:128] '위' --> ''", + "replace text[87:88] --> decoded_text[129:134] '를' --> ''", + "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", + "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", + "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", + "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", + "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", + "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", + "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", + "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", + "replace text[64:65] --> decoded_text[87:92] '을' --> ''", + "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", + "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", + "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", + "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": " .", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", + "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", + "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", + "replace text[22:23] --> decoded_text[30:35] '게' --> ''", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", + "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", + "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", + "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", + "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", + "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", + "replace text[66:67] --> decoded_text[104:109] '한' --> ''", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", + "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", + "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..589ad4b55758df5cda939266e967cf994576593c --- /dev/null +++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,157 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", + "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", + "replace text[57:58] --> decoded_text[65:66] ',' --> ','", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[168:169] --> decoded_text[176:177] ',' --> ','", + "replace text[183:184] --> decoded_text[191:192] ',' --> ','", + "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04672897196261682, + "oov_charset": "[\"卍\", \",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..19d6c53867a33cf11a112ebbbef5852943f6481f --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json @@ -0,0 +1,177 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللا / ل اللا - ا.. ( 1)", + "diff": [ + "replace text[5:6] --> decoded_text[5:10] 'و' --> ''", + "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''", + "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''", + "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''", + "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''", + "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''", + "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''", + "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''", + "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''", + "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''" + ], + "n_oov_chars": 21, + "oov_ratio": 0.42, + "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال..", + "diff": [ + "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> ' ا ال'", + "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> 'ا ا ل ا الا الا ال اا ا ال'", + "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> ' اا الاا ال '", + "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> 'ا الا'", + "replace text[150:151] --> decoded_text[231:236] 'م' --> ''", + "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> 'ل ا اا لا لا ل ل ال اا اال اا'", + "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> ' اا ا الاا'", + "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> ' اا اا للاا ال لاا'", + "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> ' الا ل ال ال اا '", + "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' اا اال ا ا ال ال ل الا الا'", + "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> ' اا الال ا الال ا الاا'", + "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> 'ا ا ال ا ال ال ل ال الاا'", + "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> 'ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال '", + "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> 'ا ل ال الا ال'", + "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> 'ل الا ل الا ال ال ال'", + "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> ''", + "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> 'ل لا ال ال ا ا ال ا ال'" + ], + "n_oov_chars": 567, + "oov_ratio": 0.5869565217391305, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "ال ا ال, ا الل ا , ال الا ل ا ال ا ا اا الا, ااا الا الل ال, ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا..", + "diff": [ + "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ال ا ال'", + "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> 'ا الل ا '", + "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> ' ال الا ل ا ال ا ا اا الا'", + "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> ' ااا الا الل ال'", + "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> ' ا ا ا ل الال الل ل ل اللا الل ل ل الا الا ل ل ا'" + ], + "n_oov_chars": 208, + "oov_ratio": 0.6135693215339233, + "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "لا الل ا ا لا الل.. الل ا ال الل ال ل لا ل ا..", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'وك' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'م' --> ''", + "replace text[8:11] --> decoded_text[15:20] 'رسو' --> ''", + "replace text[13:16] --> decoded_text[22:27] 'وأح' --> ''", + "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> ''", + "replace text[22:23] --> decoded_text[34:39] 'م' --> ''", + "replace text[25:27] --> decoded_text[41:46] 'هي' --> ''", + "replace text[28:29] --> decoded_text[47:52] 'إ' --> ''", + "replace text[32:35] --> decoded_text[55:60] 'وحي' --> ''", + "replace text[36:38] --> decoded_text[61:66] 'من' --> ''", + "replace text[42:43] --> decoded_text[70:75] 'ه' --> ''", + "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> ''", + "replace text[52:54] --> decoded_text[84:89] 'أن' --> ''", + "replace text[57:59] --> decoded_text[92:97] 'عم' --> ''", + "replace text[61:63] --> decoded_text[99:104] 'بم' --> ''", + "replace text[65:66] --> decoded_text[106:111] 'ق' --> ''", + "replace text[68:69] --> decoded_text[113:118] 'ه' --> ''", + "replace text[72:75] --> decoded_text[121:126] 'رسو' --> ''", + "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> ''", + "replace text[84:86] --> decoded_text[136:141] 'هو' --> ''", + "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> ''", + "replace text[92:94] --> decoded_text[148:153] 'ية' --> ''", + "replace text[95:97] --> decoded_text[154:159] 'أخ' --> ''", + "replace text[99:102] --> decoded_text[161:166] 'قية' --> ''", + "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> ''", + "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> ''", + "replace text[116:118] --> decoded_text[179:184] 'ية' --> ''", + "replace text[119:121] --> decoded_text[185:190] 'سي' --> ''", + "replace text[122:125] --> decoded_text[191:196] 'سية' --> ''" + ], + "n_oov_chars": 74, + "oov_ratio": 0.5826771653543307, + "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "ل ا ال الا ا , ل ال ل ال ال ل الا الا ا ا ا ا الل ال..", + "diff": [ + "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> 'ل ا ال الا ا '", + "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> 'ل ال ل ال ال ل الا الا ا ا ا ا الل ال'" + ], + "n_oov_chars": 84, + "oov_ratio": 0.5874125874125874, + "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "ل الاا الا الاا, الاا ا ل ا ا الل ل ال ل لا الل لا ل ل..", + "diff": [ + "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> 'ل الاا الا الاا'", + "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> ' الاا ا ل ا ا الل ل ال ل لا الل لا ل ل'" + ], + "n_oov_chars": 91, + "oov_ratio": 0.5796178343949044, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "ا لا ا الا ا ا الل ل ا .. ل ال- ل لا ال, ل لال, ا الا ل الا ا, ل ال ا لا ل لا..", + "diff": [ + "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> 'ا لا ا الا ا ا الل ل ا '", + "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> ' ل ال'", + "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> ' ل لا ال'", + "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> 'ل '", + "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> ' ا الا ل الا '", + "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> 'ل ال ا لا ل لا'" + ], + "n_oov_chars": 132, + "oov_ratio": 0.584070796460177, + "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "ال الا الا ل ال الا الا للا, ل لا ل لا.. الا الا ال ال, ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا ل, ا ا ال ال الل ل ا ا ال ل ل ا الا ال, ..!", + "diff": [ + "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> ' الا الا ل ال الا الا للا'", + "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> ' لا ل ل'", + "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> 'الا الا ال ال'", + "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> ' ل ال الاا ل ا ا ا ال الل اا ا ل لا الال ال لا '", + "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> ' ا ا ال ال الل ل ا ا ال ل ل ا الا ال'", + "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> ' '", + "replace text[405:406] --> decoded_text[648:653] '؟' --> ''" + ], + "n_oov_chars": 243, + "oov_ratio": 0.597051597051597, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "ل ا الا ل ا ل لا ا ال ل ا ل لا.. ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل !!", + "diff": [ + "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> 'ل ا الا ل ا ل لا ا ال ل ا ل لا'", + "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> ' ا ا الا ا ا الا ل ا ال الا ل ا الاا ا ل '" + ], + "n_oov_chars": 156, + "oov_ratio": 0.631578947368421, + "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "ال.. الل الا.. الل ال , ا, ا لا اا.. ال اا ل الاا الاا الل اا ا , الا, ا..", + "diff": [ + "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '.. الل الا.. الل ال '", + "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> 'ا'", + "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> 'ا لا اا.. ال اا ل الاا الاا الل اا ا '", + "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> ' الا'", + "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> ' ا..'" + ], + "n_oov_chars": 111, + "oov_ratio": 0.5721649484536082, + "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5de8e43c739a5399115bc40b1f43f48c7c6d6a4f --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] '„' --> ''", + "replace text[202:203] --> decoded_text[206:211] '€' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"„\", \"€\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der Püngel-Weihnacht“ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:62] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"„\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlielich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "diff": [ + "replace text[619:620] --> decoded_text[619:624] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014749262536873156, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlieen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:66] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0022624434389140274, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlielich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:69] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.", + "diff": [ + "replace text[131:132] --> decoded_text[131:136] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0018867924528301887, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis auer diesem Thread hier. Finde ich auch ein bisschen komisch.", + "diff": [ + "replace text[125:126] --> decoded_text[125:130] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"ß\"]" + }, + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "decoded_text": "Wei man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?", + "diff": [ + "replace text[3:4] --> decoded_text[3:8] 'ß' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"ß\"]" + }, + { + "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.", + "diff": [ + "replace text[132:133] --> decoded_text[132:137] '„' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0036363636363636364, + "oov_charset": "[\"„\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d22a93959dc662f1135f415167fcc23cf6c3572a --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about 1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:254] '£' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6d5c1d03b7edb92acc9db7e4d32848fd725d178d --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50% del periodo restante en la fecha sealada", + "diff": [ + "replace text[55:56] --> decoded_text[55:60] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", + "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los aos que están por venir.", + "diff": [ + "replace text[76:77] --> decoded_text[76:81] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"ñ\"]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un nio pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "delete text[206:207] --> decoded_text[206:206] '…' --> ''", + "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... '", + "replace text[313:314] --> decoded_text[317:322] 'ñ' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"…\", \"¡\", \"ñ\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo ao, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.", + "diff": [ + "replace text[63:64] --> decoded_text[63:68] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003125, + "oov_charset": "[\"ñ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e22060dee89eb8abafc06fd4562a36cf3297d87a --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json @@ -0,0 +1,180 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "ا : February 2012", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.41935483870967744, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> ''", + "replace text[6:8] --> decoded_text[6:11] 'نه' --> ''", + "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> ''", + "replace text[14:16] --> decoded_text[18:23] 'من' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.8125, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": " :2 ا ا ", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> ''", + "replace text[6:10] --> decoded_text[6:11] 'پودر' --> ''", + "replace text[13:14] --> decoded_text[14:19] 'ق' --> ''", + "replace text[15:17] --> decoded_text[20:25] 'شق' --> ''", + "replace text[18:19] --> decoded_text[26:31] 'چ' --> ''", + "replace text[20:21] --> decoded_text[32:37] 'ی' --> ''", + "replace text[22:26] --> decoded_text[38:43] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6923076923076923, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": " :2 ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> ''", + "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> ''", + "replace text[10:13] --> decoded_text[14:19] 'عدد' --> ''", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> ''" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": ":225 ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[8:11] --> decoded_text[10:15] 'گرم' --> ''", + "replace text[12:14] --> decoded_text[16:21] 'به' --> ''", + "replace text[15:17] --> decoded_text[22:27] 'دم' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ی' --> ''", + "replace text[21:22] --> decoded_text[35:40] 'ت' --> ''", + "replace text[23:24] --> decoded_text[41:46] 'ق' --> ''", + "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.6, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": ":11/2 ا+ 3 ا ا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'شکر' --> ''", + "replace text[5:6] --> decoded_text[7:12] 'و' --> ''", + "replace text[10:13] --> decoded_text[16:21] 'پیم' --> ''", + "replace text[14:16] --> decoded_text[22:27] 'نه' --> ''", + "replace text[20:21] --> decoded_text[31:36] 'ق' --> ''", + "replace text[22:24] --> decoded_text[37:42] 'شق' --> ''", + "replace text[25:27] --> decoded_text[43:48] 'غذ' --> ''", + "replace text[29:33] --> decoded_text[50:55] 'خوری' --> ''" + ], + "n_oov_chars": 18, + "oov_ratio": 0.5454545454545454, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": " ا:2 1/2ا ا ", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> ''", + "replace text[5:6] --> decoded_text[6:11] 'د' --> ''", + "replace text[7:11] --> decoded_text[12:17] 'رچین' --> ''", + "replace text[14:15] --> decoded_text[20:25] 'و' --> ''", + "replace text[18:19] --> decoded_text[28:33] 'ق' --> ''", + "replace text[20:22] --> decoded_text[34:39] 'شق' --> ''", + "replace text[23:24] --> decoded_text[40:45] 'چ' --> ''", + "replace text[25:26] --> decoded_text[46:51] 'ی' --> ''", + "replace text[27:31] --> decoded_text[52:57] 'خوری' --> ''" + ], + "n_oov_chars": 19, + "oov_ratio": 0.6129032258064516, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": " 350 اا ", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> ''", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> ''", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> ''", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> ''", + "replace text[19:20] --> decoded_text[28:33] 'ف' --> ''", + "replace text[21:24] --> decoded_text[34:39] 'رنه' --> ''", + "replace text[25:27] --> decoded_text[40:45] 'یت' --> ''", + "replace text[28:32] --> decoded_text[46:51] 'روشن' --> ''", + "replace text[33:37] --> decoded_text[52:57] 'کنید' --> ''" + ], + "n_oov_chars": 25, + "oov_ratio": 0.6756756756756757, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": " ا ا ا اا ", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> ''", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> ''", + "replace text[7:8] --> decoded_text[12:17] 'ب' --> ''", + "replace text[10:13] --> decoded_text[19:24] 'شکر' --> ''", + "replace text[14:16] --> decoded_text[25:30] 'هم' --> ''", + "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> ''", + "replace text[23:24] --> decoded_text[37:42] 'ت' --> ''", + "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> ''", + "replace text[32:33] --> decoded_text[50:55] 'و' --> ''", + "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> ''", + "replace text[39:42] --> decoded_text[62:67] 'بشه' --> ''", + "replace text[43:46] --> decoded_text[68:73] 'تخم' --> ''", + "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> ''", + "replace text[53:55] --> decoded_text[81:86] 'رو' --> ''", + "replace text[56:60] --> decoded_text[87:92] 'دونه' --> ''", + "replace text[61:65] --> decoded_text[93:98] 'دونه' --> ''", + "replace text[67:68] --> decoded_text[100:105] 'ض' --> ''", + "replace text[69:71] --> decoded_text[106:111] 'فه' --> ''", + "replace text[72:76] --> decoded_text[112:117] 'کنید' --> ''", + "replace text[77:78] --> decoded_text[118:123] 'و' --> ''", + "replace text[79:81] --> decoded_text[124:129] 'هم' --> ''", + "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7126436781609196, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ا ال اا ", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] 'رد' --> ''", + "replace text[4:5] --> decoded_text[7:12] 'و' --> ''", + "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> ''", + "replace text[12:16] --> decoded_text[19:24] 'پودر' --> ''", + "replace text[17:18] --> decoded_text[25:30] 'و' --> ''", + "replace text[19:22] --> decoded_text[31:36] 'نمک' --> ''", + "replace text[23:25] --> decoded_text[37:42] 'رو' --> ''", + "replace text[28:29] --> decoded_text[45:50] 'ک' --> ''", + "replace text[30:34] --> decoded_text[51:56] 'کنید' --> ''", + "replace text[35:36] --> decoded_text[57:62] 'و' --> ''", + "replace text[38:39] --> decoded_text[64:69] 'ض' --> ''", + "replace text[40:42] --> decoded_text[70:75] 'فه' --> ''", + "replace text[43:47] --> decoded_text[76:81] 'کنید' --> ''" + ], + "n_oov_chars": 31, + "oov_ratio": 0.6595744680851063, + "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7131da7057911ab1a20bb6a75ebebb47fb66160b --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut tre temps de le commencer.", + "diff": [ + "replace text[102:103] --> decoded_text[102:107] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007751937984496124, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en mme temps très étourdie", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0053475935828877, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[164:165] --> decoded_text[164:169] 'û' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004347826086956522, + "oov_charset": "[\"û\"]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand mme)", + "diff": [ + "replace text[163:164] --> decoded_text[163:168] 'ê' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005988023952095809, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon ge ou plus ou moins (généralement pas mon ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "diff": [ + "replace text[60:61] --> decoded_text[60:65] 'â' --> ''", + "replace text[103:104] --> decoded_text[107:112] 'â' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens", + "decoded_text": "- j'aime chanter, faire du thétre et provoquer des émotions chez les gens", + "diff": [ + "replace text[30:31] --> decoded_text[30:35] 'â' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"â\"]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnatre quand j'ai tort", + "diff": [ + "replace text[49:50] --> decoded_text[49:54] 'ê' --> ''", + "delete text[150:151] --> decoded_text[154:154] ' ' --> ''", + "replace text[170:171] --> decoded_text[173:178] 'î' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ê\", \"î\"]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-tre trop bien que tout le monde est différent", + "diff": [ + "replace text[90:91] --> decoded_text[90:95] 'ê' --> ''", + "replace text[187:188] --> decoded_text[191:196] 'ê' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008583690987124463, + "oov_charset": "[\"ê\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d729eddac37003accee685c0de0293dddc73df58 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整されてる央道を越えるとお世話になってるボウリング場が見えて来ました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '備' --> ''", + "replace text[36:37] --> decoded_text[40:45] '圏' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029850746268656716, + "oov_charset": "[\"備\", \"圏\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "う〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.021739130434782608, + "oov_charset": "[\"ぅ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの断をもらっていました。", + "diff": [ + "replace text[31:32] --> decoded_text[31:36] '診' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"診\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "ただ、これまでお散仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '歩' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"歩\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔はヒアルロン酸の目なども方されてたようですが、これがく事はないそうです。", + "diff": [ + "replace text[10:11] --> decoded_text[10:15] '薬' --> ''", + "replace text[14:15] --> decoded_text[18:23] '処' --> ''", + "replace text[29:30] --> decoded_text[37:42] '効' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.075, + "oov_charset": "[\"薬\", \"処\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散でもれたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[12:13] --> decoded_text[12:17] '歩' --> ''", + "replace text[15:16] --> decoded_text[19:24] '訪' --> ''", + "replace text[35:36] --> decoded_text[43:44] '5' --> '5'", + "replace text[51:52] --> decoded_text[59:60] '1' --> '1'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.0625, + "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードでけていくのを目の当たりにしてちょっとビビっておりました", + "diff": [ + "replace text[41:42] --> decoded_text[41:46] '駆' --> ''", + "replace text[43:44] --> decoded_text[47:52] '抜' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.028169014084507043, + "oov_charset": "[\"駆\", \"抜\"]" + }, + { + "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "decoded_text": "彼らには対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] '絶' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"絶\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8f7f74b82862bc469d4dfd2df19495f4ddde1432 --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json @@ -0,0 +1,255 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ", + "diff": [ + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> ''" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": " 15~17 3 .", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> ''", + "replace text[3:5] --> decoded_text[6:11] '주소' --> ''", + "replace text[11:12] --> decoded_text[17:22] '번' --> ''", + "replace text[13:16] --> decoded_text[23:28] '홀에선' --> ''", + "replace text[18:20] --> decoded_text[30:35] '연속' --> ''", + "replace text[21:24] --> decoded_text[36:41] '보기로' --> ''", + "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> ''", + "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> ''" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1'- ' 2 .", + "diff": [ + "replace text[1:3] --> decoded_text[1:6] '편인' --> ''", + "replace text[4:8] --> decoded_text[7:12] '신과함께' --> ''", + "replace text[9:11] --> decoded_text[13:18] '죄와' --> ''", + "replace text[12:13] --> decoded_text[19:24] '벌' --> ''", + "replace text[14:15] --> decoded_text[25:30] '이' --> ''", + "replace text[16:19] --> decoded_text[31:36] '천만을' --> ''", + "replace text[20:22] --> decoded_text[37:42] '넘은' --> ''", + "replace text[23:25] --> decoded_text[43:48] '만큼' --> ''", + "replace text[27:29] --> decoded_text[50:55] '편을' --> ''", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> ''", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> ''", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> ''", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> ''", + "replace text[52:54] --> decoded_text[80:85] '주소' --> ''", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> ''", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": " ' ' . .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> ''", + "replace text[5:7] --> decoded_text[6:11] '주소' --> ''", + "replace text[9:12] --> decoded_text[13:18] '대체재' --> ''", + "replace text[13:15] --> decoded_text[19:24] '일색' --> ''", + "replace text[16:17] --> decoded_text[25:30] '의' --> ''", + "replace text[18:21] --> decoded_text[31:36] '분재를' --> ''", + "replace text[22:25] --> decoded_text[37:42] '내놓을' --> ''", + "replace text[26:29] --> decoded_text[43:48] '위험이' --> ''", + "replace text[30:32] --> decoded_text[49:54] '있다' --> ''", + "replace text[34:37] --> decoded_text[56:61] '문학의' --> ''", + "replace text[38:41] --> decoded_text[62:67] '자유를' --> ''", + "replace text[42:46] --> decoded_text[68:73] '소설가가' --> ''", + "replace text[47:50] --> decoded_text[74:79] '스스로' --> ''", + "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> ''", + "replace text[60:64] --> decoded_text[86:91] '출판사에' --> ''", + "replace text[65:69] --> decoded_text[92:97] '상납하는' --> ''", + "replace text[70:73] --> decoded_text[98:103] '것이다' --> ''" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": " (22) 43(2 ) 3(.246.270.508). .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> ''", + "replace text[7:9] --> decoded_text[6:11] '유산' --> ''", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> ''", + "replace text[15:17] --> decoded_text[18:23] '주소' --> ''", + "replace text[18:21] --> decoded_text[24:29] '바레토' --> ''", + "replace text[25:26] --> decoded_text[33:38] '는' --> ''", + "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> ''", + "replace text[37:39] --> decoded_text[46:51] '타수' --> ''", + "replace text[40:42] --> decoded_text[52:57] '안타' --> ''", + "replace text[44:46] --> decoded_text[59:64] '루타' --> ''", + "replace text[47:49] --> decoded_text[65:70] '홈런' --> ''", + "replace text[52:54] --> decoded_text[73:78] '타점' --> ''", + "delete text[59:60] --> decoded_text[83:83] ' ' --> ''", + "delete text[64:65] --> decoded_text[87:87] ' ' --> ''", + "replace text[72:75] --> decoded_text[94:99] '하지만' --> ''", + "replace text[76:79] --> decoded_text[100:105] '아직은' --> ''", + "replace text[80:84] --> decoded_text[106:111] '트레이드' --> ''", + "replace text[85:88] --> decoded_text[112:117] '당시의' --> ''", + "replace text[89:93] --> decoded_text[118:123] '기대치를' --> ''", + "replace text[94:98] --> decoded_text[124:129] '보여주지' --> ''", + "replace text[99:102] --> decoded_text[130:135] '못하고' --> ''", + "replace text[103:105] --> decoded_text[136:141] '있다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": " 2 . A, B 1 12-4- 3 , C, D, E, F 1 12-6-4- 4 .", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> ''", + "replace text[8:10] --> decoded_text[7:12] '팀이' --> ''", + "replace text[11:15] --> decoded_text[13:18] '준결승에' --> ''", + "replace text[16:19] --> decoded_text[19:24] '오른다' --> ''", + "replace text[21:23] --> decoded_text[26:31] '결국' --> ''", + "replace text[28:29] --> decoded_text[36:41] '조' --> ''", + "replace text[31:33] --> decoded_text[43:48] '위는' --> ''", + "replace text[36:37] --> decoded_text[51:56] '강' --> ''", + "replace text[39:40] --> decoded_text[58:63] '강' --> ''", + "replace text[41:45] --> decoded_text[64:69] '결승으로' --> ''", + "replace text[47:50] --> decoded_text[71:76] '경기를' --> ''", + "replace text[51:55] --> decoded_text[77:82] '치르지만' --> ''", + "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> ''", + "replace text[76:77] --> decoded_text[100:105] '조' --> ''", + "replace text[79:81] --> decoded_text[107:112] '위는' --> ''", + "replace text[82:84] --> decoded_text[113:118] '주소' --> ''", + "replace text[87:88] --> decoded_text[121:126] '강' --> ''", + "replace text[90:91] --> decoded_text[128:133] '강' --> ''", + "replace text[93:94] --> decoded_text[135:140] '강' --> ''", + "replace text[95:99] --> decoded_text[141:146] '결승으로' --> ''", + "replace text[101:104] --> decoded_text[148:153] '경기를' --> ''", + "replace text[105:107] --> decoded_text[154:159] '해야' --> ''", + "replace text[108:110] --> decoded_text[160:165] '한다' --> ''" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": " . ' 1' , .", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> ''", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> ''", + "replace text[9:11] --> decoded_text[12:17] '주소' --> ''", + "replace text[12:13] --> decoded_text[18:23] '끈' --> ''", + "replace text[14:16] --> decoded_text[24:29] '것은' --> ''", + "replace text[17:18] --> decoded_text[30:35] '한' --> ''", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> ''", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> ''", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> ''", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> ''", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> ''", + "replace text[49:51] --> decoded_text[67:72] '일을' --> ''", + "replace text[52:54] --> decoded_text[73:78] '하고' --> ''", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> ''", + "replace text[59:60] --> decoded_text[85:90] '한' --> ''", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> ''", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> ''", + "replace text[70:74] --> decoded_text[103:108] '박명수는' --> ''", + "replace text[76:79] --> decoded_text[110:115] '실시간' --> ''", + "replace text[80:83] --> decoded_text[116:121] '검색어' --> ''", + "replace text[85:86] --> decoded_text[123:128] '위' --> ''", + "replace text[87:88] --> decoded_text[129:134] '를' --> ''", + "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> ''", + "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> ''", + "replace text[104:106] --> decoded_text[148:153] '했다' --> ''" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> ''", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> ''", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> ''", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> ''", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> ''", + "replace text[29:31] --> decoded_text[31:36] '다시' --> ''", + "replace text[32:34] --> decoded_text[37:42] '주소' --> ''", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> ''", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> ''", + "replace text[43:45] --> decoded_text[55:60] '일이' --> ''", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> ''", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> ''", + "replace text[58:59] --> decoded_text[75:80] '빅' --> ''", + "replace text[60:63] --> decoded_text[81:86] '사이닝' --> ''", + "replace text[64:65] --> decoded_text[87:92] '을' --> ''", + "replace text[66:68] --> decoded_text[93:98] '통해' --> ''", + "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> ''", + "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> ''", + "replace text[79:83] --> decoded_text[111:116] '때문이다' --> ''" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": " .", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> ''", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> ''", + "replace text[18:20] --> decoded_text[12:17] '위해' --> ''", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> ''", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> ''", + "replace text[34:36] --> decoded_text[30:35] '주소' --> ''", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> ''" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": " , . .", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> ''", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> ''", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> ''", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> ''", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> ''", + "replace text[22:23] --> decoded_text[30:35] '게' --> ''", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> ''", + "replace text[29:31] --> decoded_text[42:47] '법도' --> ''", + "replace text[32:34] --> decoded_text[48:53] '한데' --> ''", + "replace text[36:38] --> decoded_text[55:60] '주소' --> ''", + "replace text[39:40] --> decoded_text[61:66] '둘' --> ''", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> ''", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> ''", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> ''", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> ''", + "replace text[59:61] --> decoded_text[92:97] '마치' --> ''", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> ''", + "replace text[66:67] --> decoded_text[104:109] '한' --> ''", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> ''", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> ''", + "replace text[75:77] --> decoded_text[122:127] '친구' --> ''", + "replace text[78:80] --> decoded_text[128:133] '같은' --> ''", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> ''", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> ''", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> ''" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..589ad4b55758df5cda939266e967cf994576593c --- /dev/null +++ b/stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,157 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "招财带什么佛牌(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '卍' --> ''", + "replace text[8:9] --> decoded_text[12:17] '卍' --> ''", + "replace text[57:58] --> decoded_text[65:66] ',' --> ','", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[168:169] --> decoded_text[176:177] ',' --> ','", + "replace text[183:184] --> decoded_text[191:192] ',' --> ','", + "replace text[213:214] --> decoded_text[221:222] ':' --> ':'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04672897196261682, + "oov_charset": "[\"卍\", \",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a54fd4411a585061beb54f978cf1e633378ab0f9 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..72eec86c45285f3c45ecfe33de13e00128260ad0 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..380dd9179a590b6b7413869dc677239e58aa9b03 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d2fa407bbd6b5d68fcde79aae085e45990acc23 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4a97ff2230823a353878e7cdda083198c81f6093 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..524966c0fe4f1205f53a0009e400bc35ceb9d4a0 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7e33df7d8b83b93e7de01ec45695b92cfc8353 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ce357a48e1dd804b8d8cbbff76aa5145142eb848 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ja.diff.json @@ -0,0 +1,113 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0554a90957042a4d5225801b5924055cf53611a3 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a54fd4411a585061beb54f978cf1e633378ab0f9 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.de.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..72eec86c45285f3c45ecfe33de13e00128260ad0 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..380dd9179a590b6b7413869dc677239e58aa9b03 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d2fa407bbd6b5d68fcde79aae085e45990acc23 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/FacebookAI.xlm-roberta-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..346ef60e51451a7fcfd1d66b8194b576febd5e09 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7e33df7d8b83b93e7de01ec45695b92cfc8353 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9f0009ec60f4baf997b9a13aa566c6bb9776a5d7 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ja.diff.json @@ -0,0 +1,82 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0554a90957042a4d5225801b5924055cf53611a3 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/HuggingFaceH4.starchat-alpha @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3999bf7a929661cbbe3f930fbe537b0f2f4b51f3 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ar.diff.json @@ -0,0 +1,116 @@ +[ + { + "text": "بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة؛", + "decoded_text": " بما أننا مازلنا منذ تبوأنا عرش أجدادنا وأخذنا على أنفسنا أن نحتفظ بالأمانة التى عهد الله تعالى بها الينا نتطلب الخير دائماً لأمتنا بكل ما فى وسعنا ونتوخى أن نسلك بها السبيل التى نعلم أنها تفضى إلى سعادتها وارتقائها وتمتعها بما تتمتع به الأمم الحرة المتمدينة ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[257:258] --> decoded_text[258:266] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003875968992248062, + "oov_charset": "[\"؛\"]" + }, + { + "text": "ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ؛", + "decoded_text": " ولما كان ذلك لا يتم على الوجه الصحيح إلا إذا كان لها نظام دستورى كأحدث الأنظمة الدستورية فى العالم وارقاها تعيش فى ظله عيشاً سعيداً مرضياً وتتمكن به من السير فى طريق الحياة الحرة المطلقة ويكفل لها الاشتراك العملى فى إدارة شئون البلاد والاشراف على وضع قوانينها ومراقبة تنفيذها ويترك فى نفسها شعور الراحة والطمأنينة على حاضرها ومستقبلها مع الاحتفاظ بروحها القومية والإبقاء على صفاتها ومميزاتها التى هى تراثها التاريخى العظيم ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[423:424] --> decoded_text[424:432] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0023584905660377358, + "oov_charset": "[\"؛\"]" + }, + { + "text": "وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ؛", + "decoded_text": " وبما أن تحقيق ذلك كان دائماً من أجل رغباتنا ومن أعظم ماتتجه إليه عزائمنا حرصاً على النهوض بشعبنا إلى المنزلة العليا التى يؤهله ذكاؤه واستعداده وتتفق مع عظمته التاريخية القديمة وتسمح له بتبوء المكان اللائق به بين شعوب العالم المتمدين وأممه ⁇ ", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[239:240] --> decoded_text[240:248] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004166666666666667, + "oov_charset": "[\"؛\"]" + }, + { + "text": "اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل؛ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", + "decoded_text": " اختصّ الله سبحانه وتعالى شهر رمضان المبارك بين الأشهر بفضائل وخصائص مميزة، فهو شهر الرحمة والغفران والعتق من النيران، شهر القرآن الكريم، الذي يحمل الكثير الكثير من القيم الأخلاقية والاجتماعية والتربوية والإنسانية الراقية، حول خصائص هذا الشهر الفضيل ⁇ كان لنا هذا الحوار مع سماحة الشيخ عبدالمحسن البقشي:", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[248:249] --> decoded_text[249:257] '؛' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033222591362126247, + "oov_charset": "[\"؛\"]" + }, + { + "text": "أَننا -تاريخياً - جزءٌ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", + "decoded_text": " أَننا -تاريخياً - جزء ⁇ (بدرجة ما) من الثقافةِ العربيةِ الإسلامية.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[21:22] --> decoded_text[22:30] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "أَننا -جغرافياً- جزءٌ من ثقافةِ شرقِ البحرِ المتوسط.", + "decoded_text": " أَننا -جغرافياً- جزء ⁇ من ثقافةِ شرقِ البحرِ المتوسط.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[20:21] --> decoded_text[21:29] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.019230769230769232, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": " أَننا -حالياً- جزء ⁇ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافة ⁇ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[18:19] --> decoded_text[19:27] 'ٌ' --> ' ⁇ '", + "insert text[158:158] --> decoded_text[166:167] '' --> ' '", + "replace text[180:181] --> decoded_text[189:197] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.006756756756756757, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزءٌ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", + "decoded_text": " المفُترض ألا يكون هُناك إنكار لحقيقةِ أننا -تاريخياً- جزء ⁇ من الثقافةِ العربيةِ، ويَعنى ذَلك أَن مثقفينا والشَخصيات العامة لدينا يفترض فيهم أَن يكونوا أَصحاب إِلمام طيبٍ بالثقافةِ العربية. ولكن الواقعَ يؤكد أن ذلك وإن كان ينطبق على البعض إِلا أَن تعميمه أبعد ما يكون عن الحقيقةِ. إِذ أَن نظرةً مُتفحصة تُظهر ما يلي من حَقائقٍ مؤلمةٍ:", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[57:58] --> decoded_text[58:66] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003003003003003003, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاوراتٌ ولقاءاتٌ وحواراتٌ وقراءاتٌ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", + "decoded_text": " من أكثر المسائل الفكرية والثقافية التي حيرتني ولسنواتٍ طويلة والتي كلما شُغلتُ بها فكرياً وظننت أنني وصلت فيها إلى يقينٍ قاطعٍ جاءت محاورات ⁇ ولقاءات ⁇ وحوارات ⁇ وقراءات ⁇ ووجهاتُ نظرٍ شخصية لتثبت لي أنني لم أبلغ فيها بعد حد اليقين وأَعنى علاقة العقل العربي بالثقافة التي تُعرف بالثقافة الغربية وما أكثرَ ما حيرتني الطريقةُ التي نتعامل بها مع هذا الموضوع. فهناك كثيرون في واقعنا يظنونَ أن الإيمانَ والاعتدادَ والإعتزاز بثقافتنا الخاصة وهى الثقافة العربية إنما يعني أن نكونَ في موقفِ المعاداةِ أو التحفز أو التوتر تجاه الثقافة الغربية. والبعضُ الآخر يرى أن العصرية ومسايرة الزمن يعنيان معرفة الثقافة الغربية والتفاخر بها، دون اكتراث بالثقافة العربية الإسلامية أو الإسلامية العربية.", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> ' '", + "replace text[139:140] --> decoded_text[140:149] 'ٌ' --> ' ⁇ '", + "replace text[148:149] --> decoded_text[157:166] 'ٌ' --> ' ⁇ '", + "replace text[157:158] --> decoded_text[174:183] 'ٌ' --> ' ⁇ '", + "replace text[166:167] --> decoded_text[191:199] 'ٌ' --> ' ⁇ '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.005917159763313609, + "oov_charset": "[\"ٌ\"]" + }, + { + "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", + "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.027777777777777776, + "oov_charset": "[\"‎\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3d58d073aa527d284c4f0d8e19925cd6cc825a1e --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,", + "decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,", + "diff": [ + "replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'", + "replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018018018018018018, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006060606060606061, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "diff": [ + "replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005917159763313609, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.", + "decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..734a27be6b7b5b7e223e1b3a4c38f83add33ae21 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.en.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + }, + { + "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", + "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002680965147453083, + "oov_charset": "[\"…\"]" + }, + { + "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", + "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", + "diff": [ + "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"…\"]" + }, + { + "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "diff": [ + "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003115264797507788, + "oov_charset": "[\"…\"]" + }, + { + "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "diff": [ + "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004878048780487805, + "oov_charset": "[\"…\"]" + }, + { + "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", + "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"…\"]" + }, + { + "text": "“It Only Happens Once…Yesterday and Tomorrow”", + "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", + "diff": [ + "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"…\"]" + }, + { + "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", + "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", + "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", + "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05084745762711865, + "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1a3f2b61f31a574da12d8b5f9754be17fac11c68 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", + "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", + "diff": [ + "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002232142857142857, + "oov_charset": "[\"´\"]" + }, + { + "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", + "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", + "diff": [ + "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008849557522123894, + "oov_charset": "[\"…\"]" + }, + { + "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", + "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", + "diff": [ + "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "Una vez cumplida esta mision, la siguiente parada era…", + "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", + "diff": [ + "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6575166dde9adf51b06cd0709e680f15a45930ca --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, تره فرنگی", + "decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02857142857142857, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: کوکی ها", + "decoded_text": "برچسب ها: کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: دسرها, موز", + "decoded_text": "برچسب ها: دسرها, موز", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05, + "oov_charset": "[\"‌\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9fc4cd663063f7d6ad89a9531b77cced3103d291 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un style de musique… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", + "diff": [ + "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..44ad15a217ed4110ed775cda8c205fff7a9ced50 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ja.diff.json @@ -0,0 +1,108 @@ +[ + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", + "replace text[36:37] --> decoded_text[36:37] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\" \", \"1\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", + "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", + "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", + "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.033783783783783786, + "oov_charset": "[\"M\", \"…\", \"T\"]" + }, + { + "text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", + "decoded_text": "今回、12月に赴いた際は、食事中、スタッフが入れ替わり挨拶に来てくれたばかりか、帰り際には、店長を含む4名が外に出て、寒風のなか、いつまでも私の運転する車を見送ってくれた。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] '4' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011627906976744186, + "oov_charset": "[\"4\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] '1' --> '1'", + "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\"1\", \" \"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab8047c39376b118557522a889b9e2c40838e978 --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.ko.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + }, + { + "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"²\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008333333333333333, + "oov_charset": "[\"ㆍ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..aac1a76a072a1163d9bd654686324f9a064c6ade --- /dev/null +++ b/stats/compression_rate/OrionStarAI.Orion-14B-Chat @ cc100.zh-Hans.diff.json @@ -0,0 +1,113 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[9:10] --> decoded_text[9:10] '(' --> '('" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"3\", \"5\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[61:62] --> decoded_text[61:62] '(' --> '('", + "replace text[72:73] --> decoded_text[72:73] ')' --> ')'", + "replace text[111:112] --> decoded_text[111:112] '(' --> '('", + "replace text[124:125] --> decoded_text[124:125] ')' --> ')'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[110:111] --> decoded_text[110:111] '(' --> '('", + "replace text[114:115] --> decoded_text[114:115] ')' --> ')'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。", + "decoded_text": "林芳正表示“首席谈判官代理大江博已经在访美”。大江可能正与美国贸易代表办公室(USTR)代理副贸易代表卡特勒等交换意见。", + "diff": [ + "replace text[38:39] --> decoded_text[38:39] '(' --> '('", + "replace text[43:44] --> decoded_text[43:44] ')' --> ')'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)", + "decoded_text": "“把人撞伤了,总该有个说法吧。”王女士说,哥哥虽然没有生命危险,但肇事者就这样不了了之,于情于理都有些说不过去,“如果有看清车牌号的目击者能够提供有价值线索,我们会给予他(她)一定的资金酬谢。”同时,王女士希望,肇事者能够主动露面,给伤者家属一个合理的说法。(记者徐晓哲/报道)", + "diff": [ + "replace text[85:86] --> decoded_text[85:86] '(' --> '('", + "replace text[87:88] --> decoded_text[87:88] ')' --> ')'", + "replace text[129:130] --> decoded_text[129:130] '(' --> '('", + "replace text[138:139] --> decoded_text[138:139] ')' --> ')'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)", + "decoded_text": "还有多少场“火烧连营”的悲剧可以重来?这是一个应当回答也必须回答的问题。又一个古寨濒临消失,又一群人面临着流离失所,那么其他的古寨,其他居于其间的人,能否获得安全的保障?不要等到所有的古寨都消失了才想到消防工作的重要,如果连火灾都无以唤醒责任,还有比之更为强大的推动力吗?(堂吉伟德)", + "diff": [ + "replace text[136:137] --> decoded_text[136:137] '(' --> '('", + "replace text[141:142] --> decoded_text[141:142] ')' --> ')'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。", + "decoded_text": "在新奥尔良召开的全国汽车经销商协会会议上,Willisch表示,宝马i3将配备3系经典装置。这样,在入门级320i和标配级335i之间还会有大约15,000美元的价格窗口。Willisch表示,新车将会以一个“极具吸引力”的租约发售方式发布新车。", + "diff": [ + "replace text[74:75] --> decoded_text[74:75] ',' --> ','" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28日在例行记者会上表示,叙利亚冲突双方首次坐到一起,是朝着政治解决叙问题迈出的重要一步,联合国发挥了主渠道作用,来之不易,值得珍惜。只要双方都抱有诚意和耐心,坚持政治解决叙问题的大方向,相信谈判进程就会山重水复疑无路,柳暗花明又一村。", + "decoded_text": "招财带什么佛牌_极速灵猴佛牌作用_佛牌绳哪里有卖(www.suzastampin.com)1月28日电外交部发言人华春莹28日在例行记者会上表示,叙利亚冲突双方首次坐到一起,是朝着政治解决叙问题迈出的重要一步,联合国发挥了主渠道作用,来之不易,值得珍惜。只要双方都抱有诚意和耐心,坚持政治解决叙问题的大方向,相信谈判进程就会山重水复疑无路,柳暗花明又一村。", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] '(' --> '('" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] ',' --> ','", + "replace text[41:42] --> decoded_text[41:42] ',' --> ','" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..afddff48cb85b79722184fb31edc0a9776f9a138 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b356eb099f9de259c5aebf1fa4b59e377a566c6d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d371e1254d59c2702dbfb5ef2dc5f34281c3c85b --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..84810923145e0dfdcad164d644658e65b932e61a --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c7fcabce90df2e5122f9238725e9dc9e64e6fe41 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0982b3168d4918ce5cdc346cafda92fea500ca90 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen-7B-Chat @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..afddff48cb85b79722184fb31edc0a9776f9a138 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b356eb099f9de259c5aebf1fa4b59e377a566c6d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d371e1254d59c2702dbfb5ef2dc5f34281c3c85b --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..84810923145e0dfdcad164d644658e65b932e61a --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c7fcabce90df2e5122f9238725e9dc9e64e6fe41 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0982b3168d4918ce5cdc346cafda92fea500ca90 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-1.8B @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..afddff48cb85b79722184fb31edc0a9776f9a138 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b356eb099f9de259c5aebf1fa4b59e377a566c6d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d371e1254d59c2702dbfb5ef2dc5f34281c3c85b --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..84810923145e0dfdcad164d644658e65b932e61a --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c7fcabce90df2e5122f9238725e9dc9e64e6fe41 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0982b3168d4918ce5cdc346cafda92fea500ca90 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-110B @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..afddff48cb85b79722184fb31edc0a9776f9a138 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ar.diff.json @@ -0,0 +1,117 @@ +[ + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....", + "diff": [ + "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'", + "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''", + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .", + "diff": [ + "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'", + "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.", + "diff": [ + "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'", + "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.", + "diff": [ + "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'", + "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )", + "diff": [ + "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'", + "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'", + "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''", + "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'", + "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'", + "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).", + "diff": [ + "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'", + "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم", + "diff": [ + "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'", + "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد", + "diff": [ + "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'", + "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b356eb099f9de259c5aebf1fa4b59e377a566c6d --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.de.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:", + "diff": [ + "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'", + "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.", + "diff": [ + "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'", + "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'", + "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'", + "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'", + "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'", + "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'", + "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'", + "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'", + "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'", + "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.", + "diff": [ + "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'", + "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!", + "diff": [ + "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'", + "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'", + "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'", + "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'", + "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'", + "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "‹ Herzlichen Dank für all Ihre Spenden!", + "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!", + "diff": [ + "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.", + "diff": [ + "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'", + "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d371e1254d59c2702dbfb5ef2dc5f34281c3c85b --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fa.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه", + "diff": [ + "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'", + "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''", + "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'", + "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''", + "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'", + "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'", + "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''", + "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'", + "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'", + "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''", + "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'", + "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''", + "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'", + "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''", + "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'", + "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]", + "diff": [ + "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'", + "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''", + "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'", + "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''", + "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'", + "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]", + "diff": [ + "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'", + "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]", + "diff": [ + "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'", + "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''", + "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'", + "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''", + "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'", + "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''", + "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'", + "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.", + "diff": [ + "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'", + "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'", + "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'", + "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'", + "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''", + "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'", + "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.", + "diff": [ + "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'", + "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'", + "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''", + "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به", + "diff": [ + "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'", + "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'", + "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'", + "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'", + "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'", + "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.", + "diff": [ + "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'", + "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..84810923145e0dfdcad164d644658e65b932e61a --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.fr.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.", + "diff": [ + "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'", + "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'", + "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'", + "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'", + "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'", + "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.", + "diff": [ + "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'", + "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'", + "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.", + "diff": [ + "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'", + "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.", + "diff": [ + "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'", + "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'", + "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'", + "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.", + "diff": [ + "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'", + "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'", + "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.", + "diff": [ + "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'", + "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'", + "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'", + "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'", + "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'", + "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.", + "diff": [ + "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'", + "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'", + "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c7fcabce90df2e5122f9238725e9dc9e64e6fe41 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ja.diff.json @@ -0,0 +1,142 @@ +[ + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。", + "diff": [ + "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'", + "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'", + "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'", + "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'", + "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。", + "diff": [ + "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'", + "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'", + "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'", + "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。", + "diff": [ + "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'", + "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'", + "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'", + "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'", + "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。", + "diff": [ + "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'", + "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'", + "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'", + "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。", + "diff": [ + "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'", + "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'", + "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'", + "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'", + "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。", + "diff": [ + "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'", + "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。", + "diff": [ + "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'", + "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'", + "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。", + "diff": [ + "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'", + "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0982b3168d4918ce5cdc346cafda92fea500ca90 --- /dev/null +++ b/stats/compression_rate/Qwen.Qwen1.5-14B @ cc100.ko.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006211180124223602, + "oov_charset": "[\"樂\"]" + }, + { + "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.", + "diff": [ + "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'", + "replace text[401:402] --> decoded_text[401:402] '累' --> '累'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.004784688995215311, + "oov_charset": "[\"樂\", \"累\"]" + }, + { + "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로", + "diff": [ + "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007936507936507936, + "oov_charset": "[\"陸\"]" + }, + { + "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학", + "diff": [ + "replace text[108:109] --> decoded_text[108:109] '良' --> '良'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007692307692307693, + "oov_charset": "[\"良\"]" + }, + { + "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] '理' --> '理'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"理\"]" + }, + { + "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.", + "diff": [ + "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"樂\"]" + }, + { + "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '立' --> '立'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007874015748031496, + "oov_charset": "[\"立\"]" + }, + { + "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '金' --> '金'", + "replace text[63:64] --> decoded_text[63:64] '金' --> '金'", + "replace text[119:120] --> decoded_text[119:120] '金' --> '金'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.023622047244094488, + "oov_charset": "[\"金\"]" + }, + { + "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"梁\"]" + }, + { + "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"樂\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a54fd4411a585061beb54f978cf1e633378ab0f9 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.de.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..72eec86c45285f3c45ecfe33de13e00128260ad0 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..380dd9179a590b6b7413869dc677239e58aa9b03 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d2fa407bbd6b5d68fcde79aae085e45990acc23 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm-6b @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1be130a260fcacecfda14d11373aaf360fec0e1a --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.de.diff.json @@ -0,0 +1,114 @@ +[ + { + "text": "Die französische Philosophin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", + "decoded_text": "Die französische Philo sop hin Madeleine Delbrel hat gesagt, dass Gott unterwegs zu finden ist und nicht erst am Ziel. Wer unterwegs ist, der kann sich auch verändern und weiterentwickeln.", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[25:25] --> decoded_text[26:27] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philosophisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", + "decoded_text": "Das Digital Humanities Lab ist ein technologieorientiertes Labor der Philo sop hisch-Historischen Fakultät mit mehr als 20 Jahren Praxis in der interdisziplinären Forschung. Dessen Wurzeln liegen in der Fotografie, beginnend in den 1920er Jahren, die es in den frühen 1980er Jahren zur digitalen Bildverarbeitung und der langfristigen Erhaltung der digitalen Daten führten.", + "diff": [ + "insert text[74:74] --> decoded_text[74:75] '' --> ' '", + "insert text[77:77] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philosophie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", + "decoded_text": "Lustigerweise stellte sich schnell heraus, dass ich den netten jungen Mann hinter der Theke sogar durch eine gute gemeinsame Freundin kannte. Neben einem kleinen privaten Plausch erzählte er mir ein paar Details zur Marke, ihrer Philo sop hie und den Produkten, aber dazu später mehr. Da ich noch einiges an Bargeld übrig hatte und der Duft des GlossyBox Parfums mir wirklich gut gefiel, konnte ich irgendwie auch nicht mehr nein sagen. Zum Eau de Parfum (50 ml) gab es in einem niedlichen Jutebeutel noch einen Kajal, einen Lippenstift und ein Set mit 10 weiteren Parfumproben á 2ml, was in der Summe immerhin auch noch einmal 20 ml aus machte. Alles zusammen hat glaube ich 20,00 € gekostet. Für mein Empfinden kein so schlechter Deal.", + "diff": [ + "insert text[234:234] --> decoded_text[234:235] '' --> ' '", + "insert text[237:237] --> decoded_text[238:239] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philosophie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", + "decoded_text": "Kai Hoffmann: Er gibt Seminare für Führungskräfte, vor allem in Banken und Versicherungen, er coacht Manager – und läßt sie im Ring antreten. Er hat Philo sop hie und Psychoanalyse studiert, in beiden Fächern auch promoviert, war in der Geschäftsführung der Frankfurter Oper und boxt selbst seit vielen Jahren.", + "diff": [ + "insert text[154:154] --> decoded_text[154:155] '' --> ' '", + "insert text[157:157] --> decoded_text[158:159] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philosophie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philosophie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", + "decoded_text": "Was ist das für einer, der Männer und ganz gelegentlich auch Frauen, die seinen Rat suchen, spontan auffordert, mit ihm in den Boxring zu steigen und es ihm handfest zu geben? Genau so arbeitet Kai Hoffmann, Coach für Führungskräfte. Nach Abschluß seines Studiums der Philo sop hie und Psychoanalyse, nach seiner Promotion arbeitete er lange als Manager in der Geschäftsführung der Frankfurter Oper. Als Lehrbeauftragter für Philo sop hie an der Hochschule für Musik und Darstellende Kunst ist er bis heute tätig. Das aber hat mit Faustkampf rein gar nichts zu tun.", + "diff": [ + "insert text[273:273] --> decoded_text[273:274] '' --> ' '", + "insert text[276:276] --> decoded_text[277:278] '' --> ' '", + "insert text[428:428] --> decoded_text[430:431] '' --> ' '", + "insert text[431:431] --> decoded_text[434:435] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philosoph, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", + "decoded_text": "Stellen Sie sich vor, Sie treffen sich eines abends mit einem Ihrer Wettbewerber. Sie wollen weder gemeinsam zu Abend essen, noch über Kooperationen sprechen oder über die Schwierigkeiten des Unternehmerlebens. Sie wollen sich einfach mit ihm prügeln. Dafür legen Sie Krawatte und Anzug ab, steigen mit ihm in einen miefigen Keller und holen die Boxhandschuhe raus. Sie halten das für abwegig und unrealistisch? Kai Hoffmann, studierter Philo sop h, Psychoanalyst und Autor findet das ganz normal. Sein Motto: Von Muhammad Ali lernen, heißt Führen lernen.", + "diff": [ + "insert text[442:442] --> decoded_text[442:443] '' --> ' '", + "insert text[445:445] --> decoded_text[446:447] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philosoph, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", + "decoded_text": "Dann steigen sie in den Ring, zum so genannten Box-Coaching, einer neuen Spielart im Karrieretraining. Kai Hoffmann, promovierter Philo sop h, Unternehmensberater und Protagonist der noch jungen deutschen Business-Box-Szene, ist selbst seit 25 Jahren Hobbyboxer. „Wie in kaum einem anderen Sport stößt man schnell an Grenzen, die Stärken und Schwächen sichtbar machen. Daher eignet sich Boxen hervorragend als Teil meiner Beratung”, sagt Hoffmann. „In einem normalen Beratungsgespräch kann der Klient hervorragend weiter seine Rolle spielen, ohne dass man ihn authentisch erlebt. ”", + "diff": [ + "insert text[135:135] --> decoded_text[135:136] '' --> ' '", + "insert text[138:138] --> decoded_text[139:140] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Philosophie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", + "decoded_text": "Philo sop hie IST Geisteswissenschaft. Demnach kann ich den Sinn des Ganzen ergründen? Würde sagen, das nennt man dann Eigentor.", + "diff": [ + "insert text[5:5] --> decoded_text[5:6] '' --> ' '", + "insert text[8:8] --> decoded_text[9:10] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philosophischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", + "decoded_text": "Wir erheben keine Angaben zu Ihrem Geschlecht oder Ethnie, religiösen oder philo sop hischen Überzeugungen, Sexualleben, sexueller Orientierung, politischen Meinungen, Gewerkschaftsmitgliedschaften, Informationen über Ihre Gesundheit sowie zu genetischen und biometrischen Daten (besondere personenbezogene Daten). Wir sammeln auch keine Informationen über strafrechtliche Verurteilungen und Straftaten.", + "diff": [ + "insert text[80:80] --> decoded_text[80:81] '' --> ' '", + "insert text[83:83] --> decoded_text[84:85] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philosophie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", + "decoded_text": "Der Ururenkel des berühmten Verlagsgründers studierte Germanistik, Journalismus und Philo sop hie. Einer Promotion über Werbung folgten Studien- und Arbeitsaufenthalte in den USA und in Frankreich, wo er den MBA am INSEAD in Fontainebleau machte. Von 1990 bis 1994 war er mit seinem Bruder Andreas geschäftsführender Gesellschafter in der Langenscheidt Verlagsgruppe. Seit seinem Rückzug aus dem operativen Geschäft ist er als Buchautor und Herausgeber tätig. Regelmäßig verfasste der 58-Jährige Artikel und Kolumnen für bekannte Magazine und Zeitungen. Daneben engagiert sich der Vater von fünf Kindern in zahlreichen sozialen und ökologischen Projekten.", + "diff": [ + "insert text[89:89] --> decoded_text[89:90] '' --> ' '", + "insert text[92:92] --> decoded_text[93:94] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4afdb70e6e3e1c971236f64dcc50b330bd2bb692 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.en.diff.json @@ -0,0 +1,64 @@ +[ + { + "text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sophisticated, delicately regulated gene networks for improved tolerance traits.", + "decoded_text": "GM companies have patented plant genes that they believe are involved in tolerance to drought, heat, flooding, and salinity – but have not succeeded in using these genes to produce a single new crop with these properties. This is because these functions are highly complex and involve many different genes working together in a precisely regulated way. It is beyond existing GM technology to engineer crops with these sop histicated, delicately regulated gene networks for improved tolerance traits.", + "diff": [ + "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sophisticated, elegant, and classic.", + "decoded_text": "The white and grey tones would totally compliment our white cabinets and I think the marble look is sop histicated, elegant, and classic.", + "diff": [ + "insert text[100:100] --> decoded_text[100:101] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philosophy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www.sopoetry.com or via Facebook: PhiaMeSo.", + "decoded_text": "Sophia Elizabeth is a Bay Area poet and performing artist with a background in child development, dance, and philo sop hy and describes herself as \"a self-expressionist and motivational messenger.\" She is intrigued by emotion, order and chaos, the stability of beauty in pain, and the constant need for change as she writes about individual growth and universal acceptance. As an outgrowth of her various interests, she seeks to help others express themselves through the art of being seen, heard, and understood. Find more of her work at www. sop oetry.com or via Facebook: PhiaMeSo.", + "diff": [ + "replace text[114:117] --> decoded_text[114:119] 'sop' --> ' sop '", + "replace text[541:544] --> decoded_text[543:548] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "If your hen craves an elegant sophisticated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", + "decoded_text": "If your hen craves an elegant sop histicated hen party, but your guests can’t afford a top notch dinner, consider having high tea in a classy hotel instead. A set high tea will be cheaper than a full dinner, but just as fun and filling, and you’ll have plenty of time for cocktails afterwards.", + "diff": [ + "replace text[30:33] --> decoded_text[30:35] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "As you can tell, another big part of my philosophy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", + "decoded_text": "As you can tell, another big part of my philo sop hy is owning the inside of the plate and don’t be afraid to drill a guy straight in the knee if you have to. The head’s protected, their knee sure as shit ain’t.", + "diff": [ + "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philosophy is all wrong, etc.", + "decoded_text": "Sigh. I didn't say we were an 11-5 team, only that the feeling is exactly the same. Hawks lose, and the world crashes down for many here. When this team loses, even in 13-15, people would complain that we didn't have what it takes, the philo sop hy is all wrong, etc.", + "diff": [ + "replace text[241:244] --> decoded_text[241:246] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f5ca25a924d0ac48120c324c43c2c6746324f2da --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "diff": [ + "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "diff": [ + "insert text[6:6] --> decoded_text[6:7] '' --> ' '", + "insert text[9:9] --> decoded_text[10:11] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos posoperatorios.", + "decoded_text": "Psicoterapia breve porque contamos con un período corto de contacto con el paciente y su familia. En ese vínculo terapéutico acotado, debemos evaluar la estrategia más adecuada y ponerla en funcionamiento; elaborando un diagnóstico situacional de este paciente. La posibilidad de hablar acerca de los factores que preocupan al paciente y su familia, reducirán los problemas psíquicos po sop eratorios.", + "diff": [ + "replace text[386:389] --> decoded_text[386:391] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas posoperatorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", + "decoded_text": "Psicoterapia Planificada: se establece un plan de trabajo adecuado a las necesidades del paciente (cantidad de entrevista preoperatorias, ya sea en consultorios externos o en la internación; entrevistas po sop eratorias y cierre del proceso). La duración y la frecuencia en este proceso está casi siempre subordinada a la fecha programada de la cirugía.", + "diff": [ + "replace text[205:208] --> decoded_text[205:210] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sopesar todas las particularidades de cada una de las opciones.", + "decoded_text": "Hola Maritza, la decisión es tuya realmente. Nosotros te comentamos los pros y contras de ambas vías, pero al final la elección no es de nadie, sino tuya. Efectivamente los implantes cada 10 años aprox. deben renovarse. hay que sop esar todas las particularidades de cada una de las opciones.", + "diff": [ + "replace text[228:291] --> decoded_text[228:293] 'sopesar todas las particularidades de cada una de las opciones.' --> ' sop esar todas las particularidades de cada una de las opciones.'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado soportarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", + "decoded_text": "Hola Claudia, haces bien en ir con esa cautela, pues a tu edad y presentando detalles que pueden leerse como factores de riesgo no hay que precipitarse. Nos has explicado bastante bien tu historial y nos hacemos una idea, pero aún así no podemos darte una indicación concreta con total seguridad. Necesitamos comprobar, por ejemplo, la calidad de tus tejidos mamarios o la elasticidad de la piel para ver en que grado sop ortarían una nueva intervención. En general podríamos decirte que si, que algo discreto podría ser factible, pero estaríamos hablando a ciegas, y ciertamente no es nuestro estilo.", + "diff": [ + "replace text[418:421] --> decoded_text[418:423] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un soplo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", + "decoded_text": "Estamos a vuestra disposición. Mientras esperamos vuestra respuesta, os enviamos un abrazo, y un sop lo de esperanza, pues lo vuestro en chicas de vuestra edad tiene solución.", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> ' '", + "insert text[100:100] --> decoded_text[101:102] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un soplo de aire fresco.", + "decoded_text": "Los dos estamos realmente mal después de tanto alcohol. No sabía él, pero antes de esta tanda de cinco chupitos me he bebido como cuatro cervezas, dos chupitos de tequila y dos copas sumamente cargadas. Es decir, tres cuartas partes de alcohol y la cuarta restante de algún refresco cutre con el que apaciguar el sabor. Por lo que la idea la acojo como si fuera un sop lo de aire fresco.", + "diff": [ + "replace text[365:368] --> decoded_text[365:370] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no soportaba la idea de sacrificar a los perros y escogió ponies siberianos..", + "decoded_text": "Amundsen deseaba ser el primero en alcanzar el Polo Sur porque no pudo hacerlo en el Polo Norte. Reunió un equipo de esquiadores profesionales y usó perros de tiro; los animales más débiles fueron sacrificados y devorados por los más fuertes para asegurarse así el regreso. Su competidor, el británico Scott, no sop ortaba la idea de sacrificar a los perros y escogió ponies siberianos..", + "diff": [ + "replace text[312:315] --> decoded_text[312:317] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7b6ea2853f1a491a3a63b6c386c943889bad6f31 --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.fr.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philosophie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", + "decoded_text": "Magnifique appartement. Un rêve ! Et quelle belle terrasse, avec une vue superbe sur les arbres du Parc... Je me verrais bien allongée sur le transat une coupe de champagne à la main, en train de discuter art et philo sop hie méditative avec un Jérémy ressuscité... Ah quelle merveilleuse image A +", + "diff": [ + "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philosophie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", + "decoded_text": "Notre relation a) à la logique dite de l\"intégration\" des immigrés b) de formation des élites à un tout jeune âge c) de séparation entre les disciplines d) d'une école coupée de la pratique trouve son origine dans cette philo sop hie \"cartésienne\"....Non pas, rompre avec l'expérience, mais trouver un moyen de distinguer les véritables idées par un travail de mise à distance, d'éloignement ainsi confondu avec le recul.", + "diff": [ + "replace text[225:228] --> decoded_text[225:230] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sophistiqué qu'il ne l'était auparavant.", + "decoded_text": "Quant à la seconde raison, nous l'évoquions déjà dans notre rapport il y a dix ans, elle a depuis pris de l'ampleur. Il s'agit de la nécessité de créer des équipes spécialisées, performantes, car notre droit est beaucoup plus sop histiqué qu'il ne l'était auparavant.", + "diff": [ + "replace text[226:229] --> decoded_text[226:231] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sophistication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", + "decoded_text": "Nous devons voir les choses en face, car nous sommes aujourd'hui dans un monde nouveau qui se caractérise par des éléments très différents, comme la concentration urbaine, le développement du contentieux de masse, la sop histication du droit, la nouvelle culture des magistrats actuels, qui ont absolument besoin de travailler dans des équipes, et la diversification des modes de traitement.", + "diff": [ + "replace text[217:220] --> decoded_text[217:222] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philosophie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", + "decoded_text": "S'agissant du programme « Protection judiciaire de la jeunesse », la philo sop hie est la même que celle guidant le programme « Administration pénitentiaire ». La priorité a été accordée aux mesures d'enfermement, ce qui n'est pas nouveau, et les créations d'emplois permettront, entre autres, d'assurer le fonctionnement à pleine capacité des sept établissements pénitentiaires pour mineurs prévus par la loi du 9 septembre 2002 d'orientation et de programmation pour la justice.", + "diff": [ + "replace text[74:77] --> decoded_text[74:79] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philosophe français, Charles Pépin.", + "decoded_text": "C’est dans le cadre exceptionnel offert par les Sources de Caudalie, que la 7ème édition du Cycle Valoriser le Capital Humain a eu lieu. Un environnement propice aux échanges qui a accueilli les jeudi et vendredi 15 et 16 mars, un philo sop he français, Charles Pépin.", + "diff": [ + "replace text[236:239] --> decoded_text[236:241] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "André Comte-Sponville est mon philosophe préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", + "decoded_text": "André Comte-Sponville est mon philo sop he préféré depuis une vingtaine d'années, pas étonnant qu'un personnage ayant une pensée si claire et si objective en arrive à de saines conclusions même dans des domaines fort éloignés les uns des autres. A lire sans faute si l'on veut commencer à rentrer dans l'esprit de cet authentique intellectuel: Petit traité des grandes vertus.", + "diff": [ + "replace text[35:38] --> decoded_text[35:40] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philosophique.", + "decoded_text": "J'ai vecu dans un milieu où on ne parlait jamais de sexe. Nous étions tous des hommes célibataires et on échangeait des points de vue philo sop hique.", + "diff": [ + "insert text[139:139] --> decoded_text[139:140] '' --> ' '", + "insert text[142:142] --> decoded_text[143:144] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sophistiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", + "decoded_text": "L'arbalète de chasse sous-marine utilise ce même principe d'une façon un peu plus sop histiquée car il ne s'agit pas de lancer un simple caillou, mais une flèche en acier de plus d'1 mètre de long et...sous l'eau", + "diff": [ + "replace text[82:85] --> decoded_text[82:87] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cette métaphore, comme beaucoup de métaphores philosophiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", + "decoded_text": "Cette métaphore, comme beaucoup de métaphores philo sop hiques en sanskrit, peut sembler parfaitement obscure au premier abord, mais devient fort éclairante , quand on y regarde de plus près.", + "diff": [ + "insert text[51:51] --> decoded_text[51:52] '' --> ' '", + "insert text[54:54] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cd60050dff1d745c2b05b28e413fbb40f732c25e --- /dev/null +++ b/stats/compression_rate/THUDM.chatglm3-6b @ cc100.ko.diff.json @@ -0,0 +1,24 @@ +[ + { + "text": "人性學 이야기(Moral Philosophy 36) - 문화적 환경과 인성 4페이지", + "decoded_text": "人性學 이야기(Moral Philo sop hy 36) - 문화적 환경과 인성 4페이지", + "diff": [ + "insert text[19:19] --> decoded_text[19:20] '' --> ' '", + "insert text[22:22] --> decoded_text[23:24] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", + "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philo sop hy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.", + "diff": [ + "insert text[486:486] --> decoded_text[486:487] '' --> ' '", + "insert text[489:489] --> decoded_text[490:491] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..346ef60e51451a7fcfd1d66b8194b576febd5e09 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7e33df7d8b83b93e7de01ec45695b92cfc8353 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9f0009ec60f4baf997b9a13aa566c6bb9776a5d7 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ja.diff.json @@ -0,0 +1,82 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0554a90957042a4d5225801b5924055cf53611a3 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/WizardLM.WizardCoder-15B-V1.0 @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..77f37bd8d9d5eed663f216b1cba6392bae60dcb1 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ar.diff.json @@ -0,0 +1,145 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- ������������ / ������ �������� ���������������� - ���������� ����������.. ( 1)", + "diff": [ + "replace text[2:8] --> decoded_text[2:14] 'اللواء' --> '������������'", + "replace text[11:14] --> decoded_text[17:23] 'علي' --> '������'", + "replace text[15:19] --> decoded_text[24:32] 'محمد' --> '��������'", + "replace text[20:28] --> decoded_text[33:49] 'الكحلاني' --> '����������������'", + "replace text[31:36] --> decoded_text[52:62] 'نصيحة' --> '����������'", + "replace text[37:43] --> decoded_text[63:73] 'صادقة ' --> '����������'" + ], + "n_oov_chars": 31, + "oov_ratio": 0.62, + "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "���������� ������������ ��������������.. ���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������, ������ ������������ �������������������� ���������������� ���� 22�������� ���������� 1990��.. ������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������, ������ ������������ ���� ������������ ������������������, ������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������.. �������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������, ������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ���������� 1990�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������, ������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������.. �������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������, ������ ���������� ���������� ������������ ������������.. ���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� �������� (��������) ���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������..", + "diff": [ + "replace text[0:20] --> decoded_text[0:38] 'اليمن جنوبها وشمالها' --> '���������� ������������ ��������������'", + "replace text[23:97] --> decoded_text[41:178] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '���������� ������������ �������� ������ ���������� ���������� ������������ ���������������� ���� �������������� ���������� ��������������'", + "replace text[99:132] --> decoded_text[180:242] 'ومن حياتها الاعتيادية الطبيعية في' --> '������ ������������ �������������������� ���������������� ����'", + "replace text[135:145] --> decoded_text[245:264] 'مايو العام' --> '�������� ����������'", + "replace text[150:151] --> decoded_text[269:271] 'م' --> '��'", + "replace text[154:247] --> decoded_text[274:443] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '������ ���������� ���� ���������� ���� ���������� �������������� ���������� ���������� ������ ������ �������� ������ �������������� ���� ������������ ������ ������������'", + "replace text[249:279] --> decoded_text[445:501] 'ومن اضطراب في نسيجها الاجتماعي' --> '������ ������������ ���� ������������ ������������������'", + "replace text[281:332] --> decoded_text[503:598] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> '������ ������������ ���� ������ �������������� ���������������� ���������� ��������������������'", + "replace text[335:389] --> decoded_text[601:699] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '�������� ������ �������������� ���� �������� ������ ���������� ������������ ���� ���������� ������'", + "replace text[391:462] --> decoded_text[701:831] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> '������ ���������� �������� ������������ �������� ���������� ������ ���������� ���������� ������ ������������������ ���� ����������'", + "replace text[467:525] --> decoded_text[836:943] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '�� ������������ ������������ �������������� ������ ������ ������������ �������������� ���� ����������������'", + "replace text[527:602] --> decoded_text[945:1084] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> '������������ �������� �������������� ������������ ������ ���������� �������� �������������� ���� ������ ������������ ����������������������'", + "replace text[605:785] --> decoded_text[1087:1417] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '�������� ������������ ���������������� ������������ �������������� ������ ������������ ������������ �������������� �������� ���� ������������ ������������ ���������� ������������ �������������� ������������ ���� ������ ���������� �������� ���������� �������� ���������� ���� ������������ ���������� ���� ������ ���������� ��������'", + "replace text[787:816] --> decoded_text[1419:1473] 'عدا مصلحة اليمن الواحد الموحد' --> '������ ���������� ���������� ������������ ������������'", + "replace text[819:884] --> decoded_text[1476:1596] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '���������� �������������� �������� ���������� ���� ���������� ������������������ ���� ���������� �������������� ��������'", + "replace text[886:890] --> decoded_text[1598:1606] 'تردف' --> '��������'", + "replace text[892:964] --> decoded_text[1608:1740] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> '���� ������������ ������������ �������� ���������� �������� ������������ ���� ���������� �������������� ������ ���������� ����������'" + ], + "n_oov_chars": 776, + "oov_ratio": 0.8033126293995859, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������, ������ ���������� ���������� ���� ���������� ����������, ������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������, ���� �������������������� ������������������ ���� �������������� ���� ��������������, ���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������..", + "diff": [ + "replace text[0:49] --> decoded_text[0:89] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '������������ �������� ���� ������ �������� ���������� ������������ ���� ������ ����������'", + "replace text[51:81] --> decoded_text[91:146] 'وما شهدته البلد من مواقف عديدة' --> '������ ���������� ���������� ���� ���������� ����������'", + "replace text[83:151] --> decoded_text[148:274] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '������ ������������ ���������������� �������� ������ ���������� ���������� �������� �������� ���������������� ����������������'", + "replace text[153:198] --> decoded_text[276:360] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '���� �������������������� ������������������ ���� �������������� ���� ��������������'", + "replace text[200:337] --> decoded_text[362:613] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '���� ���������������� ���������� ���� ���������� ���� �������� ���������������� �������� ���� �������������� �������� �������� �������������� ���������������� �������� ������ �������������� �������������� ���������� ������ �������� �������� ����������'" + ], + "n_oov_chars": 276, + "oov_ratio": 0.8141592920353983, + "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..", + "diff": [ + "replace text[0:127] --> decoded_text[0:229] 'وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..' --> '���������� ������������ ���������������� ���� ���� ������ ������ ���� ��������.. ���������� ���� ���������� ������ �������� ������������ ������������ ���� �������������� �������������� ������������ ���������������� ������������..'" + ], + "n_oov_chars": 102, + "oov_ratio": 0.8031496062992126, + "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "������ ���������� ���������������� �������������� ���� �������� ��������, ������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������..", + "diff": [ + "replace text[0:39] --> decoded_text[0:72] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> '������ ���������� ���������������� �������������� ���� �������� ��������'", + "replace text[41:141] --> decoded_text[74:257] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> '������ ���� ������������ ���� ������ ���������������� ���������������� ���� ���������� ������������ �������������� �������� ���������� ������ ���������� ������ ���������� ������������'" + ], + "n_oov_chars": 116, + "oov_ratio": 0.8111888111888111, + "oov_charset": "[\"ف\", \"ه\", \"ل\", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������, ������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������..", + "diff": [ + "replace text[0:51] --> decoded_text[0:94] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> '������ ���������������� ������ ���������� ���� ������������ ������������ ���� ����������������'", + "replace text[53:155] --> decoded_text[96:282] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> '������������ ���� ���������������� ������ ���������� ������ �������� �������� �������� �������� �������� ������������ ������������ �������� �������� �������� ������������ �������� ������'" + ], + "n_oov_chars": 127, + "oov_ratio": 0.8089171974522293, + "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������.. ���� ���������� ����������- ������ ������ ������������ ������������, ������ ����������, ������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������, ���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������..", + "diff": [ + "replace text[0:67] --> decoded_text[0:120] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه' --> '������ ���� ���������� ���� ������������ ���� �������� ������ ���������� �������� ���� ������������ ���� �������� ������'", + "replace text[70:84] --> decoded_text[123:149] 'أن يتحول اليمن' --> '���� ���������� ����������'", + "replace text[86:107] --> decoded_text[151:190] 'وهو بلد ولاَّد بالخير' --> '������ ������ ������������ ������������'", + "replace text[109:118] --> decoded_text[192:209] 'إلى أطلال' --> '������ ����������'", + "replace text[120:175] --> decoded_text[211:312] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '������ ���������� ������������ �������������� ������ �������� ���� ������������ �������� ������������'", + "replace text[177:224] --> decoded_text[314:400] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> '���� ������������ ���������� ������������ ���� �������� ������ �������� ��������������'" + ], + "n_oov_chars": 176, + "oov_ratio": 0.7787610619469026, + "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������, ���� ������������ ������ ������������.. ���������������� ���������������� �������� ������������, ������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������, ������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������, ���� ������������..��!", + "diff": [ + "replace text[0:96] --> decoded_text[0:177] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '���������� �������� ���� �������������� ������ ������������ ������ ���������� ���������� ���������� �������� ������������ ���� ������������������ ���������������� ��������������'", + "replace text[98:118] --> decoded_text[179:216] 'لم يسلموا ولن يسلموا' --> '���� ������������ ������ ������������'", + "replace text[121:150] --> decoded_text[219:274] 'والأعباء والمتاعب طالت الجميع' --> '���������������� ���������������� �������� ������������'", + "replace text[152:280] --> decoded_text[276:511] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '������ ���� ���������� ������������������ ������ ���������� �������� ���������� ������ ���������� ������ ���������������� ���������� ������������ �������������� �������� ���������� �������������� �������������� ���������� ������ ������'", + "replace text[282:392] --> decoded_text[513:715] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '������������ ���������� ������ ���������� ���� �������������������� ���������������� ������ �������� ������ ������������ ������ ���������� ���������� ���������� ���������� ������������ ���� ������������'", + "replace text[394:403] --> decoded_text[717:734] 'أو أبوظبي' --> '���� ������������'", + "replace text[405:406] --> decoded_text[736:738] '؟' --> '��'" + ], + "n_oov_chars": 332, + "oov_ratio": 0.8157248157248157, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������.. ���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������!!", + "diff": [ + "replace text[0:118] --> decoded_text[0:215] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '������ ������������ ���������������� �������� �������� ������ �������� ���������� ���� ���������� ������������ ������ �������� �������� ���� �������� ���������� ������������ ������ ���������� �������� ��������������'", + "replace text[121:245] --> decoded_text[218:444] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '���������� �������� �������� �������������� ���������� �������� �������������� ���� ������ ������ ���������� ������������ �������������� ������ ������ ������ ���������� ������������������ ���� ������������ ������ ���� ��������'" + ], + "n_oov_chars": 199, + "oov_ratio": 0.805668016194332, + "oov_charset": "[\"و\", \"ه\", \"ل\", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������, ��������������, ���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������, �������� ������������, �������� ������������..", + "diff": [ + "replace text[0:60] --> decoded_text[0:107] 'اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '����������.. ���� ������ ������������ ��������������.. ���� ������ �������������� �������������� ����������'", + "replace text[62:69] --> decoded_text[109:123] 'ومحاصرة' --> '��������������'", + "replace text[71:166] --> decoded_text[125:299] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> '���������� ���������� ����������������.. ���������� �������������� �������� ���������������� ���������������� �������� �������������� �������� ���������� ������ ������ ������'", + "replace text[168:179] --> decoded_text[301:322] 'وصوب الرياض' --> '�������� ������������'", + "replace text[181:194] --> decoded_text[324:347] 'وصوب واشنطن..' --> '�������� ������������..'" + ], + "n_oov_chars": 153, + "oov_ratio": 0.788659793814433, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d2935afe5e4494894a3145e80899acf8c17906f7 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.de.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die ‖P��ngel-Weihnacht‖ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h��ren. Hier ist im Eintrittspreis von 18,50 ‖ ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f��r die G��ste.", + "diff": [ + "replace text[58:59] --> decoded_text[58:59] '„' --> '‖'", + "replace text[60:61] --> decoded_text[60:62] 'ü' --> '��'", + "replace text[75:76] --> decoded_text[76:77] '“' --> '‖'", + "replace text[159:160] --> decoded_text[160:162] 'ö' --> '��'", + "replace text[202:203] --> decoded_text[204:205] '€' --> '‖'", + "replace text[267:268] --> decoded_text[269:271] 'ü' --> '��'", + "replace text[275:280] --> decoded_text[278:284] 'äste.' --> '��ste.'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.025, + "oov_charset": "[\"„\", \"ü\", \"“\", \"ö\", \"€\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der ‖P��ngel-Weihnacht‖ an.", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] '„' --> '‖'", + "replace text[59:60] --> decoded_text[59:61] 'ü' --> '��'", + "replace text[74:75] --> decoded_text[75:76] '“' --> '‖'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0379746835443038, + "oov_charset": "[\"„\", \"ü\", \"“\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. Die Karten k��nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "diff": [ + "replace text[26:27] --> decoded_text[26:28] 'ö' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009708737864077669, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "Der Chor w��nscht Ihnen schon jetzt viel Vergn��gen.", + "diff": [ + "replace text[10:11] --> decoded_text[10:12] 'ü' --> '��'", + "replace text[45:46] --> decoded_text[46:48] 'ü' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04, + "oov_charset": "[\"ü\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder ��ber ein auf der Internetseite befindliches Webformular, an den f��r die Verarbeitung Verantwortlichen ��bermittelt. Sollten Sie ��ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf��gen, k��nnen wir die Daten auch von Ihrer ��ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie��lich zum Zwecke der Durchf��hrung des Bewerbungsverfahrens.", + "diff": [ + "replace text[211:212] --> decoded_text[211:213] 'ü' --> '��'", + "replace text[276:277] --> decoded_text[277:279] 'ü' --> '��'", + "replace text[313:314] --> decoded_text[315:317] 'ü' --> '��'", + "replace text[338:339] --> decoded_text[341:343] 'ü' --> '��'", + "replace text[435:436] --> decoded_text[439:441] 'ü' --> '��'", + "replace text[442:443] --> decoded_text[447:449] 'ö' --> '��'", + "replace text[477:478] --> decoded_text[483:485] 'ö' --> '��'", + "replace text[619:620] --> decoded_text[626:628] 'ß' --> '��'", + "replace text[646:647] --> decoded_text[654:656] 'ü' --> '��'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.01327433628318584, + "oov_charset": "[\"ü\", \"ö\", \"ß\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie��en, werden die ��bermittelten Daten zum Zwecke der Abwicklung des Besch��ftigungsverh��ltnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel��scht, sofern einer L��schung keine sonstigen berechtigten Interessen des f��r die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[61:62] --> decoded_text[61:63] 'ß' --> '��'", + "replace text[77:78] --> decoded_text[78:80] 'ü' --> '��'", + "replace text[132:133] --> decoded_text[134:136] 'ä' --> '��'", + "replace text[145:146] --> decoded_text[148:150] 'ä' --> '��'", + "replace text[316:317] --> decoded_text[320:322] 'ö' --> '��'", + "replace text[337:338] --> decoded_text[342:344] 'ö' --> '��'", + "replace text[390:391] --> decoded_text[396:398] 'ü' --> '��'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.01583710407239819, + "oov_charset": "[\"ß\", \"ü\", \"ä\", \"ö\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf��llung unserer vertraglichen und gesetzlichen Pflichten (wie F��hrungskr��fte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung ��ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben��tigen.", + "diff": [ + "replace text[119:120] --> decoded_text[119:121] 'ü' --> '��'", + "replace text[181:182] --> decoded_text[182:184] 'ü' --> '��'", + "replace text[190:191] --> decoded_text[192:194] 'ä' --> '��'", + "replace text[280:281] --> decoded_text[283:285] 'ü' --> '��'", + "replace text[476:477] --> decoded_text[480:482] 'ö' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.010351966873706004, + "oov_charset": "[\"ü\", \"ä\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie��lich zu Zwecken,", + "diff": [ + "replace text[64:65] --> decoded_text[64:66] 'ß' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012345679012345678, + "oov_charset": "[\"ß\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur Erf��llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im ��ffentlichen Interesse liegt;", + "diff": [ + "replace text[21:22] --> decoded_text[21:23] 'ü' --> '��'", + "replace text[160:161] --> decoded_text[161:163] 'ö' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010582010582010581, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh��rden, Auskunfteien, Rechtsanw��lte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "diff": [ + "replace text[98:99] --> decoded_text[98:100] 'ö' --> '��'", + "replace text[128:129] --> decoded_text[129:131] 'ä' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"ö\", \"ä\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d56c73e37f0b4d3d4b3e829cd577b2c54b3d2b0a --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.en.diff.json @@ -0,0 +1,111 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby‖s International Realty Canada.", + "diff": [ + "replace text[229:230] --> decoded_text[229:230] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "‖Within the city we‖ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,‖ listing agent Christa Frosch of Sotheby‖s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'", + "replace text[140:141] --> decoded_text[140:141] '”' --> '‖'", + "replace text[181:182] --> decoded_text[181:182] '’' --> '‖'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law‖s suite.", + "diff": [ + "replace text[380:381] --> decoded_text[380:381] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "‖We just went to the market yesterday, it‖s private through Sotheby‖s and we‖ve already started to get calls,‖ says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[41:42] --> decoded_text[41:42] '’' --> '‖'", + "replace text[67:68] --> decoded_text[67:68] '’' --> '‖'", + "replace text[76:77] --> decoded_text[76:77] '’' --> '‖'", + "replace text[109:110] --> decoded_text[109:110] '”' --> '‖'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydratedーthat means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (‖sips‖) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] '—' --> 'ー'", + "replace text[139:140] --> decoded_text[139:140] '“' --> '‖'", + "replace text[144:145] --> decoded_text[144:145] '”' --> '‖'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.", + "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about ǀ1.50.", + "diff": [ + "replace text[249:250] --> decoded_text[249:250] '£' --> 'ǀ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"£\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Read about what EEI’s International Programs has accomplished in the first-half of 2018", + "decoded_text": "Read about what EEI‖s International Programs has accomplished in the first-half of 2018", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] '’' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"’\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d685435351c2d4a619d9fbb68ccd9073e6b76ff --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.es.diff.json @@ -0,0 +1,110 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizaci��n criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsi��n, robo, sicariato, tr��fico il��cito de drogas.\", explic�� Medina.", + "diff": [ + "replace text[90:91] --> decoded_text[90:92] 'ó' --> '��'", + "replace text[159:160] --> decoded_text[160:162] 'ó' --> '��'", + "replace text[182:183] --> decoded_text[184:186] 'á' --> '��'", + "replace text[190:191] --> decoded_text[193:195] 'í' --> '��'", + "replace text[215:216] --> decoded_text[219:221] 'ó' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022321428571428572, + "oov_charset": "[\"ó\", \"á\", \"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organizaci��n criminal.", + "diff": [ + "replace text[66:67] --> decoded_text[66:68] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 veh��culos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[133:134] --> decoded_text[133:135] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El per��odo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "‖ Art. 2, Ley 4/1983, de 29 de junio, de fijaci��n de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'", + "replace text[47:48] --> decoded_text[47:49] 'ó' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"–\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El per��odo o per��odos de su disfrute se fijar�� de com��n", + "diff": [ + "replace text[9:10] --> decoded_text[9:11] 'í' --> '��'", + "replace text[19:20] --> decoded_text[20:22] 'í' --> '��'", + "replace text[48:49] --> decoded_text[50:52] 'á' --> '��'", + "replace text[56:57] --> decoded_text[59:61] 'ú' --> '��'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06896551724137931, + "oov_charset": "[\"í\", \"á\", \"ú\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificaci��n anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:19] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "En caso de desacuerdo entre las partes, la jurisdicci��n competente", + "diff": [ + "replace text[53:54] --> decoded_text[53:55] 'ó' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"ó\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "‖ Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '–' --> '‖'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + }, + { + "text": "determinados artículos del Estatuto de los Trabajadores,", + "decoded_text": "determinados art��culos del Estatuto de los Trabajadores,", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'í' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017857142857142856, + "oov_charset": "[\"í\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7423b52025f307dc834cea36016d478faa57829e --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fa.diff.json @@ -0,0 +1,165 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "���������������� �������� ����: February 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", + "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", + "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.45161290322580644, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "���������������� �������� ����", + "diff": [ + "replace text[0:8] --> decoded_text[0:16] 'آشپزخانه' --> '����������������'", + "replace text[9:13] --> decoded_text[17:25] 'کوچک' --> '��������'", + "replace text[14:16] --> decoded_text[26:30] 'من' --> '����'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.875, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "���������� ��������:2 �������� ������ ��������", + "diff": [ + "replace text[0:5] --> decoded_text[0:10] 'بکینگ' --> '����������'", + "replace text[6:10] --> decoded_text[11:19] 'پودر' --> '��������'", + "replace text[13:17] --> decoded_text[22:30] 'قاشق' --> '��������'", + "replace text[18:21] --> decoded_text[31:37] 'چای' --> '������'", + "replace text[22:26] --> decoded_text[38:46] 'خوری' --> '��������'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.7692307692307693, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "������ ������:2 ������ ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'تخم' --> '������'", + "replace text[4:7] --> decoded_text[7:13] 'مرغ' --> '������'", + "replace text[10:13] --> decoded_text[16:22] 'عدد' --> '������'", + "replace text[14:18] --> decoded_text[23:31] 'بزرگ' --> '��������'" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "������:225 ������ ���� �������� �������� ����������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", + "replace text[8:11] --> decoded_text[11:17] 'گرم' --> '������'", + "replace text[12:14] --> decoded_text[18:22] 'به' --> '����'", + "replace text[15:19] --> decoded_text[23:31] 'دمای' --> '��������'", + "replace text[20:24] --> decoded_text[32:40] 'اتاق' --> '��������'", + "replace text[25:30] --> decoded_text[41:51] 'رسیده' --> '����������'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.7, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "������:1��1/2 ������������+ 3 �������� ������ ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '������'", + "replace text[5:6] --> decoded_text[8:10] 'و' --> '��'", + "replace text[10:16] --> decoded_text[14:26] 'پیمانه' --> '������������'", + "replace text[20:24] --> decoded_text[30:38] 'قاشق' --> '��������'", + "replace text[25:28] --> decoded_text[39:45] 'غذا' --> '������'", + "replace text[29:33] --> decoded_text[46:54] 'خوری' --> '��������'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.6363636363636364, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "�������� ������������:2 ��1/2�������� ������ ��������", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] 'پودر' --> '��������'", + "replace text[5:11] --> decoded_text[9:21] 'دارچین' --> '������������'", + "replace text[14:15] --> decoded_text[24:26] 'و' --> '��'", + "replace text[18:22] --> decoded_text[29:37] 'قاشق' --> '��������'", + "replace text[23:26] --> decoded_text[38:44] 'چای' --> '������'", + "replace text[27:31] --> decoded_text[45:53] 'خوری' --> '��������'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.7096774193548387, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "���� ���� ������ 350 �������� ���������������� �������� ��������", + "diff": [ + "replace text[0:2] --> decoded_text[0:4] 'فر' --> '����'", + "replace text[3:5] --> decoded_text[5:9] 'رو' --> '����'", + "replace text[6:9] --> decoded_text[10:16] 'روی' --> '������'", + "replace text[14:18] --> decoded_text[21:29] 'درجه' --> '��������'", + "replace text[19:27] --> decoded_text[30:46] 'فارنهایت' --> '����������������'", + "replace text[28:32] --> decoded_text[47:55] 'روشن' --> '��������'", + "replace text[33:37] --> decoded_text[56:64] 'کنید' --> '��������'" + ], + "n_oov_chars": 27, + "oov_ratio": 0.7297297297297297, + "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "������ ���� ���� ������ ���� ���������� ���� ���������� �� �������� ������ ������ ���������� ���� �������� �������� ���������� �������� �� ���� ����������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '������'", + "replace text[4:6] --> decoded_text[7:11] 'رو' --> '����'", + "replace text[7:9] --> decoded_text[12:16] 'با' --> '����'", + "replace text[10:13] --> decoded_text[17:23] 'شکر' --> '������'", + "replace text[14:16] --> decoded_text[24:28] 'هم' --> '����'", + "replace text[17:22] --> decoded_text[29:39] 'بزنید' --> '����������'", + "replace text[23:25] --> decoded_text[40:44] 'تا' --> '����'", + "replace text[26:31] --> decoded_text[45:55] 'یکدست' --> '����������'", + "replace text[32:33] --> decoded_text[56:58] 'و' --> '��'", + "replace text[34:38] --> decoded_text[59:67] 'کرمی' --> '��������'", + "replace text[39:42] --> decoded_text[68:74] 'بشه' --> '������'", + "replace text[43:46] --> decoded_text[75:81] 'تخم' --> '������'", + "replace text[47:52] --> decoded_text[82:92] 'مرغها' --> '����������'", + "replace text[53:55] --> decoded_text[93:97] 'رو' --> '����'", + "replace text[56:60] --> decoded_text[98:106] 'دونه' --> '��������'", + "replace text[61:65] --> decoded_text[107:115] 'دونه' --> '��������'", + "replace text[66:71] --> decoded_text[116:126] 'اضافه' --> '����������'", + "replace text[72:76] --> decoded_text[127:135] 'کنید' --> '��������'", + "replace text[77:78] --> decoded_text[136:138] 'و' --> '��'", + "replace text[79:81] --> decoded_text[139:143] 'هم' --> '����'", + "replace text[82:87] --> decoded_text[144:154] 'بزنید' --> '����������'" + ], + "n_oov_chars": 67, + "oov_ratio": 0.7701149425287356, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "������ �� ���������� �������� �� ������ ���� ������ �������� �� ���������� ��������", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'ارد' --> '������'", + "replace text[4:5] --> decoded_text[7:9] 'و' --> '��'", + "replace text[6:11] --> decoded_text[10:20] 'بکینگ' --> '����������'", + "replace text[12:16] --> decoded_text[21:29] 'پودر' --> '��������'", + "replace text[17:18] --> decoded_text[30:32] 'و' --> '��'", + "replace text[19:22] --> decoded_text[33:39] 'نمک' --> '������'", + "replace text[23:25] --> decoded_text[40:44] 'رو' --> '����'", + "replace text[26:29] --> decoded_text[45:51] 'الک' --> '������'", + "replace text[30:34] --> decoded_text[52:60] 'کنید' --> '��������'", + "replace text[35:36] --> decoded_text[61:63] 'و' --> '��'", + "replace text[37:42] --> decoded_text[64:74] 'اضافه' --> '����������'", + "replace text[43:47] --> decoded_text[75:83] 'کنید' --> '��������'" + ], + "n_oov_chars": 36, + "oov_ratio": 0.7659574468085106, + "oov_charset": "[\"ا\", \"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..86e9bfbbe50d2b94901e7f5d12e8038f983250e9 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.fr.diff.json @@ -0,0 +1,122 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul �� avoir envisag�� de cr��er ce sujet, je me suis dis qu'il ��tait peut ��tre temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:36] 'à' --> '��'", + "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", + "replace text[56:57] --> decoded_text[58:60] 'é' --> '��'", + "replace text[91:92] --> decoded_text[94:96] 'é' --> '��'", + "replace text[102:103] --> decoded_text[106:108] 'ê' --> '��'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.03875968992248062, + "oov_charset": "[\"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on r��fl��chira.", + "diff": [ + "replace text[75:76] --> decoded_text[75:77] 'é' --> '��'", + "replace text[78:79] --> decoded_text[79:81] 'é' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.023529411764705882, + "oov_charset": "[\"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas oblig�� de vous d��voilez enti��rement", + "diff": [ + "replace text[38:39] --> decoded_text[38:40] 'é' --> '��'", + "replace text[49:50] --> decoded_text[50:52] 'é' --> '��'", + "replace text[61:62] --> decoded_text[63:65] 'è' --> '��'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.04411764705882353, + "oov_charset": "[\"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de m��moire, par exemple si quelqu'un me dit \"tu pourras faire ��a dans la soir��e?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[118:119] --> decoded_text[118:120] 'é' --> '��'", + "replace text[176:194] --> decoded_text[177:196] 'ça dans la soirée ' --> '��a dans la soir��e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012295081967213115, + "oov_charset": "[\"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma m��re dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien �� branler.", + "diff": [ + "replace text[68:69] --> decoded_text[68:70] 'è' --> '��'", + "replace text[224:225] --> decoded_text[225:227] 'à' --> '��'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et r��fl��chit tout seul sur des sujets n'ayant rien �� voir avec une situation. Exemple, quand j'attends mes soeurs et ma m��re devant un magasin, je r��fl��chit �� la cr��ation du monde.", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'é' --> '��'", + "replace text[19:20] --> decoded_text[20:22] 'é' --> '��'", + "replace text[63:64] --> decoded_text[65:67] 'à' --> '��'", + "replace text[133:134] --> decoded_text[136:138] 'è' --> '��'", + "replace text[160:161] --> decoded_text[164:166] 'é' --> '��'", + "replace text[163:164] --> decoded_text[168:170] 'é' --> '��'", + "replace text[169:177] --> decoded_text[175:185] 'à la cré' --> '�� la cr��'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"é\", \"à\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lyc��e, et ait tendance �� pref��rer ceux que je connais par Internet ou ailleurs qu'au lyc��e", + "diff": [ + "replace text[70:71] --> decoded_text[70:72] 'é' --> '��'", + "replace text[90:91] --> decoded_text[91:93] 'à' --> '��'", + "replace text[96:97] --> decoded_text[98:100] 'é' --> '��'", + "replace text[155:156] --> decoded_text[158:160] 'é' --> '��'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.025477707006369428, + "oov_charset": "[\"é\", \"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois ��tre mentalement instable, par moments", + "diff": [ + "replace text[10:11] --> decoded_text[10:12] 'ê' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que tr��s peu de sms et n'appelle personne", + "diff": [ + "replace text[20:21] --> decoded_text[20:22] 'è' --> '��'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance �� voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacit��s de r��flexions, et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:18] 'à' --> '��'", + "replace text[102:103] --> decoded_text[103:105] 'é' --> '��'", + "replace text[109:110] --> decoded_text[111:113] 'é' --> '��'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.020134228187919462, + "oov_charset": "[\"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..57cf99ec65a1c1513c6b7e9699663eebdc02be77 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ja.diff.json @@ -0,0 +1,112 @@ +[ + { + "text": "当の桂は「痛いではないか」と頬を膨らませているが、さりげなく銀時とは距離を作っている。", + "decoded_text": "当の桂は「痛いではないか」と頰を膨らませているが、さりげなく銀時とは距離を作っている。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '頬' --> '頰'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"頬\"]" + }, + { + "text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頬を撫でている。", + "decoded_text": "きっと、いつも通りの髪型だったのならば、指先に毛先が触れただろう。ざっくばらんに切られた髪が、奴の頰を撫でている。", + "diff": [ + "replace text[49:50] --> decoded_text[49:50] '頬' --> '頰'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017543859649122806, + "oov_charset": "[\"頬\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\" \"]" + }, + { + "text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができた——。", + "decoded_text": "何年か前、私が食事をする場所に困り抜いていたとき、インターネット検索を重ねに重ねて、ようやく見つけることができたーー。", + "diff": [ + "replace text[56:58] --> decoded_text[56:58] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"—\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この���M���は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの���T���、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する���M���をも凌駕するーーすなわち、私見では‖世界最高の自然食レストラン‖ということになる。", + "diff": [ + "replace text[2:3] --> decoded_text[2:5] '《' --> '���'", + "replace text[4:5] --> decoded_text[6:9] '》' --> '���'", + "replace text[72:73] --> decoded_text[76:79] '《' --> '���'", + "replace text[74:75] --> decoded_text[80:83] '》' --> '���'", + "replace text[104:105] --> decoded_text[112:115] '《' --> '���'", + "replace text[106:107] --> decoded_text[116:119] '》' --> '���'", + "replace text[113:115] --> decoded_text[125:127] '——' --> 'ーー'", + "replace text[124:125] --> decoded_text[136:137] '“' --> '‖'", + "replace text[138:139] --> decoded_text[150:151] '”' --> '‖'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.06756756756756757, + "oov_charset": "[\"《\", \"》\", \"—\", \"“\", \"”\"]" + }, + { + "text": "これこそが、いま——単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", + "decoded_text": "これこそが、いまーー単に自然食レストランばかりではない、本来、飲食店のあるべき姿ではないか。", + "diff": [ + "replace text[8:10] --> decoded_text[8:10] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"—\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らをーー。", + "diff": [ + "replace text[35:37] --> decoded_text[35:37] '——' --> 'ーー'", + "delete text[38:39] --> decoded_text[38:38] '\\u3000' --> ''" + ], + "n_oov_chars": 3, + "oov_ratio": 0.07692307692307693, + "oov_charset": "[\"—\", \" \"]" + }, + { + "text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだという——事と次第によっては、ほどなく滅びるものかもしれないという――。", + "decoded_text": "「世界」が、これまでの自分の祖先たちと同様には委譲されるものではないのだというーー事と次第によっては、ほどなく滅びるものかもしれないという‖‖。", + "diff": [ + "replace text[39:41] --> decoded_text[39:41] '——' --> 'ーー'", + "replace text[69:71] --> decoded_text[69:71] '――' --> '‖‖'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05555555555555555, + "oov_charset": "[\"—\", \"―\"]" + }, + { + "text": "これが、私の生まれ育った町——87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", + "decoded_text": "これが、私の生まれ育った町ーー87歳の父親と80歳の母親とが、生涯を過ごしてきた町なのだ。", + "diff": [ + "replace text[13:15] --> decoded_text[13:15] '——' --> 'ーー'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.044444444444444446, + "oov_charset": "[\"—\"]" + }, + { + "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "decoded_text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地‖‖長野県北部の田舎町である。", + "diff": [ + "replace text[44:46] --> decoded_text[44:46] '――' --> '‖‖'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"―\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..daa220085afadcaf7d2712b3acb48c0eb61666c8 --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.ko.diff.json @@ -0,0 +1,175 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ HOME > ������������������", + "diff": [ + "replace text[9:15] --> decoded_text[9:27] '라이브스코어' --> '������������������'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.4, + "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "������ ������ 15~17��� ��������� 3������ ��������� ������������������������ ���������������.", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '특히' --> '������'", + "replace text[3:5] --> decoded_text[7:13] '주소' --> '������'", + "replace text[11:12] --> decoded_text[19:22] '번' --> '���'", + "replace text[13:16] --> decoded_text[23:32] '홀에선' --> '���������'", + "replace text[18:20] --> decoded_text[34:40] '연속' --> '������'", + "replace text[21:24] --> decoded_text[41:50] '보기로' --> '���������'", + "replace text[25:33] --> decoded_text[51:75] '황금의제국카지노' --> '������������������������'", + "replace text[34:39] --> decoded_text[76:91] '홀아웃했다' --> '���������������'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1������'������������-������ ���'��� ��������� ������ ������ 2������ ��������� ������������������������ ������������ ��������� ������ ��������� ���������������.", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '편인' --> '������'", + "replace text[4:8] --> decoded_text[8:20] '신과함께' --> '������������'", + "replace text[9:11] --> decoded_text[21:27] '죄와' --> '������'", + "replace text[12:13] --> decoded_text[28:31] '벌' --> '���'", + "replace text[14:15] --> decoded_text[32:35] '이' --> '���'", + "replace text[16:19] --> decoded_text[36:45] '천만을' --> '���������'", + "replace text[20:22] --> decoded_text[46:52] '넘은' --> '������'", + "replace text[23:25] --> decoded_text[53:59] '만큼' --> '������'", + "replace text[27:29] --> decoded_text[61:67] '편을' --> '������'", + "replace text[30:33] --> decoded_text[68:77] '기다린' --> '���������'", + "replace text[34:42] --> decoded_text[78:102] '황금의제국카지노' --> '������������������������'", + "replace text[43:47] --> decoded_text[103:115] '관객들의' --> '������������'", + "replace text[48:51] --> decoded_text[116:125] '기대와' --> '���������'", + "replace text[52:54] --> decoded_text[126:132] '주소' --> '������'", + "replace text[55:58] --> decoded_text[133:142] '관심은' --> '���������'", + "replace text[59:64] --> decoded_text[143:158] '폭발적이다' --> '���������������'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "������������ ������ '��������� ������'��� ��������� ��������� ��������� ������. ��������� ��������� ������������ ��������� ������������������������ ������������ ������������ ���������.", + "diff": [ + "replace text[0:4] --> decoded_text[0:12] '고려해서' --> '������������'", + "replace text[5:7] --> decoded_text[13:19] '주소' --> '������'", + "replace text[9:12] --> decoded_text[21:30] '대체재' --> '���������'", + "replace text[13:15] --> decoded_text[31:37] '일색' --> '������'", + "replace text[16:17] --> decoded_text[38:41] '의' --> '���'", + "replace text[18:21] --> decoded_text[42:51] '분재를' --> '���������'", + "replace text[22:25] --> decoded_text[52:61] '내놓을' --> '���������'", + "replace text[26:29] --> decoded_text[62:71] '위험이' --> '���������'", + "replace text[30:32] --> decoded_text[72:78] '있다' --> '������'", + "replace text[34:37] --> decoded_text[80:89] '문학의' --> '���������'", + "replace text[38:41] --> decoded_text[90:99] '자유를' --> '���������'", + "replace text[42:46] --> decoded_text[100:112] '소설가가' --> '������������'", + "replace text[47:50] --> decoded_text[113:122] '스스로' --> '���������'", + "replace text[51:59] --> decoded_text[123:147] '황금의제국카지노' --> '������������������������'", + "replace text[60:64] --> decoded_text[148:160] '출판사에' --> '������������'", + "replace text[65:69] --> decoded_text[161:173] '상납하는' --> '������������'", + "replace text[70:73] --> decoded_text[174:183] '것이다' --> '���������'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "������������������ ������ ������������ ������ ���������(22)��� ������������������������ 4������3������(2������ ������) 3������(.246.270.508). ��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.", + "diff": [ + "replace text[0:21] --> decoded_text[0:55] '조시도널슨의 유산 프랭클린 주소 바레토' --> '������������������ ������ ������������ ������ ���������'", + "replace text[25:35] --> decoded_text[59:87] '는 황금의제국카지노' --> '��� ������������������������'", + "replace text[37:39] --> decoded_text[89:95] '타수' --> '������'", + "replace text[40:42] --> decoded_text[96:102] '안타' --> '������'", + "replace text[44:49] --> decoded_text[104:117] '루타 홈런' --> '������ ������'", + "replace text[52:54] --> decoded_text[120:126] '타점' --> '������'", + "delete text[59:60] --> decoded_text[131:131] ' ' --> ''", + "delete text[64:65] --> decoded_text[135:135] ' ' --> ''", + "replace text[72:106] --> decoded_text[142:228] '하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.' --> '��������� ��������� ������������ ��������� ������������ ������������ ��������� ������.'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "������������������ 2������ ������������ ���������. ������ A, B��� 1������ 12���-4���-������������ 3��������� ������������, C, D, ������������������������ E, F��� 1������ ������ 12���-6���-4���-������������ 4��������� ������ ������.", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '여기서승리한' --> '������������������'", + "replace text[8:19] --> decoded_text[20:49] '팀이 준결승에 오른다' --> '������ ������������ ���������'", + "replace text[21:23] --> decoded_text[51:57] '결국' --> '������'", + "replace text[28:33] --> decoded_text[62:73] '조 1위는' --> '��� 1������'", + "replace text[36:37] --> decoded_text[76:79] '강' --> '���'", + "replace text[39:45] --> decoded_text[81:97] '강-결승으로' --> '���-������������'", + "replace text[47:55] --> decoded_text[99:121] '경기를 치르지만' --> '��������� ������������'", + "replace text[63:71] --> decoded_text[129:153] '황금의제국카지노' --> '������������������������'", + "replace text[76:84] --> decoded_text[158:176] '조 1위는 주소' --> '��� 1������ ������'", + "replace text[87:88] --> decoded_text[179:182] '강' --> '���'", + "replace text[90:91] --> decoded_text[184:187] '강' --> '���'", + "replace text[93:99] --> decoded_text[189:205] '강-결승으로' --> '���-������������'", + "replace text[101:110] --> decoded_text[207:230] '경기를 해야 한다' --> '��������� ������ ������'" + ], + "n_oov_chars": 60, + "oov_ratio": 0.5405405405405406, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "������������ ��������� ������ ��� ������ ��� ��������������� ���������������. ������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������ '��������� ��������� 1���'��� ���������������������, ��������������� ������.", + "diff": [ + "replace text[0:30] --> decoded_text[0:76] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '������������ ��������� ������ ��� ������ ��� ��������������� ���������������'", + "replace text[32:74] --> decoded_text[78:186] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는' --> '������������������������ ��������� ��������� ������ ������ ��������� ��� ������������ ��������� ������������'", + "replace text[76:83] --> decoded_text[188:207] '실시간 검색어' --> '��������� ���������'", + "replace text[85:86] --> decoded_text[209:212] '위' --> '���'", + "replace text[87:96] --> decoded_text[213:238] '를 만들어주겠다며' --> '��� ���������������������'", + "replace text[98:106] --> decoded_text[240:262] '통화연결을 했다' --> '��������������� ������'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "��������������� ������������������������ ������, ������������ ������������ ������ ������ ������������ ������ ������ ������������. ������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������.", + "diff": [ + "replace text[0:17] --> decoded_text[0:47] '하지만이번 황금의제국카지노 시즌' --> '��������������� ������������������������ ������'", + "replace text[19:50] --> decoded_text[49:128] '호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다' --> '������������ ������������ ������ ������ ������������ ������ ������ ������������'", + "replace text[52:83] --> decoded_text[130:207] '호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다' --> '������������ ‖��� ���������‖��� ������ ��������������� ��������� ������������'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.7619047619047619, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "��������������������������������� ��������������� ������ ��������� ������������������������ ������ ������.", + "diff": [ + "replace text[0:11] --> decoded_text[0:33] '현대캐피탈은삼성화재와' --> '���������������������������������'", + "replace text[12:17] --> decoded_text[34:49] '시범경기를' --> '���������������'", + "replace text[18:20] --> decoded_text[50:56] '위해' --> '������'", + "replace text[21:24] --> decoded_text[57:66] '홍천에' --> '���������'", + "replace text[25:33] --> decoded_text[67:91] '황금의제국카지노' --> '������������������������'", + "replace text[34:36] --> decoded_text[92:98] '주소' --> '������'", + "replace text[37:39] --> decoded_text[99:105] '왔다' --> '������'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������, ������ ��� ������������ ������ ������������ ���������. ������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������.", + "diff": [ + "replace text[0:34] --> decoded_text[0:86] '사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데' --> '��������������� ��������� ������ ������������ ��������� ��� ������������ ������ ������'", + "replace text[36:57] --> decoded_text[88:141] '주소 둘 사이에는 어떤 거리낌도 없었다' --> '������ ��� ������������ ������ ������������ ���������'", + "replace text[59:97] --> decoded_text[143:239] '마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다' --> '������ ��������� ��� ������ ��������� ������ ������ ��������� ������������������������ ���������'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b6d5c7d570dfc1287a3c0e180fdf20fc20529f9d --- /dev/null +++ b/stats/compression_rate/abeja.gpt-neox-japanese-2.7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,295 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招������什幺仏牌卍(www.suzastampin.com)卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的。近日,���������门���系到山西���奇北京现代汽���4S店得知,店内朗动���型有现���供应,现���段������可享受最高6000元���恵幅度,具体的���型和���格情況请���下表,同時感���趣的朋友還可致电4008112233���3456������:", + "diff": [ + "replace text[2:4] --> decoded_text[2:8] '财带' --> '������'", + "replace text[5:7] --> decoded_text[9:11] '么佛' --> '幺仏'", + "replace text[31:32] --> decoded_text[35:36] '尔' --> '爾'", + "replace text[35:36] --> decoded_text[39:42] '姆' --> '���'", + "replace text[47:48] --> decoded_text[53:56] '车' --> '���'", + "replace text[52:53] --> decoded_text[60:63] '总' --> '���'", + "replace text[56:57] --> decoded_text[66:69] '职' --> '���'", + "replace text[59:61] --> decoded_text[71:77] '负责' --> '������'", + "replace text[68:69] --> decoded_text[84:87] '际' --> '���'", + "replace text[70:71] --> decoded_text[88:91] '场' --> '���'", + "replace text[81:82] --> decoded_text[101:102] '业' --> '北'", + "replace text[84:85] --> decoded_text[104:105] '这' --> '這'", + "replace text[92:94] --> decoded_text[112:116] '毕业' --> '���北'", + "replace text[96:97] --> decoded_text[118:119] '曾' --> '曽'", + "replace text[101:102] --> decoded_text[123:126] '车' --> '���'", + "replace text[106:107] --> decoded_text[130:133] '资' --> '���'", + "replace text[114:117] --> decoded_text[140:149] '编辑专' --> '���������'", + "replace text[118:119] --> decoded_text[150:153] '联' --> '���'", + "replace text[123:124] --> decoded_text[157:160] '传' --> '���'", + "replace text[130:131] --> decoded_text[166:169] '车' --> '���'", + "replace text[141:142] --> decoded_text[179:182] '车' --> '���'", + "replace text[145:146] --> decoded_text[185:188] '车' --> '���'", + "replace text[150:151] --> decoded_text[192:195] '阶' --> '���'", + "replace text[152:154] --> decoded_text[196:202] '购车' --> '������'", + "replace text[164:166] --> decoded_text[212:216] '优惠' --> '���恵'", + "replace text[172:173] --> decoded_text[222:225] '车' --> '���'", + "replace text[175:176] --> decoded_text[227:230] '价' --> '���'", + "replace text[178:179] --> decoded_text[232:233] '况' --> '況'", + "replace text[180:181] --> decoded_text[234:237] '见' --> '���'", + "replace text[185:186] --> decoded_text[241:242] '时' --> '時'", + "replace text[187:188] --> decoded_text[243:246] '兴' --> '���'", + "replace text[192:193] --> decoded_text[250:251] '还' --> '還'", + "replace text[206:207] --> decoded_text[264:267] '转' --> '���'", + "replace text[211:213] --> decoded_text[271:277] '详询' --> '������'" + ], + "n_oov_chars": 43, + "oov_ratio": 0.20093457943925233, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"编\", \"辑\", \"专\", \"联\", \"传\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"见\", \"时\", \"兴\", \"还\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一箇类似美国大片���幸福���点站���的案例令中国������彼得堡���事官胡���印象深刻。由于行前未能仔���核对������有効期,一对赴俄罗斯旅游的中国夫���因为������過期差点被困在俄罗斯。在胡���的���助下,這对夫���经���了���心动魄的3小時,���于在���机起���前5分���,登上返程的航班。", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '个' --> '箇'", + "replace text[8:9] --> decoded_text[8:11] '《' --> '���'", + "replace text[11:12] --> decoded_text[13:16] '终' --> '���'", + "replace text[14:15] --> decoded_text[18:21] '》' --> '���'", + "replace text[21:23] --> decoded_text[27:33] '驻圣' --> '������'", + "replace text[26:27] --> decoded_text[36:39] '领' --> '���'", + "replace text[30:31] --> decoded_text[42:45] '滨' --> '���'", + "replace text[43:44] --> decoded_text[57:60] '细' --> '���'", + "replace text[46:48] --> decoded_text[62:68] '签证' --> '������'", + "replace text[49:50] --> decoded_text[69:70] '效' --> '効'", + "replace text[64:65] --> decoded_text[84:87] '妇' --> '���'", + "replace text[67:70] --> decoded_text[89:96] '签证过' --> '������過'", + "replace text[82:83] --> decoded_text[108:111] '滨' --> '���'", + "replace text[84:85] --> decoded_text[112:115] '协' --> '���'", + "replace text[88:89] --> decoded_text[118:119] '这' --> '這'", + "replace text[91:92] --> decoded_text[121:124] '妇' --> '���'", + "replace text[93:94] --> decoded_text[125:128] '历' --> '���'", + "replace text[95:96] --> decoded_text[129:132] '惊' --> '���'", + "replace text[102:103] --> decoded_text[138:139] '时' --> '時'", + "replace text[104:105] --> decoded_text[140:143] '终' --> '���'", + "replace text[107:108] --> decoded_text[145:148] '飞' --> '���'", + "replace text[110:111] --> decoded_text[150:153] '飞' --> '���'", + "replace text[114:115] --> decoded_text[156:159] '钟' --> '���'" + ], + "n_oov_chars": 27, + "oov_ratio": 0.21774193548387097, + "oov_charset": "[\"个\", \"《\", \"终\", \"》\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"签\", \"证\", \"效\", \"妇\", \"过\", \"协\", \"这\", \"历\", \"惊\", \"时\", \"飞\", \"钟\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招������什幺仏牌���徳江在致辞中表示,中法建交開���了中法両箇���大国家友好笑系的新���元,���立了不同社会制度国家和平共外的新典范,对国���战略格局���生了重大而深���的影響。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[7:9] --> decoded_text[11:15] '张德' --> '���徳'", + "replace text[21:23] --> decoded_text[27:31] '开启' --> '開���'", + "replace text[26:29] --> decoded_text[34:39] '两个伟' --> '両箇���'", + "replace text[34:35] --> decoded_text[44:45] '关' --> '笑'", + "replace text[38:39] --> decoded_text[48:51] '纪' --> '���'", + "replace text[41:42] --> decoded_text[53:56] '树' --> '���'", + "replace text[55:56] --> decoded_text[69:70] '处' --> '外'", + "replace text[63:64] --> decoded_text[77:80] '际' --> '���'", + "replace text[68:69] --> decoded_text[84:87] '产' --> '���'", + "replace text[75:76] --> decoded_text[93:96] '远' --> '���'", + "replace text[78:79] --> decoded_text[98:99] '响' --> '響'" + ], + "n_oov_chars": 19, + "oov_ratio": 0.2375, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"张\", \"德\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"际\", \"产\", \"远\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招������什幺仏牌科斯格罗夫一直供���于������,曽被派往���来西���、越南、英国、印度、美国工作。1999年,他成为���合国���东帝汶部���司令,���督东帝汶向独立国家的過渡。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[15:16] --> decoded_text[19:22] '职' --> '���'", + "replace text[17:19] --> decoded_text[23:29] '军队' --> '������'", + "replace text[20:21] --> decoded_text[30:31] '曾' --> '曽'", + "replace text[24:25] --> decoded_text[34:37] '马' --> '���'", + "replace text[27:28] --> decoded_text[39:42] '亚' --> '���'", + "replace text[52:53] --> decoded_text[66:69] '联' --> '���'", + "replace text[55:56] --> decoded_text[71:74] '驻' --> '���'", + "replace text[60:61] --> decoded_text[78:81] '队' --> '���'", + "replace text[64:65] --> decoded_text[84:87] '监' --> '���'", + "replace text[75:76] --> decoded_text[97:98] '过' --> '過'" + ], + "n_oov_chars": 15, + "oov_ratio": 0.19230769230769232, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"职\", \"军\", \"队\", \"曾\", \"马\", \"亚\", \"联\", \"驻\", \"监\", \"过\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港���明������消息,在���祝披头士进���美国音乐市���50周年的���念日子,格莱美向両名付存成员:保罗麦卡尼及霊高史���(RingoStarr)���发���身成就���,���得別具意義。为了隆重其事,大会请来金像影后茱莉���‖‖罗伯茨(JuliaRoberts)������介���二人出���,保罗在拍���的鼓声和应下,先献唱新歌���QueenieEye���,然后���到后者演���旧作���Photograph���,������歌迷重温昔日的美好情���。", + "diff": [ + "replace text[9:10] --> decoded_text[9:12] '《' --> '���'", + "replace text[11:13] --> decoded_text[13:19] '报》' --> '������'", + "replace text[17:18] --> decoded_text[23:26] '庆' --> '���'", + "replace text[23:24] --> decoded_text[31:34] '军' --> '���'", + "replace text[29:30] --> decoded_text[39:42] '场' --> '���'", + "replace text[35:36] --> decoded_text[47:50] '纪' --> '���'", + "replace text[44:45] --> decoded_text[58:59] '两' --> '両'", + "replace text[46:47] --> decoded_text[60:61] '仅' --> '付'", + "replace text[57:58] --> decoded_text[71:72] '灵' --> '霊'", + "replace text[60:61] --> decoded_text[74:77] '达' --> '���'", + "replace text[73:74] --> decoded_text[89:92] '颁' --> '���'", + "replace text[75:76] --> decoded_text[93:96] '终' --> '���'", + "replace text[79:82] --> decoded_text[99:106] '奖,显' --> '���,���'", + "replace text[83:84] --> decoded_text[107:108] '别' --> '別'", + "replace text[86:87] --> decoded_text[110:111] '义' --> '義'", + "replace text[105:108] --> decoded_text[129:134] '亚••' --> '���‖‖'", + "replace text[125:127] --> decoded_text[151:157] '负责' --> '������'", + "replace text[128:129] --> decoded_text[158:161] '绍' --> '���'", + "replace text[132:133] --> decoded_text[164:167] '场' --> '���'", + "replace text[138:139] --> decoded_text[172:175] '档' --> '���'", + "replace text[151:152] --> decoded_text[187:190] '《' --> '���'", + "replace text[162:163] --> decoded_text[200:203] '》' --> '���'", + "replace text[166:167] --> decoded_text[206:209] '轮' --> '���'", + "replace text[171:172] --> decoded_text[213:216] '绎' --> '���'", + "replace text[174:175] --> decoded_text[218:221] '《' --> '���'", + "replace text[185:189] --> decoded_text[231:241] '》,带领' --> '���,������'", + "replace text[199:200] --> decoded_text[251:254] '怀' --> '���'" + ], + "n_oov_chars": 34, + "oov_ratio": 0.1691542288557214, + "oov_charset": "[\"《\", \"报\", \"》\", \"庆\", \"军\", \"场\", \"纪\", \"两\", \"仅\", \"灵\", \"达\", \"颁\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "仏牌������里有���到���目的地后,���者全程的���������是14元,但司机到���21元,因此,司机������者7元,除去之前支付的1元,���者������6元,還免���乗了本应支付14元的���。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '佛' --> '仏'", + "replace text[2:4] --> decoded_text[2:8] '绳哪' --> '������'", + "replace text[6:7] --> decoded_text[10:13] '卖' --> '���'", + "replace text[8:9] --> decoded_text[14:17] '达' --> '���'", + "replace text[14:15] --> decoded_text[22:25] '记' --> '���'", + "replace text[19:22] --> decoded_text[29:38] '总车费' --> '���������'", + "replace text[31:32] --> decoded_text[47:50] '账' --> '���'", + "replace text[41:43] --> decoded_text[59:65] '给记' --> '������'", + "replace text[57:58] --> decoded_text[79:82] '记' --> '���'", + "replace text[59:61] --> decoded_text[83:89] '净赚' --> '������'", + "replace text[64:65] --> decoded_text[92:93] '还' --> '還'", + "replace text[66:68] --> decoded_text[94:98] '费乘' --> '���乗'", + "replace text[77:78] --> decoded_text[107:110] '车' --> '���'" + ], + "n_oov_chars": 19, + "oov_ratio": 0.24050632911392406, + "oov_charset": "[\"佛\", \"绳\", \"哪\", \"卖\", \"达\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡爾・斯利���于2012年加入塔塔汽���公司担任���经理一���,并������公司在印度及国���市���上除捷豹和路虎以外的北务。這位斯坦福大学的���北生,曽任通用汽���在中国合���公司的副���裁,上汽通用五菱公司的副���裁以及通用汽���印度公司的���裁。(方���春)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '尔' --> '爾'", + "replace text[5:6] --> decoded_text[5:8] '姆' --> '���'", + "replace text[17:18] --> decoded_text[19:22] '车' --> '���'", + "replace text[22:23] --> decoded_text[26:29] '总' --> '���'", + "replace text[26:27] --> decoded_text[32:35] '职' --> '���'", + "replace text[29:31] --> decoded_text[37:43] '负责' --> '������'", + "replace text[38:39] --> decoded_text[50:53] '际' --> '���'", + "replace text[40:41] --> decoded_text[54:57] '场' --> '���'", + "replace text[51:52] --> decoded_text[67:68] '业' --> '北'", + "replace text[54:55] --> decoded_text[70:71] '这' --> '這'", + "replace text[62:64] --> decoded_text[78:82] '毕业' --> '���北'", + "replace text[66:67] --> decoded_text[84:85] '曾' --> '曽'", + "replace text[71:72] --> decoded_text[89:92] '车' --> '���'", + "replace text[76:77] --> decoded_text[96:99] '资' --> '���'", + "replace text[81:82] --> decoded_text[103:106] '总' --> '���'", + "replace text[94:95] --> decoded_text[118:121] '总' --> '���'", + "replace text[101:102] --> decoded_text[127:130] '车' --> '���'", + "replace text[107:108] --> decoded_text[135:138] '总' --> '���'", + "replace text[112:113] --> decoded_text[142:145] '赵' --> '���'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.1826086956521739, + "oov_charset": "[\"尔\", \"姆\", \"车\", \"总\", \"职\", \"负\", \"责\", \"际\", \"场\", \"业\", \"这\", \"毕\", \"曾\", \"资\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕���演不可能毎部作品都是爾喜���的东西,如果他一時控制不住情���,就���他���吧。他也是人,不是神,人就有自己的脾气。他這次執���春晩,对我也開���:‖老���,我跟爾说了這幺长時间,���爾走2号位,爾非要走1号位,爾想跟我���死���是不是?‖這也是���人。但因为爾非常了解他,他也不一定有���意。", + "diff": [ + "replace text[2:3] --> decoded_text[2:5] '导' --> '���'", + "replace text[7:8] --> decoded_text[9:10] '每' --> '毎'", + "replace text[13:14] --> decoded_text[15:16] '你' --> '爾'", + "replace text[15:16] --> decoded_text[17:20] '欢' --> '���'", + "replace text[24:25] --> decoded_text[28:29] '时' --> '時'", + "replace text[30:31] --> decoded_text[34:37] '绪' --> '���'", + "replace text[33:34] --> decoded_text[39:42] '让' --> '���'", + "replace text[35:36] --> decoded_text[43:46] '骂' --> '���'", + "replace text[57:58] --> decoded_text[67:68] '这' --> '這'", + "replace text[59:61] --> decoded_text[69:73] '执导' --> '執���'", + "replace text[62:63] --> decoded_text[74:75] '晚' --> '晩'", + "replace text[67:69] --> decoded_text[79:83] '开骂' --> '開���'", + "replace text[70:71] --> decoded_text[84:85] '“' --> '‖'", + "replace text[72:73] --> decoded_text[86:89] '毕' --> '���'", + "replace text[76:77] --> decoded_text[92:93] '你' --> '爾'", + "replace text[79:81] --> decoded_text[95:97] '这么' --> '這幺'", + "replace text[82:83] --> decoded_text[98:99] '时' --> '時'", + "replace text[85:87] --> decoded_text[101:105] '让你' --> '���爾'", + "replace text[92:93] --> decoded_text[110:111] '你' --> '爾'", + "replace text[100:101] --> decoded_text[118:119] '你' --> '爾'", + "replace text[104:105] --> decoded_text[122:125] '较' --> '���'", + "replace text[106:107] --> decoded_text[126:129] '劲' --> '���'", + "replace text[111:113] --> decoded_text[133:135] '”这' --> '‖這'", + "replace text[115:116] --> decoded_text[137:140] '骂' --> '���'", + "replace text[121:122] --> decoded_text[145:146] '你' --> '爾'", + "replace text[134:135] --> decoded_text[158:161] '恶' --> '���'" + ], + "n_oov_chars": 31, + "oov_ratio": 0.22627737226277372, + "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"时\", \"绪\", \"让\", \"骂\", \"这\", \"执\", \"晚\", \"开\", \"“\", \"毕\", \"么\", \"较\", \"劲\", \"”\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招������什幺仏牌不過���得多,娜妲也花得多。有媒体���道,教���卡洛斯的年薪高���360万元人民印,李娜毎年的花���是600多万元。用一箇形象的比喩,娜妲毎天一���眼,将近2万元就出去了。", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '财带' --> '������'", + "replace text[4:6] --> decoded_text[8:10] '么佛' --> '幺仏'", + "replace text[8:10] --> decoded_text[12:16] '过挣' --> '過���'", + "replace text[14:15] --> decoded_text[20:21] '姐' --> '妲'", + "replace text[23:24] --> decoded_text[29:32] '报' --> '���'", + "replace text[27:28] --> decoded_text[35:38] '练' --> '���'", + "replace text[35:36] --> decoded_text[45:48] '达' --> '���'", + "replace text[43:44] --> decoded_text[55:56] '币' --> '印'", + "replace text[47:48] --> decoded_text[59:60] '每' --> '毎'", + "replace text[51:52] --> decoded_text[63:66] '费' --> '���'", + "replace text[62:63] --> decoded_text[76:77] '个' --> '箇'", + "replace text[67:68] --> decoded_text[81:82] '喻' --> '喩'", + "replace text[70:72] --> decoded_text[84:86] '姐每' --> '妲毎'", + "replace text[74:75] --> decoded_text[88:91] '睁' --> '���'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"财\", \"带\", \"么\", \"佛\", \"过\", \"挣\", \"姐\", \"报\", \"练\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "‖金庸的小说������城������里有一箇反派人物‖血刀老祖‖,一般的坏人作坏事都是心虚的,但是這箇人物却作得心安理得,理直气壮,我遇到的這箇的歌就是這样。‖王先生向���者描述经過時第一句话便這样说。原来,昨日王先生在搭出租���時,遇到的的歌不付‖拾金而昧‖,還‖昧‖得理直气壮。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '“' --> '‖'", + "replace text[6:8] --> decoded_text[6:12] '《连' --> '������'", + "replace text[9:11] --> decoded_text[13:19] '诀》' --> '������'", + "replace text[14:15] --> decoded_text[22:23] '个' --> '箇'", + "replace text[19:20] --> decoded_text[27:28] '‘' --> '‖'", + "replace text[24:25] --> decoded_text[32:33] '’' --> '‖'", + "replace text[31:32] --> decoded_text[39:40] '做' --> '作'", + "replace text[42:44] --> decoded_text[50:52] '这个' --> '這箇'", + "replace text[47:48] --> decoded_text[55:56] '做' --> '作'", + "replace text[63:65] --> decoded_text[71:73] '这个' --> '這箇'", + "replace text[66:67] --> decoded_text[74:75] '哥' --> '歌'", + "replace text[69:70] --> decoded_text[77:78] '这' --> '這'", + "replace text[72:73] --> decoded_text[80:81] '”' --> '‖'", + "replace text[77:78] --> decoded_text[85:88] '记' --> '���'", + "replace text[82:84] --> decoded_text[92:94] '过时' --> '過時'", + "replace text[89:90] --> decoded_text[99:100] '这' --> '這'", + "replace text[105:107] --> decoded_text[115:119] '车时' --> '���時'", + "replace text[112:113] --> decoded_text[124:125] '哥' --> '歌'", + "replace text[114:116] --> decoded_text[126:128] '仅“' --> '付‖'", + "replace text[120:121] --> decoded_text[132:133] '”' --> '‖'", + "replace text[122:124] --> decoded_text[134:136] '还“' --> '還‖'", + "replace text[125:126] --> decoded_text[137:138] '”' --> '‖'" + ], + "n_oov_chars": 30, + "oov_ratio": 0.22727272727272727, + "oov_charset": "[\"“\", \"《\", \"连\", \"诀\", \"》\", \"个\", \"‘\", \"’\", \"做\", \"这\", \"哥\", \"”\", \"记\", \"过\", \"时\", \"车\", \"仅\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4a97ff2230823a353878e7cdda083198c81f6093 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ar.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..524966c0fe4f1205f53a0009e400bc35ceb9d4a0 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7e33df7d8b83b93e7de01ec45695b92cfc8353 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ce357a48e1dd804b8d8cbbff76aa5145142eb848 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ja.diff.json @@ -0,0 +1,113 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。", + "diff": [ + "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'", + "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'", + "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'", + "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。", + "diff": [ + "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'", + "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'", + "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'", + "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'", + "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'", + "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'", + "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'", + "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0554a90957042a4d5225801b5924055cf53611a3 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/allenai.OLMo-7B @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0952f8bf922e9ea571b3f446594f96fbb31a09d2 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ar.diff.json @@ -0,0 +1,190 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''", + "insert text[49:49] --> decoded_text[48:49] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تاكيد قد تنهدت من اعماق اعماقها الما واسى لما وصل اليه حال ابنايها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض ابنايها لاملاءات الغير ولحساباتهم.. ووسط هذه الماساة لم تعدم هذه الارض الطيبة من بقايا امل, ومن بقايا حكمة مازالت تميز ابناء هذا الشعب الطيب لان اليمانيين في العام 1990م فاجاوا العالم بوحدتهم حين كان العالم منغمسا في الانقسام, وحينما كانت الانظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنايية.. وكان اندفاع اليمنيين شمالا وجنوبا نحو الوحدة طوعيا وبمستوى عال من الحكمة ونكران الذات وتغليب المصلحة العليا عن اية مصالح اخرى سواء كانت ذاتية او حسابات جهوية او اية مصالح اخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الايثار ونحن نعتقد ان مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "diff": [ + "replace text[159:198] --> decoded_text[159:197] 'أكيد قد تنهدت من أعماق أعماقها ألماً وأ' --> 'اكيد قد تنهدت من اعماق اعماقها الما وا'", + "delete text[200:201] --> decoded_text[199:199] 'ً' --> ''", + "replace text[210:224] --> decoded_text[208:222] 'إليه حال أبنائ' --> 'اليه حال ابناي'", + "replace text[299:309] --> decoded_text[297:307] 'أبنائها لإ' --> 'ابنايها لا'", + "replace text[347:348] --> decoded_text[345:346] 'أ' --> 'ا'", + "replace text[366:367] --> decoded_text[364:365] 'أ' --> 'ا'", + "replace text[386:387] --> decoded_text[384:385] 'أ' --> 'ا'", + "replace text[418:419] --> decoded_text[416:417] 'أ' --> 'ا'", + "replace text[441:442] --> decoded_text[439:440] 'أ' --> 'ا'", + "replace text[472:473] --> decoded_text[470:471] 'أ' --> 'ا'", + "delete text[512:513] --> decoded_text[510:510] 'ً' --> ''", + "replace text[541:542] --> decoded_text[538:539] 'أ' --> 'ا'", + "replace text[599:600] --> decoded_text[596:597] 'ئ' --> 'ي'", + "delete text[631:632] --> decoded_text[628:628] 'ً' --> ''", + "delete text[639:640] --> decoded_text[635:635] 'ً' --> ''", + "delete text[657:658] --> decoded_text[652:652] 'ً' --> ''", + "delete text[670:671] --> decoded_text[664:664] 'ٍ' --> ''", + "replace text[720:721] --> decoded_text[713:714] 'أ' --> 'ا'", + "replace text[730:731] --> decoded_text[723:724] 'أ' --> 'ا'", + "delete text[739:740] --> decoded_text[732:732] 'ً' --> ''", + "replace text[752:753] --> decoded_text[744:745] 'أ' --> 'ا'", + "replace text[768:772] --> decoded_text[760:764] 'أو أ' --> 'او ا'", + "replace text[781:782] --> decoded_text[773:774] 'أ' --> 'ا'", + "replace text[827:828] --> decoded_text[819:820] 'إ' --> 'ا'", + "replace text[844:845] --> decoded_text[836:837] 'أ' --> 'ا'", + "replace text[886:890] --> decoded_text[878:884] 'تردف' --> ' تردف '" + ], + "n_oov_chars": 35, + "oov_ratio": 0.036231884057971016, + "oov_charset": "[\"أ\", \"ً\", \"إ\", \"ئ\", \"ٍ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "واليوم وبعد ان جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فان الحكمة اليمانية توجب على ابناء اليمن ايا كانت تياراتهم السياسية, او انتماءاتهم المناطقية او القبلية او الجهوية, ان يستذكروا جيدا ما وصفهم به رسول العالمين محمد بن عبدالله عليه افضل الصلوات والتسليم وعلى اله الاخيار الاطهار بانهم اهل حكمة واهل ايمان..", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] 'أ' --> 'ا'", + "replace text[84:85] --> decoded_text[84:85] 'إ' --> 'ا'", + "replace text[112:113] --> decoded_text[112:113] 'أ' --> 'ا'", + "replace text[124:128] --> decoded_text[124:127] 'أياً' --> 'ايا'", + "replace text[153:154] --> decoded_text[152:153] 'أ' --> 'ا'", + "replace text[177:178] --> decoded_text[176:177] 'أ' --> 'ا'", + "replace text[188:189] --> decoded_text[187:188] 'أ' --> 'ا'", + "replace text[200:201] --> decoded_text[199:200] 'أ' --> 'ا'", + "delete text[216:217] --> decoded_text[215:215] 'ً' --> ''", + "replace text[265:266] --> decoded_text[263:264] 'أ' --> 'ا'", + "replace text[292:299] --> decoded_text[290:297] 'آله الأ' --> 'اله الا'", + "replace text[306:307] --> decoded_text[304:305] 'أ' --> 'ا'", + "replace text[313:319] --> decoded_text[311:317] 'أنهم أ' --> 'انهم ا'", + "replace text[328:333] --> decoded_text[326:331] 'أهل إ' --> 'اهل ا'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.05309734513274336, + "oov_charset": "[\"أ\", \"إ\", \"ً\", \"آ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "وكلام الرسول واحاديثه ما هي الا وحي من الله.. بمعنى ان العمل بما قاله الرسول الاعظم هو مسوولية اخلاقية ودينية ومسوولية سياسية..", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'أ' --> 'ا'", + "replace text[28:29] --> decoded_text[28:29] 'إ' --> 'ا'", + "replace text[52:53] --> decoded_text[52:53] 'أ' --> 'ا'", + "replace text[79:80] --> decoded_text[79:80] 'أ' --> 'ا'", + "replace text[89:90] --> decoded_text[89:90] 'ؤ' --> 'و'", + "replace text[95:96] --> decoded_text[95:96] 'أ' --> 'ا'", + "replace text[113:114] --> decoded_text[113:114] 'ؤ' --> 'و'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05511811023622047, + "oov_charset": "[\"أ\", \"إ\", \"ؤ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "فهل اوضاع اليمنيين القايمة هي نتاج حكمة, وهل من الحكمة ان تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن ابناء هذا البلد العظيم..", + "diff": [ + "replace text[4:5] --> decoded_text[4:5] 'أ' --> 'ا'", + "replace text[23:24] --> decoded_text[23:24] 'ئ' --> 'ي'", + "replace text[55:56] --> decoded_text[55:56] 'أ' --> 'ا'", + "replace text[119:120] --> decoded_text[119:120] 'أ' --> 'ا'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.027972027972027972, + "oov_charset": "[\"أ\", \"ئ\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "وهل الانسياق نحو مزيد من العناد ومزيد من الاحتقان, ومزيد من الاحتراب بين ابناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى اله..", + "diff": [ + "delete text[21:22] --> decoded_text[21:21] 'ٍ' --> ''", + "delete text[38:39] --> decoded_text[37:37] 'ٍ' --> ''", + "delete text[58:59] --> decoded_text[56:56] 'ٍ' --> ''", + "replace text[76:77] --> decoded_text[73:74] 'أ' --> 'ا'", + "replace text[152:153] --> decoded_text[149:150] 'آ' --> 'ا'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.03184713375796178, + "oov_charset": "[\"ٍ\", \"أ\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "انا لا اعتقد ان عاقلا من بناء هذا البلد يقبل او يستسيغ ما يجري فيه.. ان يتحول اليمن - وهو بلد ولاد بالخير, الى اطلال, وان يتعرض ابناوه الاحرار الى قطيع من الذياب تنهش ببعضها, بل والاشد نكاية والما ان يكون ذلك خدمة لاعدايه..", + "diff": [ + "replace text[0:22] --> decoded_text[0:21] 'أنا لا اعتقد أن عاقلاً' --> 'انا لا اعتقد ان عاقلا'", + "replace text[46:47] --> decoded_text[45:46] 'أ' --> 'ا'", + "replace text[70:71] --> decoded_text[69:70] 'أ' --> 'ا'", + "insert text[84:84] --> decoded_text[83:84] '' --> ' '", + "delete text[97:99] --> decoded_text[97:97] 'َّ' --> ''", + "replace text[109:110] --> decoded_text[107:108] 'إ' --> 'ا'", + "replace text[113:114] --> decoded_text[111:112] 'أ' --> 'ا'", + "replace text[121:122] --> decoded_text[119:120] 'أ' --> 'ا'", + "replace text[130:140] --> decoded_text[128:138] 'أبناؤه الأ' --> 'ابناوه الا'", + "replace text[145:146] --> decoded_text[143:144] 'إ' --> 'ا'", + "replace text[160:161] --> decoded_text[158:159] 'ئ' --> 'ي'", + "replace text[183:184] --> decoded_text[181:182] 'أ' --> 'ا'", + "replace text[194:201] --> decoded_text[192:198] 'ألماً أ' --> 'الما ا'", + "replace text[218:226] --> decoded_text[215:223] 'أعدائه..' --> 'اعدايه..'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.09292035398230089, + "oov_charset": "[\"أ\", \"ً\", \"ّ\", \"َ\", \"إ\", \"ؤ\", \"ئ\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "اليمن انهك من العدوان ومن الحصار حتى اوليك الذين يظنون انهم بعيدون عن التاثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والاعباء والمتاعب طالت الجميع, وان ظل الصمت والانجرار خلف مواقف تخدم اعداء هذا الشعب فان المستقبل سيكون قاتما واضراره ستظل تلاحق الاجيال اليمنية جيلا بعد جيل, وسيكون اعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون ادوات بايدي الرياض او الدوحة, او ابوظبي.. ؟!", + "diff": [ + "replace text[6:7] --> decoded_text[6:7] 'أ' --> 'ا'", + "replace text[37:41] --> decoded_text[37:41] 'أولئ' --> 'اولي'", + "replace text[55:74] --> decoded_text[55:74] 'أنهم بعيدون عن التأ' --> 'انهم بعيدون عن التا'", + "replace text[124:125] --> decoded_text[124:125] 'أ' --> 'ا'", + "replace text[153:154] --> decoded_text[153:154] 'إ' --> 'ا'", + "replace text[190:191] --> decoded_text[190:191] 'أ' --> 'ا'", + "replace text[207:208] --> decoded_text[207:208] 'إ' --> 'ا'", + "replace text[230:234] --> decoded_text[230:233] 'ً وأ' --> ' وا'", + "replace text[253:254] --> decoded_text[252:253] 'أ' --> 'ا'", + "delete text[271:272] --> decoded_text[270:270] 'ً' --> ''", + "replace text[289:290] --> decoded_text[287:288] 'أ' --> 'ا'", + "replace text[364:372] --> decoded_text[362:370] 'أدوات بأ' --> 'ادوات با'", + "replace text[383:384] --> decoded_text[381:382] 'أ' --> 'ا'", + "replace text[394:398] --> decoded_text[392:396] 'أو أ' --> 'او ا'", + "insert text[405:405] --> decoded_text[403:404] '' --> ' '" + ], + "n_oov_chars": 19, + "oov_ratio": 0.04668304668304668, + "oov_charset": "[\"أ\", \"ئ\", \"إ\", \"ً\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت ان تكون خادمة لاجندة غير عربية وغير اسلامية.. اجندة تباع فيها الضماير وتباع فيها المواقف من اجل عين اصحاب البقرة الصفراء ومن اجل رضا اجهزة المخابرات في واشنطن وفي تل ابيب!!", + "diff": [ + "replace text[75:76] --> decoded_text[75:76] 'أ' --> 'ا'", + "replace text[90:91] --> decoded_text[90:91] 'أ' --> 'ا'", + "replace text[111:112] --> decoded_text[111:112] 'إ' --> 'ا'", + "replace text[121:122] --> decoded_text[121:122] 'أ' --> 'ا'", + "replace text[142:176] --> decoded_text[142:176] 'ئر وتباع فيها المواقف من أجل عين أ' --> 'ير وتباع فيها المواقف من اجل عين ا'", + "replace text[200:201] --> decoded_text[200:201] 'أ' --> 'ا'", + "replace text[208:209] --> decoded_text[208:209] 'أ' --> 'ا'", + "replace text[241:242] --> decoded_text[241:242] 'أ' --> 'ا'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04048582995951417, + "oov_charset": "[\"أ\", \"إ\", \"ئ\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد اهلها وساكنوها.. اليمن اصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب ابو ظبي, وصوب الرياض, وصوب واشنطن..", + "diff": [ + "replace text[77:78] --> decoded_text[77:78] 'أ' --> 'ا'", + "replace text[100:101] --> decoded_text[100:101] 'أ' --> 'ا'", + "replace text[159:160] --> decoded_text[159:160] 'أ' --> 'ا'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.015463917525773196, + "oov_charset": "[\"أ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.de.diff.json @@ -0,0 +1,213 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6c12c1388eb6aa809e6330a8e32781424dce53a1 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.en.diff.json @@ -0,0 +1,172 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a41364ca331616aa48c554033ea4b69ffc857be7 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.es.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a68827fb960b637899cdb30d4e1c80094729f74f --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fa.diff.json @@ -0,0 +1,124 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "اشپزخانه کوچک من : february 2012", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'", + "insert text[16:16] --> decoded_text[16:17] '' --> ' '", + "replace text[18:19] --> decoded_text[19:20] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.06451612903225806, + "oov_charset": "[\"آ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "اشپزخانه کوچک من", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0625, + "oov_charset": "[\"آ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "بکینگ پودر : 2 قاشق چای خوری", + "diff": [ + "insert text[10:10] --> decoded_text[10:11] '' --> ' '", + "insert text[11:11] --> decoded_text[12:13] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "تخم مرغ : 2 عدد بزرگ", + "diff": [ + "insert text[7:7] --> decoded_text[7:8] '' --> ' '", + "insert text[8:8] --> decoded_text[9:10] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "کره : 225 گرم به دمای اتاق رسیده", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[7:7] --> decoded_text[9:10] '' --> ' '", + "insert text[8:8] --> decoded_text[11:12] '' --> ' '", + "insert text[16:16] --> decoded_text[20:21] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری", + "diff": [ + "insert text[11:11] --> decoded_text[11:12] '' --> ' '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "insert text[17:17] --> decoded_text[20:21] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'", + "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''", + "replace text[79:80] --> decoded_text[78:79] 'F' --> 'f'", + "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''", + "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''", + "replace text[122:123] --> decoded_text[119:120] 'P' --> 'p'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05343511450381679, + "oov_charset": "[\"‏\", \"T\", \"F\", \"‌\", \"P\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسبها : شیرینی ها", + "diff": [ + "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''", + "insert text[8:8] --> decoded_text[7:8] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", + "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[9:9] --> decoded_text[11:12] '' --> ' '", + "insert text[10:10] --> decoded_text[13:14] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6218067701d9ab919c123d9fc6c4dcca52084cd8 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ja.diff.json @@ -0,0 +1,214 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "[UNK] [UNK] から [UNK] か 心 [UNK] たったのて [UNK] 出 [UNK] 、 [UNK] [UNK] [UNK] を [UNK] って 来 ました !", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '午後' --> '[UNK] [UNK] '", + "replace text[4:6] --> decoded_text[14:23] '雨が' --> ' [UNK] か '", + "replace text[7:9] --> decoded_text[24:32] '配だ' --> ' [UNK] た'", + "replace text[12:14] --> decoded_text[35:43] 'で遠' --> 'て [UNK] '", + "replace text[15:18] --> decoded_text[44:51] 'はせず' --> ' [UNK] '", + "replace text[19:28] --> decoded_text[52:71] '『ふれあいロード』' --> ' [UNK] [UNK] [UNK] '", + "replace text[29:30] --> decoded_text[72:79] '走' --> ' [UNK] '", + "insert text[32:32] --> decoded_text[81:82] '' --> ' '", + "insert text[33:33] --> decoded_text[83:84] '' --> ' '", + "insert text[36:36] --> decoded_text[87:88] '' --> ' '" + ], + "n_oov_chars": 15, + "oov_ratio": 0.40540540540540543, + "oov_charset": "[\"午\", \"後\", \"雨\", \"が\", \"配\", \"だ\", \"で\", \"遠\", \"せ\", \"ず\", \"『\", \"ふ\", \"ド\", \"』\", \"走\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] [UNK] に [UNK] か [UNK] ついてることを [UNK] て [UNK] しることか 出 来 ました [UNK] [UNK] [UNK] [UNK] されてる [UNK] [UNK] 道 を [UNK] [UNK] 世 [UNK] になってるホウリンク [UNK] か [UNK] [UNK] 来 ました 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '確実' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:29] '春が近づ' --> ' [UNK] か [UNK] つ'", + "replace text[13:17] --> decoded_text[35:51] '肌で感じ' --> ' [UNK] て [UNK] し'", + "replace text[20:21] --> decoded_text[54:56] 'が' --> 'か '", + "insert text[22:22] --> decoded_text[57:58] '' --> ' '", + "insert text[23:23] --> decoded_text[59:60] '' --> ' '", + "replace text[27:32] --> decoded_text[64:88] '着々と整備' --> '[UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[92:105] '圏央' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[106:107] '' --> ' '", + "replace text[40:45] --> decoded_text[108:121] '越えるとお' --> ' [UNK] [UNK] '", + "replace text[46:47] --> decoded_text[122:129] '話' --> ' [UNK] '", + "replace text[52:53] --> decoded_text[134:135] 'ボ' --> 'ホ'", + "replace text[56:62] --> decoded_text[138:160] 'グ場が見えて' --> 'ク [UNK] か [UNK] [UNK] '", + "insert text[63:63] --> decoded_text[161:162] '' --> ' '", + "insert text[66:66] --> decoded_text[165:166] '' --> ' '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.3880597014925373, + "oov_charset": "[\"確\", \"実\", \"春\", \"が\", \"近\", \"づ\", \"肌\", \"で\", \"感\", \"じ\", \"着\", \"々\", \"整\", \"備\", \"圏\", \"央\", \"越\", \"え\", \"話\", \"ボ\", \"グ\", \"場\", \"見\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] [UNK] [UNK] 、 [UNK] か [UNK] 中 てトイレに 行 きたくなってしまい 、 [UNK] り 道 にあったケンタに [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:18] 'うぅ〜〜' --> '[UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[19:34] '私が途' --> ' [UNK] か [UNK] '", + "replace text[9:10] --> decoded_text[35:37] 'で' --> ' て'", + "insert text[14:14] --> decoded_text[41:42] '' --> ' '", + "insert text[15:15] --> decoded_text[43:44] '' --> ' '", + "insert text[24:24] --> decoded_text[53:54] '' --> ' '", + "replace text[25:26] --> decoded_text[55:62] '通' --> ' [UNK] '", + "insert text[27:27] --> decoded_text[63:64] '' --> ' '", + "insert text[28:28] --> decoded_text[65:66] '' --> ' '", + "replace text[36:45] --> decoded_text[74:93] '変更しちゃいました' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 11, + "oov_ratio": 0.2391304347826087, + "oov_charset": "[\"ぅ\", \"〜\", \"私\", \"が\", \"途\", \"で\", \"通\", \"変\", \"更\", \"ゃ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "[UNK] は 、 [UNK] 年 [UNK] 前 [UNK] [UNK] [UNK] の [UNK] [UNK] の [UNK] によ [UNK] く [UNK] ないと 分 からない [UNK] の 小 さな [UNK] を [UNK] つけてたんてす 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '実' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '", + "replace text[5:6] --> decoded_text[17:24] '程' --> ' [UNK] '", + "replace text[7:12] --> decoded_text[25:44] 'にエルモサ' --> ' [UNK] [UNK] [UNK] '", + "replace text[13:15] --> decoded_text[45:58] '右目' --> ' [UNK] [UNK] '", + "replace text[16:20] --> decoded_text[59:66] '黒目の端' --> ' [UNK] '", + "replace text[22:23] --> decoded_text[68:75] '〜' --> ' [UNK] '", + "replace text[24:25] --> decoded_text[76:83] '見' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[86:87] '' --> ' '", + "insert text[29:29] --> decoded_text[88:89] '' --> ' '", + "replace text[33:34] --> decoded_text[93:100] '程' --> ' [UNK] '", + "insert text[35:35] --> decoded_text[101:102] '' --> ' '", + "insert text[36:36] --> decoded_text[103:104] '' --> ' '", + "replace text[38:39] --> decoded_text[106:113] '斑' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[114:121] '見' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[126:127] 'で' --> 'て'", + "insert text[48:48] --> decoded_text[128:129] '' --> ' '" + ], + "n_oov_chars": 15, + "oov_ratio": 0.30612244897959184, + "oov_charset": "[\"実\", \"1\", \"程\", \"モ\", \"右\", \"目\", \"黒\", \"端\", \"〜\", \"見\", \"斑\", \"で\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その 時 [UNK] て [UNK] 生 からはおそらく [UNK] [UNK] [UNK] シストロフィー [UNK] [UNK] [UNK] [UNK] をもらっていました 。", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> ' '", + "replace text[3:6] --> decoded_text[4:19] '点で先' --> ' [UNK] て [UNK] '", + "insert text[7:7] --> decoded_text[20:21] '' --> ' '", + "replace text[14:18] --> decoded_text[28:48] '『角膜ジ' --> ' [UNK] [UNK] [UNK] シ'", + "replace text[24:33] --> decoded_text[54:79] '』であろうとの診断' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[42:42] --> decoded_text[88:89] '' --> ' '" + ], + "n_oov_chars": 12, + "oov_ratio": 0.27906976744186046, + "oov_charset": "[\"点\", \"で\", \"先\", \"『\", \"角\", \"膜\", \"ジ\", \"』\", \"ろ\", \"診\", \"断\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] 合 は1 年 [UNK] [UNK] [UNK] して [UNK] [UNK] 、 [UNK] し 大 [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "replace text[10:13] --> decoded_text[18:37] '程経過' --> ' [UNK] [UNK] [UNK] '", + "replace text[15:27] --> decoded_text[39:52] '徐々にではあるんですけど' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[53:60] '少' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[61:62] '' --> ' '", + "replace text[31:43] --> decoded_text[63:69] 'きくなってきちゃいました' --> ' [UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.27906976744186046, + "oov_charset": "[\"モ\", \"場\", \"程\", \"経\", \"過\", \"徐\", \"々\", \"で\", \"ど\", \"少\", \"ゃ\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "たた 、 これまてお [UNK] [UNK] [UNK] [UNK] からは [UNK] [UNK] とかされたことはないのて 、 こちらから [UNK] [UNK] [UNK] 立 つ [UNK] [UNK] 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", + "replace text[8:12] --> decoded_text[10:35] '散歩仲間' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[15:17] --> decoded_text[38:51] '指摘' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[62:64] 'で' --> 'て '", + "insert text[30:30] --> decoded_text[65:66] '' --> ' '", + "replace text[35:46] --> decoded_text[71:90] '言わなければそんなに目' --> ' [UNK] [UNK] [UNK] '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "replace text[48:59] --> decoded_text[93:106] '程ではないんですけどね' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 18, + "oov_ratio": 0.3, + "oov_charset": "[\"だ\", \"で\", \"散\", \"歩\", \"仲\", \"間\", \"指\", \"摘\", \"言\", \"わ\", \"ば\", \"目\", \"程\", \"ど\", \"ね\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "[UNK] はヒアルロン [UNK] の [UNK] [UNK] なとも [UNK] 方 されてたようてすか 、 これか [UNK] く 事 はないそうてす 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '昔' --> '[UNK] '", + "replace text[7:8] --> decoded_text[12:19] '酸' --> ' [UNK] '", + "replace text[9:11] --> decoded_text[20:33] '目薬' --> ' [UNK] [UNK] '", + "replace text[12:13] --> decoded_text[34:35] 'ど' --> 'と'", + "replace text[14:15] --> decoded_text[36:43] '処' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[44:45] '' --> ' '", + "replace text[22:23] --> decoded_text[51:52] 'で' --> 'て'", + "replace text[24:25] --> decoded_text[53:55] 'が' --> 'か '", + "insert text[26:26] --> decoded_text[56:57] '' --> ' '", + "replace text[28:30] --> decoded_text[59:67] 'が効' --> 'か [UNK] '", + "insert text[31:31] --> decoded_text[68:69] '' --> ' '", + "insert text[32:32] --> decoded_text[70:71] '' --> ' '", + "replace text[37:38] --> decoded_text[76:77] 'で' --> 'て'", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 11, + "oov_ratio": 0.275, + "oov_charset": "[\"昔\", \"酸\", \"目\", \"薬\", \"ど\", \"処\", \"で\", \"が\", \"効\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なのて 、 エルティとのお [UNK] [UNK] ても [UNK] [UNK] 。 カタクリの [UNK] [UNK] 分 [UNK] きとの 情 [UNK] から [UNK] [UNK] [UNK] 取 り 入 れてみました 。", + "diff": [ + "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", + "replace text[11:14] --> decoded_text[13:27] '散歩で' --> ' [UNK] [UNK] て'", + "replace text[15:26] --> decoded_text[28:41] '訪れたことがありません' --> ' [UNK] [UNK] '", + "replace text[33:36] --> decoded_text[48:61] '花が5' --> ' [UNK] [UNK] '", + "replace text[37:38] --> decoded_text[62:69] '咲' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[72:73] '' --> ' '", + "replace text[42:43] --> decoded_text[74:81] '報' --> ' [UNK] '", + "replace text[45:54] --> decoded_text[83:102] '今回コースの1つに' --> ' [UNK] [UNK] [UNK] '", + "insert text[55:55] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[105:106] '' --> ' '", + "insert text[57:57] --> decoded_text[107:108] '' --> ' '", + "insert text[63:63] --> decoded_text[114:115] '' --> ' '" + ], + "n_oov_chars": 16, + "oov_ratio": 0.25, + "oov_charset": "[\"で\", \"デ\", \"散\", \"歩\", \"訪\", \"が\", \"せ\", \"花\", \"5\", \"咲\", \"報\", \"今\", \"回\", \"1\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 [UNK] [UNK] ってみたかったんたけと 、 いつも [UNK] 上 部 らしき 学 生 さんかものすこいスヒートて [UNK] け [UNK] けていくのを [UNK] の [UNK] [UNK]", + "diff": [ + "replace text[1:5] --> decoded_text[1:14] '々から走' --> ' [UNK] [UNK] '", + "replace text[13:14] --> decoded_text[22:23] 'だ' --> 'た'", + "replace text[15:16] --> decoded_text[24:26] 'ど' --> 'と '", + "insert text[17:17] --> decoded_text[27:28] '' --> ' '", + "replace text[20:21] --> decoded_text[31:38] '陸' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[39:40] '' --> ' '", + "insert text[23:23] --> decoded_text[41:42] '' --> ' '", + "insert text[26:26] --> decoded_text[45:46] '' --> ' '", + "insert text[27:27] --> decoded_text[47:48] '' --> ' '", + "insert text[28:28] --> decoded_text[49:50] '' --> ' '", + "replace text[30:31] --> decoded_text[52:53] 'が' --> 'か'", + "replace text[34:35] --> decoded_text[56:57] 'ご' --> 'こ'", + "replace text[37:38] --> decoded_text[59:60] 'ピ' --> 'ヒ'", + "replace text[39:42] --> decoded_text[61:70] 'ドで駆' --> 'トて [UNK] '", + "replace text[43:44] --> decoded_text[71:78] '抜' --> ' [UNK] '", + "replace text[50:51] --> decoded_text[84:91] '目' --> ' [UNK] '", + "replace text[52:71] --> decoded_text[92:104] '当たりにしてちょっとビビっておりました' --> ' [UNK] [UNK]'" + ], + "n_oov_chars": 17, + "oov_ratio": 0.23943661971830985, + "oov_charset": "[\"々\", \"走\", \"だ\", \"ど\", \"陸\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"駆\", \"抜\", \"目\", \"当\", \"ょ\", \"ビ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..86e24ad802e5147defafad9e1817c730e1517aa2 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.ko.diff.json @@ -0,0 +1,267 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", + "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", + "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", + "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", + "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", + "replace text[25:33] --> decoded_text[46:51] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[52:57] '홀아웃했다' --> '[UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] 벌'이 천만을 넘은 [UNK] [UNK] 기다린 [UNK] [UNK] [UNK] 주소 [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:23] '벌' --> '[UNK] 벌'", + "replace text[14:15] --> decoded_text[24:26] '이' --> '이'", + "replace text[16:19] --> decoded_text[27:36] '천만을' --> '천만을'", + "replace text[20:22] --> decoded_text[37:43] '넘은' --> '넘은'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:63] '기다린' --> '기다린'", + "replace text[34:42] --> decoded_text[64:69] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[70:75] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[76:81] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[82:86] '주소' --> '주소'", + "replace text[55:58] --> decoded_text[87:92] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[93:98] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "고려해서 주소'대체재 일색'[UNK] 분재를 [UNK] [UNK] [UNK]. [UNK] [UNK] 소설가가 스스로 [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", + "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", + "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", + "replace text[9:12] --> decoded_text[28:33] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[34:42] \"일색'의\" --> '분재를'", + "replace text[18:21] --> decoded_text[43:48] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[49:54] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[55:60] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[62:67] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[68:73] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[74:83] '소설가가' --> '소설가가'", + "replace text[47:50] --> decoded_text[84:90] '스스로' --> '스스로'", + "replace text[51:59] --> decoded_text[91:96] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[97:102] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[103:108] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[109:114] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] 주소 바레토 ( 22 ) 는 [UNK] 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 [UNK] 기대치를 보여주지 [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:22] '주소' --> '주소'", + "replace text[18:21] --> decoded_text[23:30] '바레토' --> '바레토 '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "insert text[24:24] --> decoded_text[34:35] '' --> ' '", + "delete text[25:26] --> decoded_text[36:36] '는' --> ''", + "replace text[27:35] --> decoded_text[37:46] '황금의제국카지노' --> '는 [UNK]'", + "replace text[37:39] --> decoded_text[48:52] '타수' --> '타수'", + "replace text[40:42] --> decoded_text[53:59] '안타' --> '안타 '", + "insert text[43:43] --> decoded_text[60:61] '' --> ' '", + "replace text[44:46] --> decoded_text[62:66] '루타' --> '루타'", + "replace text[47:49] --> decoded_text[67:74] '홈런' --> '홈런 '", + "replace text[52:54] --> decoded_text[77:83] '타점' --> '타점 '", + "insert text[56:56] --> decoded_text[85:86] '' --> ' '", + "insert text[59:59] --> decoded_text[89:90] '' --> '.'", + "delete text[60:61] --> decoded_text[91:91] '.' --> ''", + "insert text[64:64] --> decoded_text[94:95] '' --> '.'", + "delete text[65:66] --> decoded_text[96:96] '.' --> ''", + "insert text[69:69] --> decoded_text[99:100] '' --> ' '", + "replace text[72:75] --> decoded_text[103:110] '하지만' --> '하지만'", + "replace text[76:79] --> decoded_text[111:119] '아직은' --> '아직은'", + "replace text[80:84] --> decoded_text[120:128] '트레이드' --> '트레이드'", + "replace text[85:88] --> decoded_text[129:134] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[135:144] '기대치를' --> '기대치를'", + "replace text[94:98] --> decoded_text[145:153] '보여주지' --> '보여주지'", + "replace text[99:102] --> decoded_text[154:159] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[160:165] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, [UNK] e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 [UNK] 한다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", + "replace text[8:10] --> decoded_text[16:21] '팀이' --> '팀이'", + "replace text[11:15] --> decoded_text[22:33] '준결승에' --> '준결승에'", + "replace text[16:19] --> decoded_text[34:41] '오른다' --> '오른다'", + "replace text[21:23] --> decoded_text[43:49] '결국' --> '결국'", + "replace text[24:25] --> decoded_text[50:51] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[53:56] 'B조' --> 'b조'", + "replace text[30:33] --> decoded_text[57:62] '1위는' --> '[UNK]'", + "replace text[36:37] --> decoded_text[65:69] '강' --> '강 '", + "insert text[38:38] --> decoded_text[70:71] '' --> ' '", + "replace text[39:40] --> decoded_text[72:76] '강' --> '강 '", + "replace text[41:45] --> decoded_text[77:88] '결승으로' --> ' 결승으로'", + "replace text[47:50] --> decoded_text[90:98] '경기를' --> '경기를'", + "replace text[51:55] --> decoded_text[99:108] '치르지만' --> '치르지만'", + "replace text[57:58] --> decoded_text[110:111] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[113:114] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[116:121] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[122:123] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[125:128] 'F조' --> 'f조'", + "replace text[78:81] --> decoded_text[129:134] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[135:139] '주소' --> '주소'", + "replace text[87:88] --> decoded_text[142:146] '강' --> '강 '", + "insert text[89:89] --> decoded_text[147:148] '' --> ' '", + "replace text[90:91] --> decoded_text[149:153] '강' --> '강 '", + "delete text[92:99] --> decoded_text[154:154] '4강-결승으로' --> ''", + "replace text[101:104] --> decoded_text[156:159] '경기를' --> '강'", + "replace text[105:107] --> decoded_text[160:161] '해야' --> '-'", + "replace text[108:110] --> decoded_text[162:194] '한다' --> '결승으로 4경기를 [UNK] 한다'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] 눈길을 주소 [UNK] [UNK] 한 [UNK] [UNK]. [UNK] [UNK] 매니저 일을 하고 [UNK] 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:15] '눈길을' --> '눈길을'", + "replace text[9:11] --> decoded_text[16:20] '주소' --> '주소'", + "replace text[12:13] --> decoded_text[21:26] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[27:32] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[33:36] '한' --> '한'", + "replace text[19:24] --> decoded_text[37:42] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[43:48] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[50:55] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[56:61] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[62:68] '매니저' --> '매니저'", + "replace text[49:51] --> decoded_text[69:75] '일을' --> '일을'", + "replace text[52:54] --> decoded_text[76:80] '하고' --> '하고'", + "replace text[55:58] --> decoded_text[81:86] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[87:90] '한' --> '한'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:104] '사연에' --> '사연에'", + "replace text[70:74] --> decoded_text[105:125] '박명수는' --> \"박명수는'실시간\"", + "insert text[75:75] --> decoded_text[126:140] '' --> '검색어 [UNK]'", + "replace text[76:79] --> decoded_text[141:144] '실시간' --> '를'", + "replace text[80:96] --> decoded_text[145:150] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[152:157] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[158:163] '했다' --> '[UNK]'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "하지만이번 [UNK] 시즌, [UNK] [UNK] 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 ‘ 빅 사이닝 ’ 을 통해 [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", + "replace text[6:14] --> decoded_text[13:18] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[19:24] '시즌' --> '시즌'", + "replace text[19:23] --> decoded_text[26:31] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[32:37] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[38:42] '다시' --> '다시'", + "replace text[32:34] --> decoded_text[43:47] '주소' --> '주소'", + "replace text[35:39] --> decoded_text[48:53] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[54:60] '먹는' --> '먹는'", + "replace text[43:45] --> decoded_text[61:66] '일이' --> '일이'", + "replace text[46:50] --> decoded_text[67:72] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[74:83] '호날두가' --> '호날두가'", + "delete text[58:59] --> decoded_text[85:85] '빅' --> ''", + "replace text[60:63] --> decoded_text[86:98] '사이닝' --> '빅 사이닝 '", + "delete text[64:65] --> decoded_text[99:99] '을' --> ''", + "replace text[66:68] --> decoded_text[100:103] '통해' --> '을'", + "replace text[69:74] --> decoded_text[104:109] '유벤투스로' --> '통해'", + "replace text[75:78] --> decoded_text[110:115] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[116:127] '때문이다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] 시범경기를 [UNK] 홍천에 [UNK] 주소 [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:19] '시범경기를' --> '시범경기를'", + "replace text[18:20] --> decoded_text[20:25] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[26:34] '홍천에' --> '홍천에'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[41:45] '주소' --> '주소'", + "replace text[37:39] --> decoded_text[46:51] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "사실자매가 나란히 [UNK] [UNK] 한다는 게 [UNK] [UNK] 한데, 주소 둘 사이에는 [UNK] [UNK] [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", + "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", + "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[26:31] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[32:40] '한다는' --> '한다는'", + "replace text[22:23] --> decoded_text[41:43] '게' --> '게'", + "replace text[24:28] --> decoded_text[44:49] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[50:55] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[56:61] '한데' --> '한데'", + "replace text[36:38] --> decoded_text[63:67] '주소' --> '주소'", + "replace text[39:40] --> decoded_text[68:71] '둘' --> '둘'", + "replace text[41:45] --> decoded_text[72:81] '사이에는' --> '사이에는'", + "replace text[46:48] --> decoded_text[82:87] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[88:93] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[94:99] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[101:105] '마치' --> '마치'", + "replace text[62:65] --> decoded_text[106:112] '하루에' --> '하루에'", + "replace text[66:67] --> decoded_text[113:116] '한' --> '한'", + "replace text[68:70] --> decoded_text[117:122] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[123:131] '만나는' --> '만나는'", + "replace text[75:77] --> decoded_text[132:137] '친구' --> '친구'", + "replace text[78:80] --> decoded_text[138:143] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[144:149] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[150:155] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[156:161] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0a4d7d69bd82a73c8899c6c9ec1535857ebae112 --- /dev/null +++ b/stats/compression_rate/asafaya.bert-base-arabic @ cc100.zh-Hans.diff.json @@ -0,0 +1,593 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] 门 [UNK] [UNK] 到 山 西 [UNK] [UNK] [UNK] 京 现 代 [UNK] [UNK] 4s [UNK] 得 [UNK] , [UNK] 内 [UNK] 动 [UNK] [UNK] 有 现 [UNK] [UNK] [UNK] , 现 [UNK] [UNK] [UNK] [UNK] 可 [UNK] [UNK] 最 高 6000 元 优 [UNK] [UNK] [UNK] , [UNK] 体 的 [UNK] [UNK] 和 [UNK] [UNK] 情 [UNK] [UNK] [UNK] 下 [UNK] , [UNK] 时 [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] 可 [UNK] 电 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[43:50] '卍' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[51:52] '' --> ' '", + "insert text[14:14] --> decoded_text[56:57] '' --> ' '", + "insert text[26:26] --> decoded_text[69:70] '' --> ' '", + "insert text[29:29] --> decoded_text[73:74] '' --> ' '", + "replace text[30:32] --> decoded_text[75:88] '卡尔' --> ' [UNK] [UNK] '", + "insert text[33:33] --> decoded_text[89:90] '' --> ' '", + "insert text[34:34] --> decoded_text[91:92] '' --> ' '", + "replace text[35:37] --> decoded_text[93:106] '姆于' --> ' [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[110:111] '' --> ' '", + "insert text[42:42] --> decoded_text[112:113] '' --> ' '", + "insert text[43:43] --> decoded_text[114:115] '' --> ' '", + "replace text[44:48] --> decoded_text[116:141] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[142:143] '' --> ' '", + "replace text[50:54] --> decoded_text[144:169] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[55:55] --> decoded_text[170:171] '' --> ' '", + "replace text[56:57] --> decoded_text[172:179] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[180:199] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[200:201] '' --> ' '", + "insert text[63:63] --> decoded_text[202:203] '' --> ' '", + "replace text[64:67] --> decoded_text[204:223] '印度及' --> ' [UNK] [UNK] [UNK] '", + "insert text[68:68] --> decoded_text[224:225] '' --> ' '", + "insert text[69:69] --> decoded_text[226:227] '' --> ' '", + "insert text[70:70] --> decoded_text[228:229] '' --> ' '", + "insert text[71:71] --> decoded_text[230:231] '' --> ' '", + "replace text[72:75] --> decoded_text[232:251] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[252:265] '路虎' --> ' [UNK] [UNK] '", + "replace text[79:80] --> decoded_text[266:273] '外' --> ' [UNK] '", + "insert text[81:81] --> decoded_text[274:275] '' --> ' '", + "replace text[82:83] --> decoded_text[276:283] '务' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[284:297] '这位' --> ' [UNK] [UNK] '", + "replace text[87:88] --> decoded_text[298:305] '坦' --> ' [UNK] '", + "insert text[89:89] --> decoded_text[306:307] '' --> ' '", + "insert text[90:90] --> decoded_text[308:309] '' --> ' '", + "insert text[91:91] --> decoded_text[310:311] '' --> ' '", + "replace text[92:93] --> decoded_text[312:319] '毕' --> ' [UNK] '", + "insert text[94:94] --> decoded_text[320:321] '' --> ' '", + "insert text[95:95] --> decoded_text[322:323] '' --> ' '", + "replace text[96:99] --> decoded_text[324:343] '曾任通' --> ' [UNK] [UNK] [UNK] '", + "replace text[100:102] --> decoded_text[344:357] '汽车' --> ' [UNK] [UNK] '", + "insert text[103:103] --> decoded_text[358:359] '' --> ' '", + "insert text[104:104] --> decoded_text[360:361] '' --> ' '", + "insert text[105:105] --> decoded_text[362:363] '' --> ' '", + "replace text[106:107] --> decoded_text[364:371] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[372:373] '' --> ' '", + "insert text[109:109] --> decoded_text[374:375] '' --> ' '", + "insert text[110:110] --> decoded_text[376:377] '' --> ' '", + "replace text[111:112] --> decoded_text[378:385] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[386:387] '' --> ' '", + "replace text[114:117] --> decoded_text[388:407] '编辑专' --> ' [UNK] [UNK] [UNK] '", + "replace text[118:120] --> decoded_text[408:421] '联系' --> ' [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[422:423] '' --> ' '", + "insert text[122:122] --> decoded_text[424:425] '' --> ' '", + "replace text[123:126] --> decoded_text[426:445] '传奇北' --> ' [UNK] [UNK] [UNK] '", + "insert text[127:127] --> decoded_text[446:447] '' --> ' '", + "insert text[128:128] --> decoded_text[448:449] '' --> ' '", + "replace text[129:131] --> decoded_text[450:463] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:134] --> decoded_text[464:472] 'S店' --> 's [UNK] '", + "replace text[135:136] --> decoded_text[473:480] '知' --> ' [UNK] '", + "replace text[137:138] --> decoded_text[481:488] '店' --> ' [UNK] '", + "replace text[139:140] --> decoded_text[489:496] '朗' --> ' [UNK] '", + "replace text[141:143] --> decoded_text[497:510] '车型' --> ' [UNK] [UNK] '", + "insert text[144:144] --> decoded_text[511:512] '' --> ' '", + "replace text[145:148] --> decoded_text[513:532] '车供应' --> ' [UNK] [UNK] [UNK] '", + "insert text[149:149] --> decoded_text[533:534] '' --> ' '", + "replace text[150:154] --> decoded_text[535:560] '阶段购车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[155:157] --> decoded_text[561:574] '享受' --> ' [UNK] [UNK] '", + "insert text[158:158] --> decoded_text[575:576] '' --> ' '", + "insert text[159:159] --> decoded_text[577:578] '' --> ' '", + "insert text[163:163] --> decoded_text[582:583] '' --> ' '", + "insert text[164:164] --> decoded_text[584:585] '' --> ' '", + "replace text[165:168] --> decoded_text[586:605] '惠幅度' --> ' [UNK] [UNK] [UNK] '", + "replace text[169:170] --> decoded_text[606:613] '具' --> ' [UNK] '", + "insert text[171:171] --> decoded_text[614:615] '' --> ' '", + "replace text[172:174] --> decoded_text[616:629] '车型' --> ' [UNK] [UNK] '", + "replace text[175:177] --> decoded_text[630:643] '价格' --> ' [UNK] [UNK] '", + "replace text[178:181] --> decoded_text[644:663] '况请见' --> ' [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[664:671] '表' --> ' [UNK] '", + "replace text[184:185] --> decoded_text[672:679] '同' --> ' [UNK] '", + "replace text[186:189] --> decoded_text[680:699] '感兴趣' --> ' [UNK] [UNK] [UNK] '", + "replace text[190:193] --> decoded_text[700:719] '朋友还' --> ' [UNK] [UNK] [UNK] '", + "replace text[194:195] --> decoded_text[720:727] '致' --> ' [UNK] '", + "insert text[196:196] --> decoded_text[728:729] '' --> ' '", + "replace text[206:207] --> decoded_text[739:746] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[750:763] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 94, + "oov_ratio": 0.4392523364485981, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"联\", \"系\", \"传\", \"奇\", \"北\", \"S\", \"店\", \"知\", \"朗\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"享\", \"受\", \"惠\", \"幅\", \"具\", \"价\", \"格\", \"况\", \"请\", \"见\", \"表\", \"同\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] 福 [UNK] [UNK] 站 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] 得 [UNK] [UNK] 事 官 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] 能 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] 斯 [UNK] [UNK] 的 中 国 [UNK] [UNK] [UNK] 为 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 在 [UNK] [UNK] 斯 。 在 [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 了 [UNK] 心 动 [UNK] 的 [UNK] 小 时 , [UNK] [UNK] 在 [UNK] 机 [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:16] '类似' --> ' [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[17:18] '' --> ' '", + "insert text[6:6] --> decoded_text[19:20] '' --> ' '", + "replace text[7:8] --> decoded_text[21:28] '片' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '幸' --> ' [UNK] '", + "replace text[11:13] --> decoded_text[37:50] '终点' --> ' [UNK] [UNK] '", + "insert text[14:14] --> decoded_text[51:52] '' --> ' '", + "insert text[15:15] --> decoded_text[53:54] '' --> ' '", + "replace text[16:19] --> decoded_text[55:74] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[75:76] '' --> ' '", + "replace text[21:24] --> decoded_text[77:96] '驻圣彼' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:27] --> decoded_text[97:110] '堡领' --> ' [UNK] [UNK] '", + "insert text[28:28] --> decoded_text[111:112] '' --> ' '", + "replace text[29:35] --> decoded_text[113:150] '胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[151:164] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[165:166] '' --> ' '", + "replace text[40:41] --> decoded_text[167:174] '未' --> ' [UNK] '", + "replace text[42:48] --> decoded_text[175:212] '仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[213:226] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[227:228] '' --> ' '", + "replace text[53:57] --> decoded_text[229:254] '对赴俄罗' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[58:60] --> decoded_text[255:268] '旅游' --> ' [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[269:270] '' --> ' '", + "insert text[62:62] --> decoded_text[271:272] '' --> ' '", + "replace text[63:66] --> decoded_text[273:292] '夫妇因' --> ' [UNK] [UNK] [UNK] '", + "replace text[67:75] --> decoded_text[293:342] '签证过期差点被困' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[343:356] '俄罗' --> ' [UNK] [UNK] '", + "insert text[79:79] --> decoded_text[357:358] '' --> ' '", + "insert text[80:80] --> decoded_text[359:360] '' --> ' '", + "replace text[81:83] --> decoded_text[361:374] '胡滨' --> ' [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[375:388] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[389:390] '' --> ' '", + "replace text[88:94] --> decoded_text[391:428] '这对夫妇经历' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[95:96] --> decoded_text[429:436] '惊' --> ' [UNK] '", + "insert text[97:97] --> decoded_text[437:438] '' --> ' '", + "replace text[98:99] --> decoded_text[439:446] '魄' --> ' [UNK] '", + "replace text[100:101] --> decoded_text[447:454] '3' --> ' [UNK] '", + "insert text[102:102] --> decoded_text[455:456] '' --> ' '", + "insert text[103:103] --> decoded_text[457:458] '' --> ' '", + "replace text[104:106] --> decoded_text[459:472] '终于' --> ' [UNK] [UNK] '", + "replace text[107:108] --> decoded_text[473:480] '飞' --> ' [UNK] '", + "replace text[109:111] --> decoded_text[481:494] '起飞' --> ' [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[495:502] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[503:510] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[511:518] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[519:532] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[533:546] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 75, + "oov_ratio": 0.6048387096774194, + "oov_charset": "[\"类\", \"似\", \"片\", \"幸\", \"终\", \"点\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"堡\", \"领\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"过\", \"差\", \"被\", \"困\", \"协\", \"助\", \"这\", \"经\", \"历\", \"惊\", \"魄\", \"3\", \"飞\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] [UNK] [UNK] 在 [UNK] [UNK] 中 [UNK] [UNK] , 中 法 [UNK] [UNK] 开 [UNK] 了 中 法 [UNK] 个 [UNK] 大 国 家 [UNK] 好 [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 了 不 [UNK] 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 际 [UNK] [UNK] [UNK] [UNK] [UNK] 生 了 [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[7:10] --> decoded_text[37:56] '张德江' --> ' [UNK] [UNK] [UNK] '", + "replace text[11:13] --> decoded_text[57:70] '致辞' --> ' [UNK] [UNK] '", + "replace text[14:16] --> decoded_text[71:84] '表示' --> ' [UNK] [UNK] '", + "insert text[17:17] --> decoded_text[85:86] '' --> ' '", + "insert text[18:18] --> decoded_text[87:88] '' --> ' '", + "replace text[19:21] --> decoded_text[89:102] '建交' --> ' [UNK] [UNK] '", + "replace text[22:23] --> decoded_text[103:110] '启' --> ' [UNK] '", + "insert text[24:24] --> decoded_text[111:112] '' --> ' '", + "insert text[25:25] --> decoded_text[113:114] '' --> ' '", + "replace text[26:27] --> decoded_text[115:122] '两' --> ' [UNK] '", + "replace text[28:29] --> decoded_text[123:130] '伟' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[131:132] '' --> ' '", + "insert text[31:31] --> decoded_text[133:134] '' --> ' '", + "replace text[32:33] --> decoded_text[135:142] '友' --> ' [UNK] '", + "replace text[34:36] --> decoded_text[143:156] '关系' --> ' [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[157:158] '' --> ' '", + "replace text[38:39] --> decoded_text[159:166] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[167:168] '' --> ' '", + "replace text[41:42] --> decoded_text[169:176] '树' --> ' [UNK] '", + "insert text[43:43] --> decoded_text[177:178] '' --> ' '", + "insert text[44:44] --> decoded_text[179:180] '' --> ' '", + "replace text[45:46] --> decoded_text[181:188] '同' --> ' [UNK] '", + "insert text[47:47] --> decoded_text[189:190] '' --> ' '", + "replace text[48:50] --> decoded_text[191:204] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[205:206] '' --> ' '", + "insert text[52:52] --> decoded_text[207:208] '' --> ' '", + "insert text[53:53] --> decoded_text[209:210] '' --> ' '", + "replace text[54:56] --> decoded_text[211:224] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[225:226] '' --> ' '", + "replace text[58:60] --> decoded_text[227:240] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[241:248] '对' --> ' [UNK] '", + "insert text[63:63] --> decoded_text[249:250] '' --> ' '", + "replace text[64:69] --> decoded_text[251:282] '战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[283:284] '' --> ' '", + "replace text[71:72] --> decoded_text[285:292] '重' --> ' [UNK] '", + "replace text[73:76] --> decoded_text[293:312] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[313:326] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 42, + "oov_ratio": 0.525, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"张\", \"德\", \"江\", \"致\", \"辞\", \"表\", \"示\", \"建\", \"交\", \"启\", \"两\", \"伟\", \"友\", \"关\", \"系\", \"纪\", \"树\", \"同\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 [UNK] 斯 [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 马 来 西 亚 、 [UNK] [UNK] 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 工 作 。 1999 年 , [UNK] 成 为 [UNK] 合 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[7:8] --> decoded_text[37:44] '科' --> ' [UNK] '", + "replace text[9:12] --> decoded_text[45:64] '格罗夫' --> ' [UNK] [UNK] [UNK] '", + "replace text[13:19] --> decoded_text[65:102] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:24] --> decoded_text[103:128] '曾被派往' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[129:130] '' --> ' '", + "insert text[26:26] --> decoded_text[131:132] '' --> ' '", + "insert text[27:27] --> decoded_text[133:134] '' --> ' '", + "insert text[28:28] --> decoded_text[135:136] '' --> ' '", + "replace text[29:31] --> decoded_text[137:150] '越南' --> ' [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[151:158] '英' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[159:160] '' --> ' '", + "replace text[35:37] --> decoded_text[161:174] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[175:176] '' --> ' '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "insert text[41:41] --> decoded_text[181:182] '' --> ' '", + "insert text[42:42] --> decoded_text[183:184] '' --> ' '", + "insert text[43:43] --> decoded_text[185:186] '' --> ' '", + "insert text[47:47] --> decoded_text[190:191] '' --> ' '", + "insert text[48:48] --> decoded_text[192:193] '' --> ' '", + "replace text[49:50] --> decoded_text[194:201] '他' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[202:203] '' --> ' '", + "replace text[52:53] --> decoded_text[204:211] '联' --> ' [UNK] '", + "insert text[54:54] --> decoded_text[212:213] '' --> ' '", + "replace text[55:59] --> decoded_text[214:239] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[240:247] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[248:255] '令' --> ' [UNK] '", + "replace text[64:71] --> decoded_text[256:299] '监督东帝汶向独' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[300:301] '' --> ' '", + "insert text[73:73] --> decoded_text[302:303] '' --> ' '", + "insert text[74:74] --> decoded_text[304:305] '' --> ' '", + "replace text[75:77] --> decoded_text[306:319] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 42, + "oov_ratio": 0.5384615384615384, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"科\", \"格\", \"罗\", \"夫\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"越\", \"南\", \"英\", \"印\", \"度\", \"他\", \"联\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , 在 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 美 国 [UNK] 乐 市 场 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 [UNK] [UNK] ( ringostarr ) [UNK] 发 [UNK] [UNK] 成 [UNK] [UNK] , [UNK] 得 [UNK] [UNK] [UNK] [UNK] 。 为 了 [UNK] [UNK] [UNK] 事 , 大 会 [UNK] 来 金 [UNK] [UNK] [UNK] [UNK] [UNK] 亚 • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] 二 人 出 场 , 保 [UNK] 在 [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 queenieeye 》 , [UNK] [UNK] [UNK] 到 [UNK] 者 [UNK] [UNK] [UNK] 作 《 photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 的 美 好 情 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "replace text[6:7] --> decoded_text[10:17] '据' --> ' [UNK] '", + "replace text[8:9] --> decoded_text[18:25] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[26:27] '' --> ' '", + "replace text[11:12] --> decoded_text[28:35] '报' --> ' [UNK] '", + "replace text[13:16] --> decoded_text[36:51] '消息,' --> ' [UNK] [UNK] , '", + "replace text[17:24] --> decoded_text[52:95] '庆祝披头士进军' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[96:97] '' --> ' '", + "replace text[26:27] --> decoded_text[98:105] '音' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[106:107] '' --> ' '", + "insert text[29:29] --> decoded_text[108:109] '' --> ' '", + "insert text[30:30] --> decoded_text[110:111] '' --> ' '", + "replace text[32:33] --> decoded_text[113:120] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[121:122] '' --> ' '", + "replace text[35:37] --> decoded_text[123:136] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[137:138] '' --> ' '", + "replace text[39:42] --> decoded_text[139:154] ',格莱' --> ' , [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[155:168] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[169:182] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[183:190] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[191:192] '' --> ' '", + "replace text[52:58] --> decoded_text[193:230] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[59:61] --> decoded_text[231:244] '史达' --> ' [UNK] [UNK] '", + "replace text[62:63] --> decoded_text[245:247] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[251:252] 'S' --> 's'", + "insert text[72:72] --> decoded_text[256:257] '' --> ' '", + "replace text[73:74] --> decoded_text[258:265] '颁' --> ' [UNK] '", + "replace text[75:77] --> decoded_text[266:279] '终身' --> ' [UNK] [UNK] '", + "replace text[78:82] --> decoded_text[280:301] '就奖,显' --> ' [UNK] [UNK] , [UNK] '", + "replace text[83:87] --> decoded_text[302:327] '别具意义' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[88:88] --> decoded_text[328:329] '' --> ' '", + "insert text[89:89] --> decoded_text[330:331] '' --> ' '", + "replace text[90:93] --> decoded_text[332:351] '隆重其' --> ' [UNK] [UNK] [UNK] '", + "replace text[94:95] --> decoded_text[352:355] ',' --> ' , '", + "insert text[96:96] --> decoded_text[356:357] '' --> ' '", + "replace text[97:98] --> decoded_text[358:365] '请' --> ' [UNK] '", + "insert text[99:99] --> decoded_text[366:367] '' --> ' '", + "replace text[100:105] --> decoded_text[368:399] '像影后茱莉' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[106:106] --> decoded_text[400:401] '' --> ' '", + "insert text[107:107] --> decoded_text[402:403] '' --> ' '", + "replace text[108:111] --> decoded_text[404:423] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[424:426] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[430:431] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[437:438] '' --> ' '", + "replace text[125:129] --> decoded_text[439:464] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[130:130] --> decoded_text[465:466] '' --> ' '", + "insert text[131:131] --> decoded_text[467:468] '' --> ' '", + "insert text[132:132] --> decoded_text[469:470] '' --> ' '", + "replace text[133:134] --> decoded_text[471:474] ',' --> ' , '", + "replace text[135:136] --> decoded_text[475:482] '罗' --> ' [UNK] '", + "replace text[137:139] --> decoded_text[483:496] '拍档' --> ' [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[497:510] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[511:518] '应' --> ' [UNK] '", + "replace text[145:149] --> decoded_text[519:540] ',先献唱' --> ' , [UNK] [UNK] [UNK] '", + "replace text[150:151] --> decoded_text[541:548] '歌' --> ' [UNK] '", + "replace text[152:153] --> decoded_text[549:551] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[557:558] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[560:561] '' --> ' '", + "replace text[163:167] --> decoded_text[562:583] ',然后轮' --> ' , [UNK] [UNK] [UNK] '", + "replace text[168:169] --> decoded_text[584:591] '后' --> ' [UNK] '", + "replace text[170:173] --> decoded_text[592:611] '演绎旧' --> ' [UNK] [UNK] [UNK] '", + "insert text[174:174] --> decoded_text[612:613] '' --> ' '", + "replace text[175:176] --> decoded_text[614:616] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[625:626] '' --> ' '", + "replace text[186:194] --> decoded_text[627:672] ',带领歌迷重温昔' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[673:674] '' --> ' '", + "insert text[196:196] --> decoded_text[675:676] '' --> ' '", + "insert text[197:197] --> decoded_text[677:678] '' --> ' '", + "insert text[198:198] --> decoded_text[679:680] '' --> ' '", + "replace text[199:200] --> decoded_text[681:688] '怀' --> ' [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.4427860696517413, + "oov_charset": "[\"据\", \"港\", \"报\", \"消\", \"息\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"音\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"别\", \"具\", \"意\", \"义\", \"隆\", \"重\", \"其\", \"请\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"演\", \"绎\", \"旧\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] 牌 [UNK] [UNK] [UNK] 有 [UNK] 到 [UNK] [UNK] 的 地 [UNK] , [UNK] 者 全 [UNK] 的 [UNK] [UNK] [UNK] 是 14 元 , [UNK] 司 机 到 [UNK] 21 元 , [UNK] [UNK] , 司 机 [UNK] [UNK] 者 7 元 , [UNK] [UNK] [UNK] 前 [UNK] [UNK] 的 1 元 , [UNK] 者 [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] 了 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '佛' --> '[UNK] '", + "replace text[2:5] --> decoded_text[7:26] '绳哪里' --> ' [UNK] [UNK] [UNK] '", + "replace text[6:7] --> decoded_text[27:34] '卖' --> ' [UNK] '", + "replace text[8:11] --> decoded_text[35:50] '达目的' --> ' [UNK] [UNK] 的 '", + "replace text[12:15] --> decoded_text[51:66] '后,记' --> ' [UNK] , [UNK] '", + "insert text[16:16] --> decoded_text[67:68] '' --> ' '", + "replace text[17:22] --> decoded_text[69:96] '程的总车费' --> ' [UNK] 的 [UNK] [UNK] [UNK] '", + "insert text[23:23] --> decoded_text[97:98] '' --> ' '", + "replace text[25:28] --> decoded_text[100:111] '元,但' --> ' 元 , [UNK] '", + "insert text[29:29] --> decoded_text[112:113] '' --> ' '", + "insert text[30:30] --> decoded_text[114:115] '' --> ' '", + "replace text[31:32] --> decoded_text[116:123] '账' --> ' [UNK] '", + "replace text[34:39] --> decoded_text[125:144] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "insert text[40:40] --> decoded_text[145:146] '' --> ' '", + "replace text[41:43] --> decoded_text[147:160] '给记' --> ' [UNK] [UNK] '", + "insert text[44:44] --> decoded_text[161:162] '' --> ' '", + "replace text[45:50] --> decoded_text[163:186] '元,除去之' --> ' 元 , [UNK] [UNK] [UNK] '", + "replace text[51:58] --> decoded_text[187:214] '支付的1元,记' --> ' [UNK] [UNK] 的 1 元 , [UNK] '", + "replace text[59:61] --> decoded_text[215:228] '净赚' --> ' [UNK] [UNK] '", + "replace text[62:68] --> decoded_text[229:258] '元,还免费乘' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "insert text[69:69] --> decoded_text[259:260] '' --> ' '", + "replace text[70:73] --> decoded_text[261:280] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:78] --> decoded_text[282:293] '元的车' --> ' 元 的 [UNK] '" + ], + "n_oov_chars": 35, + "oov_ratio": 0.4430379746835443, + "oov_charset": "[\"佛\", \"绳\", \"哪\", \"里\", \"卖\", \"达\", \"目\", \"后\", \"记\", \"程\", \"总\", \"车\", \"费\", \"但\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ 斯 利 [UNK] [UNK] 2012 年 加 入 [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 理 一 [UNK] , [UNK] [UNK] [UNK] 公 司 在 [UNK] [UNK] [UNK] 国 际 市 场 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] 以 [UNK] 的 业 [UNK] 。 [UNK] [UNK] 斯 [UNK] 福 大 学 的 [UNK] 业 生 , [UNK] [UNK] [UNK] 用 [UNK] [UNK] 在 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] 用 [UNK] [UNK] 公 司 的 [UNK] [UNK] [UNK] 以 [UNK] [UNK] 用 [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "insert text[3:3] --> decoded_text[13:14] '' --> ' '", + "insert text[4:4] --> decoded_text[15:16] '' --> ' '", + "replace text[5:7] --> decoded_text[17:30] '姆于' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[34:35] '' --> ' '", + "insert text[12:12] --> decoded_text[36:37] '' --> ' '", + "insert text[13:13] --> decoded_text[38:39] '' --> ' '", + "replace text[14:18] --> decoded_text[40:65] '塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[66:67] '' --> ' '", + "replace text[20:24] --> decoded_text[68:93] '担任总经' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[94:95] '' --> ' '", + "replace text[26:27] --> decoded_text[96:103] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[104:123] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[124:125] '' --> ' '", + "insert text[33:33] --> decoded_text[126:127] '' --> ' '", + "replace text[34:37] --> decoded_text[128:147] '印度及' --> ' [UNK] [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[148:149] '' --> ' '", + "insert text[39:39] --> decoded_text[150:151] '' --> ' '", + "insert text[40:40] --> decoded_text[152:153] '' --> ' '", + "insert text[41:41] --> decoded_text[154:155] '' --> ' '", + "replace text[42:45] --> decoded_text[156:175] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[176:189] '路虎' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[190:197] '外' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[198:199] '' --> ' '", + "replace text[52:53] --> decoded_text[200:207] '务' --> ' [UNK] '", + "replace text[54:56] --> decoded_text[208:221] '这位' --> ' [UNK] [UNK] '", + "replace text[57:58] --> decoded_text[222:229] '坦' --> ' [UNK] '", + "insert text[59:59] --> decoded_text[230:231] '' --> ' '", + "insert text[60:60] --> decoded_text[232:233] '' --> ' '", + "insert text[61:61] --> decoded_text[234:235] '' --> ' '", + "replace text[62:63] --> decoded_text[236:243] '毕' --> ' [UNK] '", + "insert text[64:64] --> decoded_text[244:245] '' --> ' '", + "insert text[65:65] --> decoded_text[246:247] '' --> ' '", + "replace text[66:69] --> decoded_text[248:267] '曾任通' --> ' [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[268:281] '汽车' --> ' [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[282:283] '' --> ' '", + "insert text[74:74] --> decoded_text[284:285] '' --> ' '", + "insert text[75:75] --> decoded_text[286:287] '' --> ' '", + "replace text[76:77] --> decoded_text[288:295] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[296:297] '' --> ' '", + "insert text[79:79] --> decoded_text[298:299] '' --> ' '", + "replace text[80:83] --> decoded_text[300:319] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[320:321] '' --> ' '", + "replace text[85:87] --> decoded_text[322:335] '汽通' --> ' [UNK] [UNK] '", + "replace text[88:90] --> decoded_text[336:349] '五菱' --> ' [UNK] [UNK] '", + "insert text[91:91] --> decoded_text[350:351] '' --> ' '", + "insert text[92:92] --> decoded_text[352:353] '' --> ' '", + "replace text[93:96] --> decoded_text[354:373] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[374:387] '及通' --> ' [UNK] [UNK] '", + "replace text[100:104] --> decoded_text[388:413] '汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[414:415] '' --> ' '", + "insert text[106:106] --> decoded_text[416:417] '' --> ' '", + "replace text[107:109] --> decoded_text[418:431] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "insert text[111:111] --> decoded_text[434:435] '' --> ' '", + "replace text[112:114] --> decoded_text[436:449] '赵春' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 56, + "oov_ratio": 0.48695652173913045, + "oov_charset": "[\"卡\", \"尔\", \"姆\", \"于\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"职\", \"并\", \"负\", \"责\", \"印\", \"度\", \"及\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"外\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 可 能 [UNK] 部 作 品 都 是 [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 时 [UNK] [UNK] 不 [UNK] 情 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 是 人 , 不 是 神 , 人 [UNK] 有 自 [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 我 [UNK] 开 [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] 了 [UNK] [UNK] [UNK] 时 [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] 要 [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] 是 不 是 [UNK] ” [UNK] [UNK] 是 [UNK] 人 。 [UNK] [UNK] 为 [UNK] [UNK] [UNK] 了 [UNK] [UNK] , [UNK] [UNK] 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '每' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "replace text[13:16] --> decoded_text[41:60] '你喜欢' --> ' [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[61:68] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[69:90] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "insert text[24:24] --> decoded_text[91:92] '' --> ' '", + "replace text[25:27] --> decoded_text[93:106] '控制' --> ' [UNK] [UNK] '", + "replace text[28:29] --> decoded_text[107:114] '住' --> ' [UNK] '", + "replace text[30:37] --> decoded_text[115:154] '绪,就让他骂吧' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:40] --> decoded_text[155:168] '他也' --> ' [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[169:170] '' --> ' '", + "replace text[42:43] --> decoded_text[171:174] ',' --> ' , '", + "insert text[44:44] --> decoded_text[175:176] '' --> ' '", + "insert text[45:45] --> decoded_text[177:178] '' --> ' '", + "replace text[46:47] --> decoded_text[179:182] ',' --> ' , '", + "replace text[48:49] --> decoded_text[183:190] '就' --> ' [UNK] '", + "insert text[50:50] --> decoded_text[191:192] '' --> ' '", + "replace text[51:52] --> decoded_text[193:200] '己' --> ' [UNK] '", + "replace text[53:55] --> decoded_text[201:214] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:65] --> decoded_text[215:266] '他这次执导春晚,对' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "replace text[66:67] --> decoded_text[267:274] '也' --> ' [UNK] '", + "replace text[68:69] --> decoded_text[275:282] '骂' --> ' [UNK] '", + "insert text[70:70] --> decoded_text[283:284] '' --> ' '", + "replace text[71:74] --> decoded_text[285:300] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:78] --> decoded_text[301:320] '跟你说' --> ' [UNK] [UNK] [UNK] '", + "replace text[79:82] --> decoded_text[321:340] '这么长' --> ' [UNK] [UNK] [UNK] '", + "replace text[83:88] --> decoded_text[341:368] '间,让你走' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:94] --> decoded_text[369:396] '号位,你非' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[95:96] --> decoded_text[397:404] '走' --> ' [UNK] '", + "replace text[97:103] --> decoded_text[405:438] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:107] --> decoded_text[439:458] '较死劲' --> ' [UNK] [UNK] [UNK] '", + "insert text[108:108] --> decoded_text[459:460] '' --> ' '", + "insert text[109:109] --> decoded_text[461:462] '' --> ' '", + "replace text[110:111] --> decoded_text[463:470] '?' --> ' [UNK] '", + "replace text[112:114] --> decoded_text[471:484] '这也' --> ' [UNK] [UNK] '", + "replace text[115:116] --> decoded_text[485:492] '骂' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[493:494] '' --> ' '", + "replace text[118:120] --> decoded_text[495:508] '但因' --> ' [UNK] [UNK] '", + "replace text[121:124] --> decoded_text[509:528] '你非常' --> ' [UNK] [UNK] [UNK] '", + "replace text[125:130] --> decoded_text[529:556] '解他,他也' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "insert text[131:131] --> decoded_text[557:558] '' --> ' '", + "insert text[132:132] --> decoded_text[559:560] '' --> ' '", + "insert text[133:133] --> decoded_text[561:562] '' --> ' '", + "replace text[134:136] --> decoded_text[563:576] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 76, + "oov_ratio": 0.5547445255474452, + "oov_charset": "[\"腕\", \"导\", \"演\", \"每\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"控\", \"制\", \"住\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"老\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 牌 不 [UNK] [UNK] 得 多 , [UNK] [UNK] [UNK] [UNK] 得 多 。 有 [UNK] 体 [UNK] 道 , [UNK] [UNK] [UNK] [UNK] 斯 的 年 [UNK] 高 [UNK] 360 万 元 人 [UNK] [UNK] , [UNK] [UNK] [UNK] 年 的 [UNK] [UNK] 是 600 多 万 元 。 用 一 个 [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 万 元 [UNK] 出 [UNK] 了 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:36] '招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[37:38] '' --> ' '", + "replace text[8:10] --> decoded_text[39:52] '过挣' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[53:54] '' --> ' '", + "replace text[12:17] --> decoded_text[55:82] ',娜姐也花' --> ' , [UNK] [UNK] [UNK] [UNK] '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "insert text[19:19] --> decoded_text[85:86] '' --> ' '", + "insert text[20:20] --> decoded_text[87:88] '' --> ' '", + "replace text[21:22] --> decoded_text[89:96] '媒' --> ' [UNK] '", + "replace text[23:24] --> decoded_text[97:104] '报' --> ' [UNK] '", + "replace text[25:30] --> decoded_text[105:132] ',教练卡洛' --> ' , [UNK] [UNK] [UNK] [UNK] '", + "insert text[31:31] --> decoded_text[133:134] '' --> ' '", + "insert text[32:32] --> decoded_text[135:136] '' --> ' '", + "replace text[33:34] --> decoded_text[137:144] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[145:152] '达' --> ' [UNK] '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "insert text[40:40] --> decoded_text[157:158] '' --> ' '", + "insert text[41:41] --> decoded_text[159:160] '' --> ' '", + "replace text[42:48] --> decoded_text[161:194] '民币,李娜每' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[195:196] '' --> ' '", + "replace text[50:52] --> decoded_text[197:210] '花费' --> ' [UNK] [UNK] '", + "insert text[53:53] --> decoded_text[211:212] '' --> ' '", + "insert text[56:56] --> decoded_text[215:216] '' --> ' '", + "insert text[57:57] --> decoded_text[217:218] '' --> ' '", + "insert text[58:58] --> decoded_text[219:220] '' --> ' '", + "insert text[59:59] --> decoded_text[221:222] '' --> ' '", + "insert text[60:60] --> decoded_text[223:224] '' --> ' '", + "insert text[61:61] --> decoded_text[225:226] '' --> ' '", + "insert text[62:62] --> decoded_text[227:228] '' --> ' '", + "replace text[63:65] --> decoded_text[229:242] '形象' --> ' [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[243:244] '' --> ' '", + "replace text[67:72] --> decoded_text[245:272] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[273:274] '' --> ' '", + "replace text[74:79] --> decoded_text[275:302] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[303:304] '' --> ' '", + "insert text[81:81] --> decoded_text[305:306] '' --> ' '", + "replace text[82:83] --> decoded_text[307:314] '就' --> ' [UNK] '", + "replace text[84:85] --> decoded_text[315:322] '去' --> ' [UNK] '", + "insert text[86:86] --> decoded_text[323:324] '' --> ' '" + ], + "n_oov_chars": 39, + "oov_ratio": 0.4482758620689655, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"过\", \"挣\", \"娜\", \"姐\", \"也\", \"花\", \"媒\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"薪\", \"达\", \"民\", \"币\", \"李\", \"每\", \"费\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] 有 一 个 [UNK] [UNK] 人 物 ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 是 心 [UNK] 的 , [UNK] 是 [UNK] 个 人 物 [UNK] [UNK] 得 心 安 理 得 , 理 [UNK] [UNK] [UNK] , 我 [UNK] 到 的 [UNK] 个 的 [UNK] [UNK] 是 [UNK] [UNK] 。 ” [UNK] [UNK] 生 [UNK] [UNK] 者 [UNK] [UNK] [UNK] [UNK] 时 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 来 , [UNK] 日 [UNK] [UNK] 生 在 [UNK] 出 [UNK] [UNK] 时 , [UNK] 到 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” 得 理 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "replace text[11:12] --> decoded_text[37:44] '里' --> ' [UNK] '", + "insert text[13:13] --> decoded_text[45:46] '' --> ' '", + "insert text[14:14] --> decoded_text[47:48] '' --> ' '", + "replace text[15:17] --> decoded_text[49:62] '反派' --> ' [UNK] [UNK] '", + "insert text[18:18] --> decoded_text[63:64] '' --> ' '", + "insert text[19:19] --> decoded_text[65:66] '' --> ' '", + "replace text[20:24] --> decoded_text[67:92] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[93:96] ',' --> ' , '", + "replace text[27:30] --> decoded_text[97:112] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[113:126] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[127:128] '' --> ' '", + "insert text[35:35] --> decoded_text[129:130] '' --> ' '", + "insert text[36:36] --> decoded_text[131:132] '' --> ' '", + "replace text[37:41] --> decoded_text[133:150] '虚的,但' --> ' [UNK] 的 , [UNK] '", + "replace text[42:43] --> decoded_text[151:158] '这' --> ' [UNK] '", + "insert text[44:44] --> decoded_text[159:160] '' --> ' '", + "insert text[45:45] --> decoded_text[161:162] '' --> ' '", + "replace text[46:48] --> decoded_text[163:176] '却做' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[177:178] '' --> ' '", + "insert text[50:50] --> decoded_text[179:180] '' --> ' '", + "insert text[51:51] --> decoded_text[181:182] '' --> ' '", + "insert text[52:52] --> decoded_text[183:184] '' --> ' '", + "replace text[53:54] --> decoded_text[185:188] ',' --> ' , '", + "replace text[55:59] --> decoded_text[189:210] '直气壮,' --> ' [UNK] [UNK] [UNK] , '", + "replace text[60:61] --> decoded_text[211:218] '遇' --> ' [UNK] '", + "replace text[62:64] --> decoded_text[219:228] '的这' --> ' 的 [UNK] '", + "replace text[65:68] --> decoded_text[229:244] '的哥就' --> ' 的 [UNK] [UNK] '", + "replace text[69:71] --> decoded_text[245:258] '这样' --> ' [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[259:260] '' --> ' '", + "replace text[73:75] --> decoded_text[261:274] '王先' --> ' [UNK] [UNK] '", + "replace text[76:78] --> decoded_text[275:288] '向记' --> ' [UNK] [UNK] '", + "replace text[79:83] --> decoded_text[289:314] '描述经过' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:85] --> decoded_text[315:322] '第' --> ' [UNK] '", + "replace text[86:92] --> decoded_text[323:360] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[93:94] --> decoded_text[361:368] '原' --> ' [UNK] '", + "replace text[95:97] --> decoded_text[369:378] ',昨' --> ' , [UNK] '", + "replace text[98:100] --> decoded_text[379:392] '王先' --> ' [UNK] [UNK] '", + "insert text[101:101] --> decoded_text[393:394] '' --> ' '", + "replace text[102:103] --> decoded_text[395:402] '搭' --> ' [UNK] '", + "replace text[104:106] --> decoded_text[403:416] '租车' --> ' [UNK] [UNK] '", + "replace text[107:109] --> decoded_text[417:426] ',遇' --> ' , [UNK] '", + "replace text[110:113] --> decoded_text[427:438] '的的哥' --> ' 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[439:446] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[447:454] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[455:468] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[469:478] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[479:486] '昧' --> ' [UNK] '", + "insert text[126:126] --> decoded_text[487:488] '' --> ' '", + "insert text[127:127] --> decoded_text[489:490] '' --> ' '", + "replace text[128:131] --> decoded_text[491:510] '直气壮' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 62, + "oov_ratio": 0.4696969696969697, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"里\", \"反\", \"派\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"虚\", \"但\", \"这\", \"却\", \"直\", \"气\", \"壮\", \"遇\", \"哥\", \"就\", \"样\", \"王\", \"先\", \"向\", \"记\", \"描\", \"述\", \"经\", \"过\", \"第\", \"句\", \"话\", \"便\", \"原\", \"昨\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c18309fb2f9853bbde6f863bf47e7a3f4e2e61d2 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ar.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "سيارة ام جي‬‎ C 1969 كلاسيكية في دبي", + "decoded_text": "سيارة ام جي‬ C 1969 كلاسيكية في دبي", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] '\\u200e' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.027777777777777776, + "oov_charset": "[\"‎\"]" + }, + { + "text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية‏.", + "decoded_text": "طالب شباب محافظة أسيوط بعودة أرض الملاعب الي الغرض الذي أنشئت من أجله بعد أن قام المحافظ الأسبق نبيل العزبي بتحويلها الي معرض دائم لبيع المنتجات والسلع الغذائية .", + "diff": [ + "replace text[160:161] --> decoded_text[160:161] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006172839506172839, + "oov_charset": "[\"‏\"]" + }, + { + "text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية‏,‏ خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي‏.‏", + "decoded_text": "مما حرم شباب المحافظة من ممارسة الأنشطة الرياضية , خاصة وأن مدينة أسيوط ليس بها مراكز شباب أو ملاعب تستوعب تلك الأعداد الغفيرة واصفين قرار المحافظ السابق بأنه عشوائي . ", + "diff": [ + "replace text[48:49] --> decoded_text[48:49] '\\u200f' --> ' '", + "replace text[50:51] --> decoded_text[50:51] '\\u200f' --> ' '", + "replace text[166:167] --> decoded_text[166:167] '\\u200f' --> ' '", + "replace text[168:169] --> decoded_text[168:169] '\\u200f' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.023668639053254437, + "oov_charset": "[\"‏\"]" + }, + { + "text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين‏,‏", + "decoded_text": "يقول الدكتور جمال محمد علي عميد كلية التربية الرياضية بأسيوط ونقيب الرياضيين , ", + "diff": [ + "replace text[76:77] --> decoded_text[76:77] '\\u200f' --> ' '", + "replace text[78:79] --> decoded_text[78:79] '\\u200f' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02531645569620253, + "oov_charset": "[\"‏\"]" + }, + { + "text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع ½ بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", + "decoded_text": "ورصد البيان رقم 26 'سعت: 1702' أنه 'أثناء تقدم إحدي وحداتنا البرية في القطاع الجنوبي من الجبهة تقابلت مع قول مدرع للعدو فاشتبكت معه علي الفور في معركة تصادمية عنيفة ودمرت عددًا كبيرًا من دباباته وعرباته المدرعة ومدفعياته وفر بعض أفراد العدو تاركين وراءهم أسلحتهم سليمة وتمكنت قواتنا من الاستيلاء عليها: 3 دبابة سنتوريان، 4 مدافع 105 مم، 6 مدافع 1⁄2 بوصة، 4 هاون 81 مم، عدد كبير من البنادق والرشاشات، وجميعها صالحة للاستخدام - كما قامت وحداتنا من قوات الدفاع الجوي بالاشتباك مع طائرات العدو التي حاولت الإغارة علي قواتنا وأسقطت له أربع طائرات وأصابت طائرتين وبذا تكون خسائر العدو في الطائرات خلال النصف الأول من هذا اليوم تدمير 10 طائرات وإصابة طائرتين.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '½' --> '1⁄2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0015384615384615385, + "oov_charset": "[\"½\"]" + }, + { + "text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", + "decoded_text": " كيف يمكن تشغيل مكيف واحد فقط من مكيفين سامسونج في نفس الغرفة بدون إطفاء نقطة الكهرباء ؟ _ إسألنا", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\ufeff' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01020408163265306, + "oov_charset": "[\"\"]" + }, + { + "text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة … الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", + "decoded_text": "يحدث تمزق الغضاريف الهلالية المفاجئ أثناء ممارسة الرياضة نتيجة دفع, قطع طريق كرة, ضربة على الركبة ... الخ و قد تتمزق الغضاريف الهلالية نتيجة الاصابة بالتهاب المفاصل أو الشيخوخة أيضاً.", + "diff": [ + "replace text[98:99] --> decoded_text[98:101] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0055248618784530384, + "oov_charset": "[\"…\"]" + }, + { + "text": "مثبــت: تاكسي تحت الطلب 2 ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "مثبــت: تاكسي تحت الطلب 2 ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"‏\"]" + }, + { + "text": "ورط اللي بعدك بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "ورط اللي بعدك بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[23:24] --> decoded_text[23:24] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"‏\"]" + }, + { + "text": "غيّر حرف واطلع بكلمة .. ‏( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "decoded_text": "غيّر حرف واطلع بكلمة .. ( 1 2 3 4 5 6 7 ... الصفحة الأخيرة)", + "diff": [ + "replace text[24:25] --> decoded_text[24:25] '\\u200f' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"‏\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3d58d073aa527d284c4f0d8e19925cd6cc825a1e --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und das übrige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rüstete wider dir Kinder Ammon,", + "decoded_text": "Und das Ã1⁄4brige Volk tat er unter die Hand seines Bruders Abisai, daß er sich rÃ1⁄4stete wider dir Kinder Ammon,", + "diff": [ + "replace text[9:10] --> decoded_text[9:12] '¼' --> '1⁄4'", + "replace text[81:82] --> decoded_text[83:86] '¼' --> '1⁄4'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018018018018018018, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und führte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "decoded_text": "Und Hadadeser sandte hin und brachte heraus die Syrer jenseit des Stromes und fÃ1⁄4hrte herein ihre Macht; und Sobach, der Feldhauptmann Hadadesers, zog vor ihnen her.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006060606060606061, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog über den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "decoded_text": "Da das David ward angesagt, sammelte er zuhauf das ganze Israel und zog Ã1⁄4ber den Jordan und kam gen Helam. Und die Syrer stellten sich wider David, mit ihm zu streiten.", + "diff": [ + "replace text[73:74] --> decoded_text[73:76] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005917159763313609, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fürchteten sich, den Kindern Ammon mehr zu helfen.", + "decoded_text": "Da aber die Könige, die unter Hadadeser waren, sahen, daß sie geschlagen waren vor Israel, machten sie Frieden mit Israel und wurden ihnen untertan. Und die Syrer fÃ1⁄4rchteten sich, den Kindern Ammon mehr zu helfen.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004629629629629629, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..734a27be6b7b5b7e223e1b3a4c38f83add33ae21 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.en.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": " EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": " Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '\\u200b' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + }, + { + "text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies… with sprinkles, of course.", + "decoded_text": "By special request of my husband I am including this. It was his favorite as a child, and when we looked it up a few years ago found that the only copies that existed were considered “vintage” and ran about $200. It’s been republished so *someone* might be getting it in his stocking this year! Sounds like another excuse to go bake some cookies... with sprinkles, of course.", + "diff": [ + "replace text[345:346] --> decoded_text[345:348] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002680965147453083, + "oov_charset": "[\"…\"]" + }, + { + "text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them… love the library!", + "decoded_text": "@drama queens mum: we were just at the library, scouting out more books! I bet they do have them... love the library!", + "diff": [ + "replace text[96:97] --> decoded_text[96:99] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"…\"]" + }, + { + "text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it…every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "decoded_text": "These are great selections! I haven’t seen A Wish to Be a Christmas Tree. I am going to add that to the collection. One that I love is Auntie Claus by Elise Primavera. I used to read it to my 4th graders. They must have liked it...every copy got permanently borrowed. I hope you and your family have a very Merry Christmas!", + "diff": [ + "replace text[228:229] --> decoded_text[228:231] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.003115264797507788, + "oov_charset": "[\"…\"]" + }, + { + "text": "So, with your theme, we just use the default search widget? Or…do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "decoded_text": "So, with your theme, we just use the default search widget? Or...do we add it somewhere? This could be made more clear in the documentation for us n00b users. You went in depth on everything else – but this.", + "diff": [ + "replace text[62:63] --> decoded_text[62:65] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004878048780487805, + "oov_charset": "[\"…\"]" + }, + { + "text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example … And i dont understand why", + "decoded_text": "Hmmm, but do not work like here http://www.mindtheproduct.com or here http://www.filmsforaction.org/ for example ... And i dont understand why", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007142857142857143, + "oov_charset": "[\"…\"]" + }, + { + "text": "“It Only Happens Once…Yesterday and Tomorrow”", + "decoded_text": "“It Only Happens Once...Yesterday and Tomorrow”", + "diff": [ + "replace text[21:22] --> decoded_text[21:24] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"…\"]" + }, + { + "text": "Get off the subway at Awaza Station and take exit ⑦, ⑧ or ⑩", + "decoded_text": "Get off the subway at Awaza Station and take exit 7, 8 or 10", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] '⑦' --> '7'", + "replace text[53:54] --> decoded_text[53:54] '⑧' --> '8'", + "replace text[58:59] --> decoded_text[58:60] '⑩' --> '10'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05084745762711865, + "oov_charset": "[\"⑦\", \"⑧\", \"⑩\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1a3f2b61f31a574da12d8b5f9754be17fac11c68 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l´Ebre (donde nos han tratado de maravilla)...", + "decoded_text": "El #TBMCatSur (encuentro de blogueros de viaje de España, Sudamérica y Europa celebrado en Tarragona el fin de semana pasado) me ha regalado muchas cosas, todas ellas muy positivas. Porque no sólo he vuelto cargada de ideas para aplicar en mi blog de viajes, o de nuevos y buenos amigos con una onda viajera similar a la mía, o de una perspectiva diferente y acogedora de Costa Daurada y las Terres de l ́Ebre (donde nos han tratado de maravilla)...", + "diff": [ + "replace text[403:404] --> decoded_text[403:405] '´' --> ' ́'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002232142857142857, + "oov_charset": "[\"´\"]" + }, + { + "text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior…”", + "decoded_text": "“Diseño, elegancia y confianza con nuestros productos y clientes, para vivir experiencias únicas en el exterior...”", + "diff": [ + "replace text[111:112] --> decoded_text[111:114] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008849557522123894, + "oov_charset": "[\"…\"]" + }, + { + "text": "Y ya una vez realmente en Japón… lo primero que hice fue ir a:", + "decoded_text": "Y ya una vez realmente en Japón... lo primero que hice fue ir a:", + "diff": [ + "replace text[31:32] --> decoded_text[31:34] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "Una vez cumplida esta mision, la siguiente parada era…", + "decoded_text": "Una vez cumplida esta mision, la siguiente parada era...", + "diff": [ + "replace text[53:54] --> decoded_text[53:56] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6575166dde9adf51b06cd0709e680f15a45930ca --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest", + "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest", + "diff": [ + "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '", + "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '", + "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '", + "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030534351145038167, + "oov_charset": "[\"‏\", \"‌\"]" + }, + { + "text": "برچسب‌ها: شیرینی ها", + "decoded_text": "برچسب ها: شیرینی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05263157894736842, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: توت فرنگی, کیک ها", + "decoded_text": "برچسب ها: توت فرنگی, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.037037037037037035, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, جو", + "decoded_text": "برچسب ها: انواع سوپ و اش, جو", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03571428571428571, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: شکلات, کیک ها", + "decoded_text": "برچسب ها: شکلات, کیک ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: انواع سوپ و اش, تره فرنگی", + "decoded_text": "برچسب ها: انواع سوپ و اش, تره فرنگی", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02857142857142857, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: کوکی ها", + "decoded_text": "برچسب ها: کوکی ها", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"‌\"]" + }, + { + "text": "برچسب‌ها: دسرها, موز", + "decoded_text": "برچسب ها: دسرها, موز", + "diff": [ + "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.05, + "oov_charset": "[\"‌\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9fc4cd663063f7d6ad89a9531b77cced3103d291 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un plat, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un plat, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[32:33] --> decoded_text[32:35] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01694915254237288, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un gâteau, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un gâteau, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un bonbon, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un bonbon, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[34:35] --> decoded_text[34:37] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une boisson, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une boisson, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un album a garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un album a garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu n’avais qu’un livre à garder, ce serait… Insérez votre réponse ici", + "decoded_text": "- Si tu n’avais qu’un livre à garder, ce serait... Insérez votre réponse ici", + "diff": [ + "replace text[47:48] --> decoded_text[47:50] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013513513513513514, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un style de musique… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un style de musique... Insérez votre réponse ici", + "diff": [ + "replace text[33:34] --> decoded_text[33:36] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0ec1bfd939fcc66d40248792c75418e5105b28be --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ja.diff.json @@ -0,0 +1,108 @@ +[ + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "decoded_text": "私たちが喪ったのは、どんな「世界」だったのか?〔前篇〕 東京電力・福島第1原発事故(第183信)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] '\\u3000' --> ' '", + "replace text[41:42] --> decoded_text[41:42] '(' --> '('", + "replace text[47:48] --> decoded_text[47:48] ')' --> ')'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0625, + "oov_charset": "[\" \", \"(\", \")\"]" + }, + { + "text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく……世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "decoded_text": "この《M》は、素材・調理・接客・施設のいずれに関しても、現在、国内最高であるばかりでなく......世界的に見ても、ロンドン・ピカデリーサーカスの外れの《T》、同じくチョーク・ファーム地区の閑静な高級住宅街に位置する《M》をも凌駕する——すなわち、私見では“世界最高の自然食レストラン”ということになる。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'M' --> 'M'", + "replace text[44:46] --> decoded_text[44:50] '……' --> '......'", + "replace text[73:74] --> decoded_text[77:78] 'T' --> 'T'", + "replace text[105:106] --> decoded_text[109:110] 'M' --> 'M'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.033783783783783786, + "oov_charset": "[\"M\", \"…\", \"T\"]" + }, + { + "text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "decoded_text": "21世紀初め、東京電力・福島第1原発事故下のこの国に生き合わせた彼らを——。 ", + "diff": [ + "replace text[38:39] --> decoded_text[38:39] '\\u3000' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\" \"]" + }, + { + "text": "……いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "decoded_text": "......いま、私がこれを書き綴っているのは東京ではない。事情があって、時折り来訪する中央高地――長野県北部の田舎町である。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03389830508474576, + "oov_charset": "[\"…\"]" + }, + { + "text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", + "decoded_text": "(だが、本稿をアップロードするのは、帰京してからのこととなることだろう)", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '(' --> '('", + "replace text[35:36] --> decoded_text[35:36] ')' --> ')'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.05555555555555555, + "oov_charset": "[\"(\", \")\"]" + }, + { + "text": "それが、30歳あたりを過ぎて以降……ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", + "decoded_text": "それが、30歳あたりを過ぎて以降......ほぼ完全に東京での生活中心となり、3年、4年とまったく戻らないまま、むしろ国外へと赴くことが増えてきたような時期が続いたにもかかわらず——およそ5年ほど前から、ほぼ毎月、もしくは隔月で、かの地との往復を繰り返すようになった理由の巨きな1つは、ともにそれ以前から身体機能にいささかの支障があった老親二人が、数度、その頃から相次いで小さからぬ手術を受けたりしたことがあった。", + "diff": [ + "replace text[16:18] --> decoded_text[16:22] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009852216748768473, + "oov_charset": "[\"…\"]" + }, + { + "text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", + "decoded_text": "* 携帯電話は、ようやく最近、簡単なものを持たせるようにしたが、それでも必ずしも使いこなせてはいない。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '*' --> '*'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0196078431372549, + "oov_charset": "[\"*\"]" + }, + { + "text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", + "decoded_text": "これまで、私もそこそこ、内外のクラシック=ヴィンテージ・ホテルを泊まり歩いた経験がないわけではなく、なんの間違いか、1冊、“ホテル紀行”の著書(**)まで持っている人間であるが、結局、これまでの人生で最も世話になっているホテルは、この「郷里」の町の小さなビジネス・ホテルにほかならない。", + "diff": [ + "replace text[71:75] --> decoded_text[71:75] '(**)' --> '(**)'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.027972027972027972, + "oov_charset": "[\"(\", \"*\", \")\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ab8047c39376b118557522a889b9e2c40838e978 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.ko.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + }, + { + "text": "*²릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "decoded_text": "*2릴라드는 최근 13경기 구간에서 +30득점 7회, +40득점 1회, +50득점을 2회 기록했다. 그는 현재 리그에서 NBA경기일정 가장 뜨거운 사나이다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '²' --> '2'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"²\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "좋은 정보 감사합니다ㅡㅡ", + "decoded_text": "좋은 정보 감사합니다ᅳᅳ", + "diff": [ + "replace text[11:13] --> decoded_text[11:13] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.15384615384615385, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ㆍ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "decoded_text": "청소년들은도박자금을 마련하거나 빚을 갚기 위해 범죄를 저지르기도 한다. 대전에 사는 오지환(가명ᆞ18)군은 도박으로 1000만원을 잃은 온라인식보게임 후 인터넷 중고 사이트에서 사기거래를 하다 사기죄로 붙잡혔다. '", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] 'ㆍ' --> 'ᆞ'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008333333333333333, + "oov_charset": "[\"ㆍ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..584fe056e170b656d2a5d459453bbb7c7f5c7bd4 --- /dev/null +++ b/stats/compression_rate/baichuan-inc.Baichuan-7B @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", + "decoded_text": "评论回顾1997年县市长选举,民进党在“地方包围中央”策略奏效下,一举拿下台湾12县市过半执政权,首次赢过国民党;2000年的台当局正领导人“大选”,陈水扁趁胜追击再下一城,完成史上首度政党轮替。", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01020408163265306, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", + "decoded_text": "招财带什么佛牌没事你抱紧她我不心疼我没流泪我没想逃,像我们这种平时逗逼又嬉皮笑脸的人,偶尔稍微正常一点,周围的人都会以为你心情不好了。;忽然发现那些原来很在乎的东西现在已经变得无所谓了。。", + "diff": [ + "replace text[67:68] --> decoded_text[67:68] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010638297872340425, + "oov_charset": "[\";\"]" + }, + { + "text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", + "decoded_text": "就算我脸皮再厚我也怕受伤,繁华落尽へ我与你谁痛谁伤何人知晓;我只是想要一个温暖的怀抱仅此而已。", + "diff": [ + "replace text[29:30] --> decoded_text[29:30] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02127659574468085, + "oov_charset": "[\";\"]" + }, + { + "text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", + "decoded_text": "现在我很想哭,却惊奇的发现我已经哭不出来了。,时间模糊了太多声音,唯独心跳还清晰。;慢慢的 我也学着放下了 不是我变了 是我真的无能为力了 我认输了 我折腾不动了。", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012195121951219513, + "oov_charset": "[\";\"]" + }, + { + "text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", + "decoded_text": "那所谓的伤心,无非是那伤透的心情。,我总是喜欢往窗外看只不过是不想看到你看她那个眼神。;莫名我就喜欢你,深深的爱上你,从见到你的那一天起。。", + "diff": [ + "replace text[43:44] --> decoded_text[43:44] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014285714285714285, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", + "decoded_text": "招财带什么佛牌有没有那么一刻觉得自己好可怜。,明明喜欢,为什么不说出口,一定要这样拖着拖着拖着,到最后谁都不认识谁吗!;我此刻的心情就好像身后有数以万计的羊驼在冲你自我介绍!。", + "diff": [ + "replace text[59:60] --> decoded_text[59:60] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\";\"]" + }, + { + "text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", + "decoded_text": "我的心像一片冰天冻地的草原上趴着一只不高兴的兔子,又萌又冷酷。,我们微笑约定,沉默接受,彼此更成熟。;有些话只能偷偷拿出来纪念遗憾。", + "diff": [ + "replace text[50:51] --> decoded_text[50:51] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\";\"]" + }, + { + "text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", + "decoded_text": "你留下的记忆,陪我度过了无数个空虚的夜晚。,把你喜欢的事都做遍了还是无法靠近你;胖子永远得不到别人的呵护 摔得眼泪鼻涕都要喷出来了别人只会说 没事 她肉厚 摔不疼。", + "diff": [ + "replace text[39:40] --> decoded_text[39:40] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012195121951219513, + "oov_charset": "[\";\"]" + }, + { + "text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", + "decoded_text": "没有恋爱照样有失恋的感觉,而且很强烈。,或许有一天我能够面无表情的望着你不言不语;像吞进了玻璃的碎片满口的鲜血却吐不出来。", + "diff": [ + "replace text[40:41] --> decoded_text[40:41] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\";\"]" + }, + { + "text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "decoded_text": "招财带什么佛牌如果再不好好读书,就只能在倒数的名次内徘徊。,也许我放下了,也许还没,也许连我自己都不清楚。;我能感觉到你的心痛,你有你说不出的无奈,但是你做出一副无所谓的样子,你越是这样我就越难受。。", + "diff": [ + "replace text[53:54] --> decoded_text[53:54] ';' --> ';'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\";\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f57b9b3a399b1685cdf97458eae8f3b14615f6e2 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ar.diff.json @@ -0,0 +1,207 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.16, + "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", + "diff": [ + "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", + "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", + "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", + "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", + "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", + "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", + "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", + "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", + "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", + "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", + "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", + "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", + "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", + "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", + "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", + "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", + "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" + ], + "n_oov_chars": 163, + "oov_ratio": 0.16873706004140787, + "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", + "diff": [ + "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", + "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", + "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", + "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", + "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", + "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", + "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", + "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" + ], + "n_oov_chars": 54, + "oov_ratio": 0.1592920353982301, + "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", + "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", + "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", + "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", + "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", + "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", + "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", + "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", + "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", + "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" + ], + "n_oov_chars": 16, + "oov_ratio": 0.12598425196850394, + "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", + "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", + "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", + "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", + "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.17482517482517482, + "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", + "diff": [ + "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", + "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", + "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", + "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", + "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", + "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", + "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", + "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", + "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.14012738853503184, + "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", + "diff": [ + "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", + "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", + "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.2079646017699115, + "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", + "diff": [ + "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", + "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", + "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", + "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", + "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", + "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", + "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", + "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 73, + "oov_ratio": 0.17936117936117937, + "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", + "diff": [ + "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", + "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", + "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", + "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", + "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" + ], + "n_oov_chars": 46, + "oov_ratio": 0.1862348178137652, + "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", + "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", + "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", + "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", + "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 29, + "oov_ratio": 0.14948453608247422, + "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..43d6be5c2ea81322744e4b163070dbd9391c5463 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.de.diff.json @@ -0,0 +1,212 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht [UNK] in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "replace text[75:88] --> decoded_text[78:97] '“ in Siegburg' --> ' [UNK] in siegburg '", + "replace text[89:90] --> decoded_text[98:100] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[114:115] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[119:121] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[131:132] '' --> ' '", + "replace text[123:126] --> decoded_text[135:139] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[144:165] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[172:191] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[212:213] '' --> ' '", + "replace text[208:231] --> decoded_text[222:245] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[268:269] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[281:294] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.08928571428571429, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"“\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht [UNK] an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "replace text[74:75] --> decoded_text[77:83] '“' --> ' [UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.10126582278481013, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\", \"“\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d8eb47c6425470309be552e986a6c2ca06970be --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.en.diff.json @@ -0,0 +1,163 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d54201f9a79b49121401230064fece83ff7e6693 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.es.diff.json @@ -0,0 +1,132 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75bd0454a3c31ec6a6dfb75dcdb0fe483cc7efbc --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fa.diff.json @@ -0,0 +1,153 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] من : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "insert text[16:16] --> decoded_text[14:15] '' --> ' '", + "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.2903225806451613, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] من", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.625, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.4230769230769231, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.2222222222222222, + "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.16666666666666666, + "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[11:12] '' --> ' '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.3333333333333333, + "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.3225806451612903, + "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.21621621621621623, + "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", + "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", + "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", + "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", + "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", + "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", + "diff": [ + "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", + "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", + "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", + "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.2553191489361702, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8b1f95d2ba8971bd478b0f0c0c970ba16bb9691e --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ja.diff.json @@ -0,0 +1,317 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午 後 から 雨 か 心 配 たったのて 遠 出 はせす 、 『 ふれあいロート 』 を 走 って 来 ました !", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:6] --> decoded_text[8:11] 'が' --> ' か '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "replace text[8:9] --> decoded_text[14:16] 'だ' --> ' た'", + "replace text[12:13] --> decoded_text[19:21] 'で' --> 'て '", + "insert text[14:14] --> decoded_text[22:23] '' --> ' '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "replace text[17:18] --> decoded_text[27:29] 'ず' --> 'す '", + "insert text[19:19] --> decoded_text[30:31] '' --> ' '", + "insert text[20:20] --> decoded_text[32:33] '' --> ' '", + "replace text[26:27] --> decoded_text[39:41] 'ド' --> 'ト '", + "insert text[28:28] --> decoded_text[42:43] '' --> ' '", + "insert text[29:29] --> decoded_text[44:45] '' --> ' '", + "insert text[30:30] --> decoded_text[46:47] '' --> ' '", + "insert text[32:32] --> decoded_text[49:50] '' --> ' '", + "insert text[33:33] --> decoded_text[51:52] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.13513513513513514, + "oov_charset": "[\"が\", \"だ\", \"で\", \"ず\", \"ド\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "確 実 に 春 か 近 ついてることを 肌 て 感 しることか 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 になってるホウリンク 場 か 見 えて 来 ました 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] 'が' --> ' か '", + "replace text[6:7] --> decoded_text[11:13] 'づ' --> ' つ'", + "insert text[13:13] --> decoded_text[19:20] '' --> ' '", + "replace text[14:15] --> decoded_text[21:24] 'で' --> ' て '", + "replace text[16:17] --> decoded_text[25:27] 'じ' --> ' し'", + "replace text[20:21] --> decoded_text[30:32] 'が' --> 'か '", + "insert text[22:22] --> decoded_text[33:34] '' --> ' '", + "insert text[23:23] --> decoded_text[35:36] '' --> ' '", + "insert text[28:28] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[44:45] '' --> ' '", + "insert text[31:31] --> decoded_text[46:47] '' --> ' '", + "insert text[32:32] --> decoded_text[48:49] '' --> ' '", + "insert text[36:36] --> decoded_text[53:54] '' --> ' '", + "insert text[37:37] --> decoded_text[55:56] '' --> ' '", + "insert text[38:38] --> decoded_text[57:58] '' --> ' '", + "insert text[39:39] --> decoded_text[59:60] '' --> ' '", + "insert text[40:40] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[63:64] '' --> ' '", + "insert text[45:45] --> decoded_text[68:69] '' --> ' '", + "insert text[46:46] --> decoded_text[70:71] '' --> ' '", + "insert text[47:47] --> decoded_text[72:73] '' --> ' '", + "replace text[52:53] --> decoded_text[78:79] 'ボ' --> 'ホ'", + "replace text[56:57] --> decoded_text[82:84] 'グ' --> 'ク '", + "replace text[58:59] --> decoded_text[85:88] 'が' --> ' か '", + "insert text[60:60] --> decoded_text[89:90] '' --> ' '", + "insert text[62:62] --> decoded_text[92:93] '' --> ' '", + "insert text[63:63] --> decoded_text[94:95] '' --> ' '", + "insert text[66:66] --> decoded_text[98:99] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.11940298507462686, + "oov_charset": "[\"が\", \"づ\", \"で\", \"じ\", \"ボ\", \"グ\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] 〜 〜 、 私 か 途 中 てトイレに 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "insert text[4:4] --> decoded_text[9:10] '' --> ' '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:7] --> decoded_text[13:16] 'が' --> ' か '", + "insert text[8:8] --> decoded_text[17:18] '' --> ' '", + "replace text[9:10] --> decoded_text[19:21] 'で' --> ' て'", + "insert text[14:14] --> decoded_text[25:26] '' --> ' '", + "insert text[15:15] --> decoded_text[27:28] '' --> ' '", + "insert text[24:24] --> decoded_text[37:38] '' --> ' '", + "insert text[25:25] --> decoded_text[39:40] '' --> ' '", + "insert text[26:26] --> decoded_text[41:42] '' --> ' '", + "insert text[27:27] --> decoded_text[43:44] '' --> ' '", + "insert text[28:28] --> decoded_text[45:46] '' --> ' '", + "insert text[36:36] --> decoded_text[54:55] '' --> ' '", + "insert text[37:37] --> decoded_text[56:57] '' --> ' '", + "insert text[38:38] --> decoded_text[58:59] '' --> ' '", + "insert text[45:45] --> decoded_text[66:67] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06521739130434782, + "oov_charset": "[\"ぅ\", \"が\", \"で\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 つけてたんてす 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[13:13] --> decoded_text[20:21] '' --> ' '", + "insert text[14:14] --> decoded_text[22:23] '' --> ' '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "insert text[16:16] --> decoded_text[26:27] '' --> ' '", + "insert text[17:17] --> decoded_text[28:29] '' --> ' '", + "insert text[18:18] --> decoded_text[30:31] '' --> ' '", + "insert text[19:19] --> decoded_text[32:33] '' --> ' '", + "insert text[20:20] --> decoded_text[34:35] '' --> ' '", + "insert text[22:22] --> decoded_text[37:38] '' --> ' '", + "insert text[23:23] --> decoded_text[39:40] '' --> ' '", + "insert text[24:24] --> decoded_text[41:42] '' --> ' '", + "insert text[25:25] --> decoded_text[43:44] '' --> ' '", + "insert text[28:28] --> decoded_text[47:48] '' --> ' '", + "insert text[29:29] --> decoded_text[49:50] '' --> ' '", + "insert text[33:33] --> decoded_text[54:55] '' --> ' '", + "insert text[34:34] --> decoded_text[56:57] '' --> ' '", + "insert text[35:35] --> decoded_text[58:59] '' --> ' '", + "insert text[36:36] --> decoded_text[60:61] '' --> ' '", + "insert text[38:38] --> decoded_text[63:64] '' --> ' '", + "insert text[39:39] --> decoded_text[65:66] '' --> ' '", + "insert text[40:40] --> decoded_text[67:68] '' --> ' '", + "insert text[41:41] --> decoded_text[69:70] '' --> ' '", + "replace text[46:47] --> decoded_text[75:76] 'で' --> 'て'", + "insert text[48:48] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"で\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "その 時 点 て 先 生 からはおそらく 『 角 膜 シストロフィー 』 てあろうとの 診 断 をもらっていました 。", + "diff": [ + "insert text[2:2] --> decoded_text[2:3] '' --> ' '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[4:5] --> decoded_text[6:9] 'で' --> ' て '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[14:14] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "replace text[17:18] --> decoded_text[26:28] 'ジ' --> ' シ'", + "insert text[24:24] --> decoded_text[34:35] '' --> ' '", + "replace text[25:26] --> decoded_text[36:38] 'で' --> ' て'", + "insert text[31:31] --> decoded_text[43:44] '' --> ' '", + "insert text[32:32] --> decoded_text[45:46] '' --> ' '", + "insert text[33:33] --> decoded_text[47:48] '' --> ' '", + "insert text[42:42] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06976744186046512, + "oov_charset": "[\"で\", \"ジ\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 々にてはあるんてすけと 、 少 し 大 きくなってきちゃいました", + "diff": [ + "insert text[5:5] --> decoded_text[5:6] '' --> ' '", + "insert text[6:6] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[9:10] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "insert text[12:12] --> decoded_text[18:19] '' --> ' '", + "insert text[13:13] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[23:24] '' --> ' '", + "insert text[16:16] --> decoded_text[25:26] '' --> ' '", + "replace text[18:19] --> decoded_text[28:29] 'で' --> 'て'", + "replace text[23:24] --> decoded_text[33:34] 'で' --> 'て'", + "replace text[26:27] --> decoded_text[36:38] 'ど' --> 'と '", + "insert text[28:28] --> decoded_text[39:40] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.06976744186046512, + "oov_charset": "[\"で\", \"ど\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "たた 、 これまてお 散 歩 仲 間 からは 指 摘 とかされたことはないのて 、 こちらから 言 わなけれはそんなに 目 立 つ 程 てはないんてすけとね 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '", + "insert text[3:3] --> decoded_text[4:5] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'", + "insert text[8:8] --> decoded_text[10:11] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "insert text[12:12] --> decoded_text[18:19] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "insert text[17:17] --> decoded_text[26:27] '' --> ' '", + "replace text[28:29] --> decoded_text[38:40] 'で' --> 'て '", + "insert text[30:30] --> decoded_text[41:42] '' --> ' '", + "insert text[35:35] --> decoded_text[47:48] '' --> ' '", + "insert text[36:36] --> decoded_text[49:50] '' --> ' '", + "replace text[40:41] --> decoded_text[54:55] 'ば' --> 'は'", + "insert text[45:45] --> decoded_text[59:60] '' --> ' '", + "insert text[46:46] --> decoded_text[61:62] '' --> ' '", + "insert text[47:47] --> decoded_text[63:64] '' --> ' '", + "insert text[48:48] --> decoded_text[65:66] '' --> ' '", + "replace text[49:50] --> decoded_text[67:69] 'で' --> ' て'", + "replace text[54:55] --> decoded_text[73:74] 'で' --> 'て'", + "replace text[57:58] --> decoded_text[76:77] 'ど' --> 'と'", + "insert text[59:59] --> decoded_text[78:79] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.11666666666666667, + "oov_charset": "[\"だ\", \"で\", \"ば\", \"ど\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔 はヒアルロン 酸 の 目 薬 なとも 処 方 されてたようてすか 、 これか 効 く 事 はないそうてす 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[7:7] --> decoded_text[8:9] '' --> ' '", + "insert text[8:8] --> decoded_text[10:11] '' --> ' '", + "insert text[9:9] --> decoded_text[12:13] '' --> ' '", + "insert text[10:10] --> decoded_text[14:15] '' --> ' '", + "insert text[11:11] --> decoded_text[16:17] '' --> ' '", + "replace text[12:13] --> decoded_text[18:19] 'ど' --> 'と'", + "insert text[14:14] --> decoded_text[20:21] '' --> ' '", + "insert text[15:15] --> decoded_text[22:23] '' --> ' '", + "insert text[16:16] --> decoded_text[24:25] '' --> ' '", + "replace text[22:23] --> decoded_text[31:32] 'で' --> 'て'", + "replace text[24:25] --> decoded_text[33:35] 'が' --> 'か '", + "insert text[26:26] --> decoded_text[36:37] '' --> ' '", + "replace text[28:29] --> decoded_text[39:41] 'が' --> 'か '", + "insert text[30:30] --> decoded_text[42:43] '' --> ' '", + "insert text[31:31] --> decoded_text[44:45] '' --> ' '", + "insert text[32:32] --> decoded_text[46:47] '' --> ' '", + "replace text[37:38] --> decoded_text[52:53] 'で' --> 'て'", + "insert text[39:39] --> decoded_text[54:55] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.125, + "oov_charset": "[\"ど\", \"で\", \"が\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なのて 、 エルティとのお 散 歩 ても 訪 れたことかありません 。 カタクリの 花 か5 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。", + "diff": [ + "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "insert text[12:12] --> decoded_text[15:16] '' --> ' '", + "replace text[13:14] --> decoded_text[17:19] 'で' --> ' て'", + "insert text[15:15] --> decoded_text[20:21] '' --> ' '", + "insert text[16:16] --> decoded_text[22:23] '' --> ' '", + "replace text[20:21] --> decoded_text[27:28] 'が' --> 'か'", + "insert text[26:26] --> decoded_text[33:34] '' --> ' '", + "insert text[33:33] --> decoded_text[41:42] '' --> ' '", + "replace text[34:35] --> decoded_text[43:45] 'が' --> ' か'", + "insert text[36:36] --> decoded_text[46:47] '' --> ' '", + "insert text[37:37] --> decoded_text[48:49] '' --> ' '", + "insert text[38:38] --> decoded_text[50:51] '' --> ' '", + "insert text[41:41] --> decoded_text[54:55] '' --> ' '", + "insert text[42:42] --> decoded_text[56:57] '' --> ' '", + "insert text[43:43] --> decoded_text[58:59] '' --> ' '", + "insert text[45:45] --> decoded_text[61:62] '' --> ' '", + "insert text[46:46] --> decoded_text[63:64] '' --> ' '", + "insert text[47:47] --> decoded_text[65:66] '' --> ' '", + "insert text[54:54] --> decoded_text[73:74] '' --> ' '", + "insert text[55:55] --> decoded_text[75:76] '' --> ' '", + "insert text[56:56] --> decoded_text[77:78] '' --> ' '", + "insert text[57:57] --> decoded_text[79:80] '' --> ' '", + "insert text[63:63] --> decoded_text[86:87] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.078125, + "oov_charset": "[\"で\", \"デ\", \"が\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 々から 走 ってみたかったんたけと 、 いつも 陸 上 部 らしき 学 生 さんかものすこいスヒートて 駆 け 抜 けていくのを 目 の 当 たりにしてちょっとヒヒっておりました", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[4:4] --> decoded_text[5:6] '' --> ' '", + "insert text[5:5] --> decoded_text[7:8] '' --> ' '", + "replace text[13:14] --> decoded_text[16:17] 'だ' --> 'た'", + "replace text[15:16] --> decoded_text[18:20] 'ど' --> 'と '", + "insert text[17:17] --> decoded_text[21:22] '' --> ' '", + "insert text[20:20] --> decoded_text[25:26] '' --> ' '", + "insert text[21:21] --> decoded_text[27:28] '' --> ' '", + "insert text[22:22] --> decoded_text[29:30] '' --> ' '", + "insert text[23:23] --> decoded_text[31:32] '' --> ' '", + "insert text[26:26] --> decoded_text[35:36] '' --> ' '", + "insert text[27:27] --> decoded_text[37:38] '' --> ' '", + "insert text[28:28] --> decoded_text[39:40] '' --> ' '", + "replace text[30:31] --> decoded_text[42:43] 'が' --> 'か'", + "replace text[34:35] --> decoded_text[46:47] 'ご' --> 'こ'", + "replace text[37:38] --> decoded_text[49:50] 'ピ' --> 'ヒ'", + "replace text[39:41] --> decoded_text[51:54] 'ドで' --> 'トて '", + "insert text[42:42] --> decoded_text[55:56] '' --> ' '", + "insert text[43:43] --> decoded_text[57:58] '' --> ' '", + "insert text[44:44] --> decoded_text[59:60] '' --> ' '", + "insert text[50:50] --> decoded_text[66:67] '' --> ' '", + "insert text[51:51] --> decoded_text[68:69] '' --> ' '", + "insert text[52:52] --> decoded_text[70:71] '' --> ' '", + "insert text[53:53] --> decoded_text[72:73] '' --> ' '", + "replace text[62:64] --> decoded_text[82:84] 'ビビ' --> 'ヒヒ'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.1267605633802817, + "oov_charset": "[\"だ\", \"ど\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"ビ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b71beabbe76949d6f3cfa30a049c0abfc9d0a541 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.ko.diff.json @@ -0,0 +1,230 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > 라이브스코어", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:21] '라이브스코어' --> '라이브스코어'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'", + "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "replace text[11:12] --> decoded_text[18:21] '번' --> '번'", + "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'", + "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'", + "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'", + "replace text[25:33] --> decoded_text[46:65] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[34:39] --> decoded_text[66:79] '홀아웃했다' --> '홀아웃했다'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "1편인'신과함께 - 죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] '편인' --> '편인'", + "replace text[4:8] --> decoded_text[8:19] '신과함께' --> '신과함께 '", + "delete text[9:11] --> decoded_text[20:20] '죄와' --> ''", + "replace text[12:13] --> decoded_text[21:29] '벌' --> '죄와 벌'", + "replace text[14:15] --> decoded_text[30:32] '이' --> '이'", + "replace text[16:19] --> decoded_text[33:42] '천만을' --> '천만을'", + "replace text[20:22] --> decoded_text[43:49] '넘은' --> '넘은'", + "replace text[23:25] --> decoded_text[50:56] '만큼' --> '만큼'", + "replace text[27:29] --> decoded_text[58:64] '편을' --> '편을'", + "replace text[30:33] --> decoded_text[65:72] '기다린' --> '기다린'", + "replace text[34:42] --> decoded_text[73:92] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[43:47] --> decoded_text[93:104] '관객들의' --> '관객들의'", + "replace text[48:51] --> decoded_text[105:111] '기대와' --> '기대와'", + "replace text[52:54] --> decoded_text[112:116] '주소' --> '주소'", + "replace text[55:58] --> decoded_text[117:126] '관심은' --> '관심은'", + "replace text[59:64] --> decoded_text[127:140] '폭발적이다' --> '폭발적이다'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "고려해서 주소'대체재 일색'의 분재를 [UNK] [UNK] 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "diff": [ + "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'", + "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"", + "insert text[8:8] --> decoded_text[21:27] '' --> '일색'", + "replace text[9:12] --> decoded_text[28:30] '대체재' --> '의'", + "replace text[13:17] --> decoded_text[31:39] \"일색'의\" --> '분재를'", + "replace text[18:21] --> decoded_text[40:45] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[46:51] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[52:57] '위험이 있다' --> '있다'", + "replace text[34:37] --> decoded_text[59:67] '문학의' --> '문학의'", + "replace text[38:41] --> decoded_text[68:75] '자유를' --> '자유를'", + "replace text[42:46] --> decoded_text[76:85] '소설가가' --> '소설가가'", + "replace text[47:50] --> decoded_text[86:92] '스스로' --> '스스로'", + "replace text[51:59] --> decoded_text[93:112] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[60:64] --> decoded_text[113:123] '출판사에' --> '출판사에'", + "replace text[65:69] --> decoded_text[124:135] '상납하는' --> '상납하는'", + "replace text[70:73] --> decoded_text[136:143] '것이다' --> '것이다'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '조시도널슨의' --> '조시도널슨의'", + "replace text[7:9] --> decoded_text[15:20] '유산' --> '유산'", + "replace text[10:14] --> decoded_text[21:32] '프랭클린' --> '프랭클린'", + "replace text[15:17] --> decoded_text[33:37] '주소' --> '주소'", + "replace text[18:21] --> decoded_text[38:45] '바레토' --> '바레토 '", + "insert text[22:22] --> decoded_text[46:47] '' --> ' '", + "insert text[24:24] --> decoded_text[49:50] '' --> ' '", + "delete text[25:26] --> decoded_text[51:51] '는' --> ''", + "replace text[27:35] --> decoded_text[52:75] '황금의제국카지노' --> '는 황금의제국카지노'", + "replace text[37:39] --> decoded_text[77:81] '타수' --> '타수'", + "replace text[40:42] --> decoded_text[82:88] '안타' --> '안타 '", + "insert text[43:43] --> decoded_text[89:90] '' --> ' '", + "replace text[44:46] --> decoded_text[91:95] '루타' --> '루타'", + "replace text[47:49] --> decoded_text[96:103] '홈런' --> '홈런 '", + "replace text[52:54] --> decoded_text[106:112] '타점' --> '타점 '", + "insert text[56:56] --> decoded_text[114:115] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> '.'", + "delete text[60:61] --> decoded_text[120:120] '.' --> ''", + "insert text[64:64] --> decoded_text[123:124] '' --> '.'", + "delete text[65:66] --> decoded_text[125:125] '.' --> ''", + "insert text[69:69] --> decoded_text[128:129] '' --> ' '", + "replace text[72:75] --> decoded_text[132:139] '하지만' --> '하지만'", + "replace text[76:79] --> decoded_text[140:148] '아직은' --> '아직은'", + "replace text[80:84] --> decoded_text[149:157] '트레이드' --> '트레이드'", + "replace text[85:88] --> decoded_text[158:165] '당시의' --> '당시의'", + "replace text[89:93] --> decoded_text[166:175] '기대치를' --> '기대치를'", + "replace text[94:98] --> decoded_text[176:184] '보여주지' --> '보여주지'", + "replace text[99:102] --> decoded_text[185:192] '못하고' --> '못하고'", + "replace text[103:105] --> decoded_text[193:198] '있다' --> '있다'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 해야 한다.", + "diff": [ + "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'", + "replace text[8:19] --> decoded_text[16:41] '팀이 준결승에 오른다' --> '팀이 준결승에 오른다'", + "replace text[21:33] --> decoded_text[43:62] '결국 A, B조 1위는' --> '결국 a, b조 [UNK]'", + "replace text[36:38] --> decoded_text[65:71] '강-' --> '강 - '", + "replace text[39:45] --> decoded_text[72:88] '강-결승으로' --> '강 - 결승으로'", + "replace text[47:84] --> decoded_text[90:153] '경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소' --> '경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소'", + "replace text[87:89] --> decoded_text[156:162] '강-' --> '강 - '", + "replace text[90:92] --> decoded_text[163:169] '강-' --> '강 - '", + "replace text[93:99] --> decoded_text[170:186] '강-결승으로' --> '강 - 결승으로'", + "replace text[101:110] --> decoded_text[188:207] '경기를 해야 한다' --> '경기를 해야 한다'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 만들어주겠다며, 통화연결을 했다.", + "diff": [ + "replace text[0:30] --> decoded_text[0:60] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '[UNK] 눈길을 주소 끈 것은 한 신인배우의 매니저였다'", + "replace text[32:75] --> decoded_text[62:146] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 ' --> '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 [UNK] 사연에 박명수는'", + "replace text[76:86] --> decoded_text[147:170] '실시간 검색어 1위' --> '실시간 검색어 [UNK]'", + "replace text[87:96] --> decoded_text[171:192] '를 만들어주겠다며' --> '를 만들어주겠다며'", + "replace text[98:106] --> decoded_text[194:214] '통화연결을 했다' --> '통화연결을 했다'" + ], + "n_oov_chars": 78, + "oov_ratio": 0.7289719626168224, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 [UNK] 빅 사이닝 [UNK] 을 통해 유벤투스로 [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'", + "replace text[6:14] --> decoded_text[13:32] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[15:17] --> decoded_text[33:38] '시즌' --> '시즌'", + "replace text[19:23] --> decoded_text[40:49] '호날두와' --> '호날두와'", + "replace text[24:28] --> decoded_text[50:59] '이과인이' --> '이과인이'", + "replace text[29:31] --> decoded_text[60:64] '다시' --> '다시'", + "replace text[32:34] --> decoded_text[65:69] '주소' --> '주소'", + "replace text[35:39] --> decoded_text[70:75] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[76:82] '먹는' --> '먹는'", + "replace text[43:45] --> decoded_text[83:88] '일이' --> '일이'", + "replace text[46:50] --> decoded_text[89:94] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[96:105] '호날두가' --> '호날두가'", + "replace text[57:59] --> decoded_text[106:111] '‘빅' --> '[UNK]'", + "replace text[60:65] --> decoded_text[112:115] '사이닝’을' --> '빅'", + "replace text[66:68] --> decoded_text[116:123] '통해' --> '사이닝'", + "replace text[69:74] --> decoded_text[124:129] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[130:133] '옮겼기' --> '을'", + "replace text[79:83] --> decoded_text[134:163] '때문이다' --> '통해 유벤투스로 [UNK] [UNK]'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.7619047619047619, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "현대캐피탈은삼성화재와 시범경기를 [UNK] 홍천에 황금의제국카지노 주소 왔다.", + "diff": [ + "replace text[0:11] --> decoded_text[0:27] '현대캐피탈은삼성화재와' --> '현대캐피탈은삼성화재와'", + "replace text[12:17] --> decoded_text[28:41] '시범경기를' --> '시범경기를'", + "replace text[18:20] --> decoded_text[42:47] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[48:56] '홍천에' --> '홍천에'", + "replace text[25:33] --> decoded_text[57:76] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[34:36] --> decoded_text[77:81] '주소' --> '주소'", + "replace text[37:39] --> decoded_text[82:87] '왔다' --> '왔다'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.825, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "사실자매가 나란히 [UNK] 인터뷰를 한다는 게 [UNK] 법도 한데, 주소 둘 사이에는 [UNK] 거리낌도 [UNK]. 마치 하루에 한 [UNK] 만나는 친구 [UNK] 느낌이 황금의제국카지노 강했다.", + "diff": [ + "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'", + "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'", + "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[26:36] '인터뷰를' --> '인터뷰를'", + "replace text[18:21] --> decoded_text[37:45] '한다는' --> '한다는'", + "replace text[22:23] --> decoded_text[46:48] '게' --> '게'", + "replace text[24:28] --> decoded_text[49:54] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[55:60] '법도' --> '법도'", + "replace text[32:34] --> decoded_text[61:66] '한데' --> '한데'", + "replace text[36:38] --> decoded_text[68:72] '주소' --> '주소'", + "replace text[39:40] --> decoded_text[73:76] '둘' --> '둘'", + "replace text[41:45] --> decoded_text[77:86] '사이에는' --> '사이에는'", + "replace text[46:48] --> decoded_text[87:92] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[93:102] '거리낌도' --> '거리낌도'", + "replace text[54:57] --> decoded_text[103:108] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[110:114] '마치' --> '마치'", + "replace text[62:65] --> decoded_text[115:121] '하루에' --> '하루에'", + "replace text[66:67] --> decoded_text[122:125] '한' --> '한'", + "replace text[68:70] --> decoded_text[126:131] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[132:140] '만나는' --> '만나는'", + "replace text[75:77] --> decoded_text[141:146] '친구' --> '친구'", + "replace text[78:80] --> decoded_text[147:152] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[153:160] '느낌이' --> '느낌이'", + "replace text[85:93] --> decoded_text[161:180] '황금의제국카지노' --> '황금의제국카지노'", + "replace text[94:97] --> decoded_text[181:189] '강했다' --> '강했다'" + ], + "n_oov_chars": 71, + "oov_ratio": 0.7244897959183674, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7e714033a0cc358131096cad35cb5f96f3b975c6 --- /dev/null +++ b/stats/compression_rate/ckiplab.gpt2-base-chinese @ cc100.zh-Hans.diff.json @@ -0,0 +1,1118 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[244:246] 'S' --> 's '", + "insert text[134:134] --> decoded_text[247:248] '' --> ' '", + "insert text[135:135] --> decoded_text[249:250] '' --> ' '", + "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", + "insert text[138:138] --> decoded_text[255:256] '' --> ' '", + "insert text[139:139] --> decoded_text[257:258] '' --> ' '", + "insert text[140:140] --> decoded_text[259:260] '' --> ' '", + "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[265:266] '' --> ' '", + "insert text[144:144] --> decoded_text[267:268] '' --> ' '", + "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[273:274] '' --> ' '", + "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", + "insert text[150:150] --> decoded_text[279:280] '' --> ' '", + "insert text[151:151] --> decoded_text[281:282] '' --> ' '", + "insert text[152:152] --> decoded_text[283:284] '' --> ' '", + "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[289:290] '' --> ' '", + "insert text[156:156] --> decoded_text[291:292] '' --> ' '", + "insert text[157:157] --> decoded_text[293:294] '' --> ' '", + "insert text[158:158] --> decoded_text[295:296] '' --> ' '", + "insert text[159:159] --> decoded_text[297:298] '' --> ' '", + "insert text[163:163] --> decoded_text[302:303] '' --> ' '", + "insert text[164:164] --> decoded_text[304:305] '' --> ' '", + "insert text[165:165] --> decoded_text[306:307] '' --> ' '", + "insert text[166:166] --> decoded_text[308:309] '' --> ' '", + "insert text[167:167] --> decoded_text[310:311] '' --> ' '", + "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", + "insert text[170:170] --> decoded_text[316:317] '' --> ' '", + "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[324:325] '' --> ' '", + "insert text[175:175] --> decoded_text[326:327] '' --> ' '", + "insert text[176:176] --> decoded_text[328:329] '' --> ' '", + "insert text[177:177] --> decoded_text[330:331] '' --> ' '", + "insert text[178:178] --> decoded_text[332:333] '' --> ' '", + "insert text[179:179] --> decoded_text[334:335] '' --> ' '", + "insert text[180:180] --> decoded_text[336:337] '' --> ' '", + "insert text[181:181] --> decoded_text[338:339] '' --> ' '", + "insert text[182:182] --> decoded_text[340:341] '' --> ' '", + "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", + "insert text[185:185] --> decoded_text[346:347] '' --> ' '", + "insert text[186:186] --> decoded_text[348:349] '' --> ' '", + "insert text[187:187] --> decoded_text[350:351] '' --> ' '", + "insert text[188:188] --> decoded_text[352:353] '' --> ' '", + "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[358:359] '' --> ' '", + "insert text[192:192] --> decoded_text[360:361] '' --> ' '", + "insert text[193:193] --> decoded_text[362:363] '' --> ' '", + "insert text[194:194] --> decoded_text[364:365] '' --> ' '", + "insert text[195:195] --> decoded_text[366:367] '' --> ' '", + "insert text[196:196] --> decoded_text[368:369] '' --> ' '", + "insert text[206:206] --> decoded_text[379:380] '' --> ' '", + "insert text[207:207] --> decoded_text[381:382] '' --> ' '", + "insert text[211:211] --> decoded_text[386:387] '' --> ' '", + "insert text[212:212] --> decoded_text[388:389] '' --> ' '", + "insert text[213:213] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004672897196261682, + "oov_charset": "[\"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f57b9b3a399b1685cdf97458eae8f3b14615f6e2 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ar.diff.json @@ -0,0 +1,207 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[45:46] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.16, + "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] الما [UNK] لما [UNK] اليه [UNK] ابنايها من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الماساة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل, ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] او [UNK] [UNK] او اية [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..", + "diff": [ + "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'", + "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '", + "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'", + "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''", + "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'", + "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'", + "replace text[176:187] --> decoded_text[173:209] 'أعماق أعماق' --> '[UNK] [UNK] الما [UNK] لما [UNK] الي'", + "replace text[188:195] --> decoded_text[210:233] 'ا ألماً' --> ' [UNK] ابنايها من [UNK]'", + "replace text[197:198] --> decoded_text[235:337] 'أ' --> 'من [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] ابنايها [UNK] [UNK] [UNK].. [UNK] [UNK] الما'", + "replace text[199:205] --> decoded_text[338:380] 'ىً لما' --> 'اة لم تعدم [UNK] [UNK] [UNK] من [UNK] امل,'", + "replace text[207:456] --> decoded_text[382:452] 'صل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> 'من [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] لان اليمانيين [UNK]'", + "replace text[469:473] --> decoded_text[465:735] 'فاجأ' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عال من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن اية [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "replace text[474:484] --> decoded_text[736:750] 'ا العالم ب' --> ' [UNK] [UNK] ا'", + "replace text[485:486] --> decoded_text[751:770] 'ح' --> ' اية [UNK] [UNK], ع'", + "replace text[487:852] --> decoded_text[771:831] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] ان [UNK]'", + "replace text[866:879] --> decoded_text[845:856] 'القرن العشرين' --> '[UNK] [UNK]'", + "insert text[886:886] --> decoded_text[863:892] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'", + "replace text[887:966] --> decoded_text[893:950] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'" + ], + "n_oov_chars": 163, + "oov_ratio": 0.16873706004140787, + "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "واليوم وبعد ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن ايا [UNK] تياراتهم السياسية, او [UNK] [UNK] او [UNK] او [UNK], ان [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ايمان..", + "diff": [ + "replace text[12:49] --> decoded_text[12:52] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> 'ان [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'", + "replace text[55:75] --> decoded_text[58:78] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'", + "replace text[83:92] --> decoded_text[86:105] 'فإن الحكم' --> '[UNK] [UNK] اليماني'", + "replace text[94:133] --> decoded_text[107:140] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن ايا [UNK]'", + "replace text[153:198] --> decoded_text[160:192] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> 'او [UNK] [UNK] او [UNK] او [UNK]'", + "replace text[200:226] --> decoded_text[194:217] 'أن يستذكروا جيداً ما وصفهم' --> 'ان [UNK] [UNK] ما [UNK]'", + "replace text[244:277] --> decoded_text[235:268] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'", + "replace text[287:333] --> decoded_text[278:322] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إ' --> '[UNK] اله [UNK] [UNK] بانهم اهل [UNK] واهل ا'" + ], + "n_oov_chars": 54, + "oov_ratio": 0.1592920353982301, + "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] الرسول [UNK] ما هي الا [UNK] من الله.. [UNK] ان العمل بما [UNK] الرسول [UNK] هو مسوولية [UNK] ودينية ومسوولية سياسية..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'", + "replace text[28:29] --> decoded_text[25:26] 'إ' --> 'ا'", + "replace text[32:35] --> decoded_text[29:34] 'وحي' --> '[UNK]'", + "replace text[46:51] --> decoded_text[45:50] 'بمعنى' --> '[UNK]'", + "replace text[52:53] --> decoded_text[51:52] 'أ' --> 'ا'", + "replace text[65:69] --> decoded_text[64:69] 'قاله' --> '[UNK]'", + "replace text[77:83] --> decoded_text[77:82] 'الأعظم' --> '[UNK]'", + "replace text[89:90] --> decoded_text[88:89] 'ؤ' --> 'و'", + "replace text[95:102] --> decoded_text[94:99] 'أخلاقية' --> '[UNK]'", + "replace text[113:114] --> decoded_text[110:111] 'ؤ' --> 'و'" + ], + "n_oov_chars": 16, + "oov_ratio": 0.12598425196850394, + "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] ان [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "insert text[48:48] --> decoded_text[50:56] '' --> '[UNK] '", + "delete text[49:56] --> decoded_text[57:57] 'لحكمة أ' --> ''", + "replace text[58:61] --> decoded_text[59:64] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[65:70] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[71:76] 'والقذيفة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[86:91] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[92:97] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[98:103] 'فيما' --> '[UNK]'", + "replace text[115:118] --> decoded_text[110:115] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[116:121] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[122:127] 'هذا' --> '[UNK]'", + "replace text[135:141] --> decoded_text[134:139] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 25, + "oov_ratio": 0.17482517482517482, + "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] اله..", + "diff": [ + "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'", + "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'", + "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'", + "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'", + "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'", + "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'", + "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'", + "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'", + "replace text[152:153] --> decoded_text[148:149] 'آ' --> 'ا'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.14012738853503184, + "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] لاعدايه..", + "diff": [ + "replace text[0:7] --> decoded_text[0:225] 'أنا لا ' --> 'انا لا [UNK] ان [UNK] من [UNK] [UNK] البلد [UNK] او [UNK] ما [UNK] [UNK].. ان [UNK] اليمن - وهو بلد ولاد [UNK], [UNK] [UNK], وان [UNK] ابناوه [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] والما ان [UNK] [UNK] [UNK] ل'", + "replace text[9:65] --> decoded_text[227:229] 'تقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري ف' --> 'دا'", + "delete text[69:226] --> decoded_text[233:233] ' أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> ''" + ], + "n_oov_chars": 47, + "oov_ratio": 0.2079646017699115, + "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] انهم بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوات بايدي [UNK] او [UNK], او [UNK].. [UNK]!", + "diff": [ + "replace text[6:7] --> decoded_text[6:58] 'أ' --> '[UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] ا'", + "delete text[9:58] --> decoded_text[60:60] 'ك من العدوان ومن الحصار حتى أولئك الذين يظنون أنه' --> ''", + "replace text[70:88] --> decoded_text[72:83] 'التأثيرات المباشرة' --> '[UNK] [UNK]'", + "replace text[121:125] --> decoded_text[116:128] 'والأ' --> '[UNK] والمتا'", + "replace text[127:134] --> decoded_text[130:358] 'اء والم' --> ' [UNK] [UNK], وان [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] ادوا'", + "replace text[135:137] --> decoded_text[359:360] 'اع' --> ' '", + "replace text[138:150] --> decoded_text[361:380] ' طالت الجميع' --> 'ايدي [UNK] او [UNK]'", + "replace text[152:403] --> decoded_text[382:390] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> 'او [UNK]'", + "replace text[405:406] --> decoded_text[392:398] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 73, + "oov_ratio": 0.17936117936117937, + "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربية [UNK] اسلامية.. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل ابيب!!", + "diff": [ + "replace text[4:59] --> decoded_text[4:106] 'انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتن' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] ان [UNK] [UNK] [UNK] [UNK] عربي'", + "replace text[61:112] --> decoded_text[108:115] 'ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إ' --> '[UNK] ا'", + "replace text[121:126] --> decoded_text[124:129] 'أجندة' --> '[UNK]'", + "replace text[132:144] --> decoded_text[135:146] 'فيها الضمائر' --> '[UNK] [UNK]'", + "replace text[151:222] --> decoded_text[153:242] 'فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرا' --> '[UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[223:242] --> decoded_text[243:246] ' في واشنطن وفي تل أ' --> 'ل ا'" + ], + "n_oov_chars": 46, + "oov_ratio": 0.1862348178137652, + "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد اهلها [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] ابو [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[77:78] --> decoded_text[78:79] 'أ' --> 'ا'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'", + "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'", + "replace text[149:153] --> decoded_text[140:152] 'وجهه' --> '[UNK] [UNK] '", + "delete text[154:160] --> decoded_text[153:153] ' صوب أ' --> ''", + "replace text[163:166] --> decoded_text[156:161] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[163:168] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[169:174] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[176:181] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[182:187] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 29, + "oov_ratio": 0.14948453608247422, + "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.de.diff.json @@ -0,0 +1,213 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ca3ead18ec5e53ea20054361670fee1942268f82 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.en.diff.json @@ -0,0 +1,164 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "replace text[19:20] --> decoded_text[20:27] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[60:61] '' --> ' '", + "insert text[66:66] --> decoded_text[74:75] '' --> ' '", + "insert text[79:79] --> decoded_text[88:89] '' --> ' '", + "replace text[140:141] --> decoded_text[150:156] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[171:190] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[196:212] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[215:216] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[219:220] 'N' --> 'n'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.04926108374384237, + "oov_charset": "[\"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "replace text[41:42] --> decoded_text[42:49] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[67:68] 'S' --> 's'", + "replace text[67:68] --> decoded_text[74:81] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[89:96] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[128:134] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[140:141] 'F' --> 'f'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.056910569105691054, + "oov_charset": "[\"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[150:151] '' --> ' '", + "insert text[140:140] --> decoded_text[152:153] '' --> ' '", + "replace text[144:145] --> decoded_text[157:164] '”' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.016877637130801686, + "oov_charset": "[\"S\", \"—\", \"Y\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d54201f9a79b49121401230064fece83ff7e6693 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.es.diff.json @@ -0,0 +1,132 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..75bd0454a3c31ec6a6dfb75dcdb0fe483cc7efbc --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fa.diff.json @@ -0,0 +1,153 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] من : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "insert text[16:16] --> decoded_text[14:15] '' --> ' '", + "replace text[18:19] --> decoded_text[17:18] 'F' --> 'f'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.2903225806451613, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] من", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.625, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.4230769230769231, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.2222222222222222, + "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.16666666666666666, + "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[7:7] --> decoded_text[11:12] '' --> ' '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.3333333333333333, + "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "insert text[16:16] --> decoded_text[18:19] '' --> ' '", + "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.3225806451612903, + "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.21621621621621623, + "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'", + "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'", + "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'", + "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'", + "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'", + "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 18, + "oov_ratio": 0.20689655172413793, + "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]", + "diff": [ + "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'", + "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'", + "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'", + "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 12, + "oov_ratio": 0.2553191489361702, + "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..46c4961cf3d2adb6b0b1e6925d20246ed36b6f96 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ja.diff.json @@ -0,0 +1,210 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午 [UNK] [UNK] 雨 [UNK] 心 配 [UNK] [UNK] 出 [UNK] 、 『 [UNK] 』 [UNK] 走 [UNK] 来 [UNK] !", + "diff": [ + "replace text[1:4] --> decoded_text[1:14] '後から' --> ' [UNK] [UNK] '", + "replace text[5:6] --> decoded_text[15:22] 'が' --> ' [UNK] '", + "insert text[7:7] --> decoded_text[23:24] '' --> ' '", + "replace text[8:14] --> decoded_text[25:38] 'だったので遠' --> ' [UNK] [UNK] '", + "replace text[15:18] --> decoded_text[39:46] 'はせず' --> ' [UNK] '", + "insert text[19:19] --> decoded_text[47:48] '' --> ' '", + "replace text[20:27] --> decoded_text[49:56] 'ふれあいロード' --> ' [UNK] '", + "replace text[28:29] --> decoded_text[57:64] 'を' --> ' [UNK] '", + "replace text[30:32] --> decoded_text[65:72] 'って' --> ' [UNK] '", + "replace text[33:36] --> decoded_text[73:80] 'ました' --> ' [UNK] '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.7027027027027027, + "oov_charset": "[\"後\", \"か\", \"ら\", \"が\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"は\", \"せ\", \"ず\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"を\", \"て\", \"ま\", \"し\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] 実 [UNK] 春 [UNK] 近 [UNK] 肌 [UNK] 感 [UNK] 出 来 [UNK] 着 [UNK] 整 [UNK] [UNK] 圏 央 道 [UNK] 越 [UNK] 世 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 来 [UNK] 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '確' --> '[UNK] '", + "replace text[2:3] --> decoded_text[7:14] 'に' --> ' [UNK] '", + "replace text[4:5] --> decoded_text[15:22] 'が' --> ' [UNK] '", + "replace text[6:13] --> decoded_text[23:30] 'づいてることを' --> ' [UNK] '", + "replace text[14:15] --> decoded_text[31:38] 'で' --> ' [UNK] '", + "replace text[16:21] --> decoded_text[39:46] 'じることが' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[47:48] '' --> ' '", + "replace text[23:26] --> decoded_text[49:55] 'ました' --> ' [UNK]'", + "replace text[28:30] --> decoded_text[57:64] '々と' --> ' [UNK] '", + "replace text[31:36] --> decoded_text[65:78] '備されてる' --> ' [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[79:80] '' --> ' '", + "insert text[38:38] --> decoded_text[81:82] '' --> ' '", + "replace text[39:40] --> decoded_text[83:90] 'を' --> ' [UNK] '", + "replace text[41:45] --> decoded_text[91:98] 'えるとお' --> ' [UNK] '", + "replace text[46:62] --> decoded_text[99:136] '話になってるボウリング場が見えて' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[63:66] --> decoded_text[137:144] 'ました' --> ' [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.7313432835820896, + "oov_charset": "[\"確\", \"に\", \"が\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"で\", \"じ\", \"ま\", \"し\", \"た\", \"備\", \"さ\", \"れ\", \"え\", \"お\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] 〜 〜 、 私 [UNK] 途 中 [UNK] 行 [UNK] 、 通 [UNK] 道 [UNK] 変 更 [UNK] 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "insert text[4:4] --> decoded_text[9:10] '' --> ' '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:7] --> decoded_text[13:20] 'が' --> ' [UNK] '", + "insert text[8:8] --> decoded_text[21:22] '' --> ' '", + "replace text[9:14] --> decoded_text[23:30] 'でトイレに' --> ' [UNK] '", + "replace text[15:24] --> decoded_text[31:38] 'きたくなってしまい' --> ' [UNK] '", + "insert text[25:25] --> decoded_text[39:40] '' --> ' '", + "replace text[26:27] --> decoded_text[41:48] 'り' --> ' [UNK] '", + "replace text[28:36] --> decoded_text[49:56] 'にあったケンタに' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "replace text[38:45] --> decoded_text[59:66] 'しちゃいました' --> ' [UNK] '" + ], + "n_oov_chars": 33, + "oov_ratio": 0.717391304347826, + "oov_charset": "[\"う\", \"ぅ\", \"が\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"り\", \"あ\", \"ケ\", \"ン\", \"タ\", \"ち\", \"ゃ\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実 [UNK] 、 1 年 程 前 [UNK] 右 目 [UNK] 黒 目 [UNK] 端 [UNK] 〜 [UNK] [UNK] [UNK] 分 [UNK] 程 [UNK] 小 [UNK] 斑 [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:2] --> decoded_text[1:8] 'は' --> ' [UNK] '", + "insert text[3:3] --> decoded_text[9:10] '' --> ' '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "replace text[7:13] --> decoded_text[17:24] 'にエルモサの' --> ' [UNK] '", + "insert text[14:14] --> decoded_text[25:26] '' --> ' '", + "replace text[15:16] --> decoded_text[27:34] 'の' --> ' [UNK] '", + "insert text[17:17] --> decoded_text[35:36] '' --> ' '", + "replace text[18:19] --> decoded_text[37:44] 'の' --> ' [UNK] '", + "replace text[20:22] --> decoded_text[45:52] 'によ' --> ' [UNK] '", + "replace text[23:28] --> decoded_text[53:72] 'く見ないと' --> ' [UNK] [UNK] [UNK] '", + "replace text[29:33] --> decoded_text[73:80] 'からない' --> ' [UNK] '", + "replace text[34:35] --> decoded_text[81:88] 'の' --> ' [UNK] '", + "replace text[36:38] --> decoded_text[89:96] 'さな' --> ' [UNK] '", + "replace text[39:48] --> decoded_text[97:116] 'を見つけてたんです' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 32, + "oov_ratio": 0.6530612244897959, + "oov_charset": "[\"は\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"よ\", \"く\", \"見\", \"な\", \"い\", \"と\", \"か\", \"ら\", \"さ\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "[UNK] [UNK] 点 [UNK] 先 生 [UNK] 『 角 膜 [UNK] 』 [UNK] [UNK] 断 [UNK] 。", + "diff": [ + "replace text[0:3] --> decoded_text[0:12] 'その時' --> '[UNK] [UNK] '", + "replace text[4:5] --> decoded_text[13:20] 'で' --> ' [UNK] '", + "insert text[6:6] --> decoded_text[21:22] '' --> ' '", + "replace text[7:14] --> decoded_text[23:30] 'からはおそらく' --> ' [UNK] '", + "insert text[15:15] --> decoded_text[31:32] '' --> ' '", + "insert text[16:16] --> decoded_text[33:34] '' --> ' '", + "replace text[17:24] --> decoded_text[35:42] 'ジストロフィー' --> ' [UNK] '", + "replace text[25:32] --> decoded_text[43:56] 'であろうとの診' --> ' [UNK] [UNK] '", + "replace text[33:42] --> decoded_text[57:64] 'をもらっていました' --> ' [UNK] '" + ], + "n_oov_chars": 34, + "oov_ratio": 0.7906976744186046, + "oov_charset": "[\"そ\", \"の\", \"時\", \"で\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] 合 [UNK] 年 程 経 [UNK] [UNK] 徐 [UNK] 、 少 [UNK] 大 [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '", + "replace text[7:9] --> decoded_text[13:20] 'は1' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[21:22] '' --> ' '", + "insert text[11:11] --> decoded_text[23:24] '' --> ' '", + "replace text[12:15] --> decoded_text[25:38] '過して' --> ' [UNK] [UNK] '", + "replace text[16:27] --> decoded_text[39:46] '々にではあるんですけど' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[47:48] '' --> ' '", + "replace text[29:30] --> decoded_text[49:56] 'し' --> ' [UNK] '", + "replace text[31:43] --> decoded_text[57:63] 'きくなってきちゃいました' --> ' [UNK]'" + ], + "n_oov_chars": 33, + "oov_ratio": 0.7674418604651163, + "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"は\", \"過\", \"し\", \"て\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "[UNK] 、 [UNK] 散 歩 仲 [UNK] [UNK] 指 摘 [UNK] 、 [UNK] 言 [UNK] 目 立 [UNK] 程 [UNK] 。", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '", + "replace text[3:8] --> decoded_text[7:14] 'これまでお' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[15:16] '' --> ' '", + "insert text[10:10] --> decoded_text[17:18] '' --> ' '", + "replace text[11:15] --> decoded_text[19:32] '間からは' --> ' [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[33:34] '' --> ' '", + "replace text[17:29] --> decoded_text[35:42] 'とかされたことはないので' --> ' [UNK] '", + "replace text[30:35] --> decoded_text[43:50] 'こちらから' --> ' [UNK] '", + "replace text[36:45] --> decoded_text[51:58] 'わなければそんなに' --> ' [UNK] '", + "insert text[46:46] --> decoded_text[59:60] '' --> ' '", + "replace text[47:48] --> decoded_text[61:68] 'つ' --> ' [UNK] '", + "replace text[49:59] --> decoded_text[69:76] 'ではないんですけどね' --> ' [UNK] '" + ], + "n_oov_chars": 48, + "oov_ratio": 0.8, + "oov_charset": "[\"た\", \"だ\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"間\", \"か\", \"ら\", \"は\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"つ\", \"す\", \"ど\", \"ね\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "昔 [UNK] 酸 [UNK] 目 薬 [UNK] 処 方 [UNK] 、 [UNK] 効 [UNK] 事 [UNK] 。", + "diff": [ + "replace text[1:7] --> decoded_text[1:8] 'はヒアルロン' --> ' [UNK] '", + "replace text[8:9] --> decoded_text[9:16] 'の' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[17:18] '' --> ' '", + "replace text[11:14] --> decoded_text[19:26] 'なども' --> ' [UNK] '", + "insert text[15:15] --> decoded_text[27:28] '' --> ' '", + "replace text[16:25] --> decoded_text[29:36] 'されてたようですが' --> ' [UNK] '", + "replace text[26:29] --> decoded_text[37:44] 'これが' --> ' [UNK] '", + "replace text[30:31] --> decoded_text[45:52] 'く' --> ' [UNK] '", + "replace text[32:39] --> decoded_text[53:60] 'はないそうです' --> ' [UNK] '" + ], + "n_oov_chars": 30, + "oov_ratio": 0.75, + "oov_charset": "[\"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"の\", \"な\", \"ど\", \"も\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"こ\", \"く\", \"い\", \"そ\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "[UNK] 、 [UNK] 散 歩 [UNK] [UNK] [UNK] 。 [UNK] 花 [UNK] 分 咲 [UNK] 情 [UNK] [UNK] 今 回 [UNK] 取 [UNK] 入 [UNK] 。", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '", + "replace text[4:11] --> decoded_text[7:14] 'エルディとのお' --> ' [UNK] '", + "insert text[12:12] --> decoded_text[15:16] '' --> ' '", + "replace text[13:26] --> decoded_text[17:36] 'でも訪れたことがありません' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:33] --> decoded_text[38:44] 'カタクリの' --> '[UNK] '", + "replace text[34:36] --> decoded_text[45:52] 'が5' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[53:54] '' --> ' '", + "replace text[38:41] --> decoded_text[55:62] 'きとの' --> ' [UNK] '", + "replace text[42:45] --> decoded_text[63:76] '報から' --> ' [UNK] [UNK] '", + "insert text[46:46] --> decoded_text[77:78] '' --> ' '", + "replace text[47:54] --> decoded_text[79:86] 'コースの1つに' --> ' [UNK] '", + "replace text[55:56] --> decoded_text[87:94] 'り' --> ' [UNK] '", + "replace text[57:63] --> decoded_text[95:102] 'れてみました' --> ' [UNK] '" + ], + "n_oov_chars": 48, + "oov_ratio": 0.75, + "oov_charset": "[\"な\", \"の\", \"で\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"カ\", \"タ\", \"ク\", \"リ\", \"き\", \"報\", \"か\", \"ら\", \"コ\", \"ー\", \"ス\", \"つ\", \"に\", \"て\", \"み\", \"し\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "前 [UNK] 走 [UNK] 、 [UNK] [UNK] 上 部 [UNK] 学 生 [UNK] 駆 [UNK] 抜 [UNK] 目 [UNK] 当 [UNK]", + "diff": [ + "replace text[1:4] --> decoded_text[1:8] '々から' --> ' [UNK] '", + "replace text[5:16] --> decoded_text[9:16] 'ってみたかったんだけど' --> ' [UNK] '", + "replace text[17:21] --> decoded_text[17:30] 'いつも陸' --> ' [UNK] [UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "replace text[23:26] --> decoded_text[33:40] 'らしき' --> ' [UNK] '", + "insert text[27:27] --> decoded_text[41:42] '' --> ' '", + "replace text[28:41] --> decoded_text[43:50] 'さんがものすごいスピードで' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[51:58] 'け' --> ' [UNK] '", + "replace text[44:50] --> decoded_text[59:66] 'けていくのを' --> ' [UNK] '", + "replace text[51:52] --> decoded_text[67:74] 'の' --> ' [UNK] '", + "replace text[53:71] --> decoded_text[75:81] 'たりにしてちょっとビビっておりました' --> ' [UNK]'" + ], + "n_oov_chars": 59, + "oov_ratio": 0.8309859154929577, + "oov_charset": "[\"か\", \"ら\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"い\", \"つ\", \"も\", \"陸\", \"し\", \"き\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"く\", \"を\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ae41660b800363cc1d350759ca207db9646bef99 --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.ko.diff.json @@ -0,0 +1,258 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", + "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", + "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", + "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", + "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", + "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", + "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", + "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", + "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", + "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", + "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", + "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", + "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", + "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", + "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", + "insert text[56:56] --> decoded_text[79:80] '' --> ' '", + "insert text[59:59] --> decoded_text[83:84] '' --> '.'", + "delete text[60:61] --> decoded_text[85:85] '.' --> ''", + "insert text[64:64] --> decoded_text[88:89] '' --> '.'", + "delete text[65:66] --> decoded_text[90:90] '.' --> ''", + "insert text[69:69] --> decoded_text[93:94] '' --> ' '", + "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", + "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", + "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", + "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", + "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", + "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", + "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", + "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", + "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", + "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", + "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", + "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", + "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", + "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", + "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", + "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", + "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", + "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", + "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", + "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", + "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", + "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", + "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", + "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", + "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", + "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", + "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", + "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", + "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", + "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", + "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", + "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", + "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", + "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" + ], + "n_oov_chars": 101, + "oov_ratio": 0.9439252336448598, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", + "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", + "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", + "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", + "replace text[60:65] --> decoded_text[76:81] '사이닝’을' --> '[UNK]'", + "replace text[66:68] --> decoded_text[82:87] '통해' --> '[UNK]'", + "replace text[69:74] --> decoded_text[88:93] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[94:99] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[100:123] '때문이다' --> '[UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 63, + "oov_ratio": 0.75, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", + "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 39, + "oov_ratio": 0.975, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", + "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", + "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", + "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", + "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", + "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", + "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 95, + "oov_ratio": 0.9693877551020408, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8d58260a4848cdec02d70a01030442661b551d1a --- /dev/null +++ b/stats/compression_rate/clue.roberta_chinese_clue_tiny @ cc100.zh-Hans.diff.json @@ -0,0 +1,1120 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[55:56] '' --> ' '", + "insert text[35:35] --> decoded_text[57:58] '' --> ' '", + "insert text[36:36] --> decoded_text[59:60] '' --> ' '", + "insert text[37:37] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[66:67] '' --> ' '", + "insert text[42:42] --> decoded_text[68:69] '' --> ' '", + "insert text[43:43] --> decoded_text[70:71] '' --> ' '", + "insert text[44:44] --> decoded_text[72:73] '' --> ' '", + "insert text[45:45] --> decoded_text[74:75] '' --> ' '", + "insert text[46:46] --> decoded_text[76:77] '' --> ' '", + "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[82:83] '' --> ' '", + "insert text[50:50] --> decoded_text[84:85] '' --> ' '", + "insert text[51:51] --> decoded_text[86:87] '' --> ' '", + "insert text[52:52] --> decoded_text[88:89] '' --> ' '", + "insert text[53:53] --> decoded_text[90:91] '' --> ' '", + "insert text[54:54] --> decoded_text[92:93] '' --> ' '", + "insert text[55:55] --> decoded_text[94:95] '' --> ' '", + "insert text[56:56] --> decoded_text[96:97] '' --> ' '", + "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", + "insert text[59:59] --> decoded_text[102:103] '' --> ' '", + "insert text[60:60] --> decoded_text[104:105] '' --> ' '", + "insert text[61:61] --> decoded_text[106:107] '' --> ' '", + "insert text[62:62] --> decoded_text[108:109] '' --> ' '", + "insert text[63:63] --> decoded_text[110:111] '' --> ' '", + "insert text[64:64] --> decoded_text[112:113] '' --> ' '", + "insert text[65:65] --> decoded_text[114:115] '' --> ' '", + "insert text[66:66] --> decoded_text[116:117] '' --> ' '", + "insert text[67:67] --> decoded_text[118:119] '' --> ' '", + "insert text[68:68] --> decoded_text[120:121] '' --> ' '", + "insert text[69:69] --> decoded_text[122:123] '' --> ' '", + "insert text[70:70] --> decoded_text[124:125] '' --> ' '", + "insert text[71:71] --> decoded_text[126:127] '' --> ' '", + "insert text[72:72] --> decoded_text[128:129] '' --> ' '", + "insert text[73:73] --> decoded_text[130:131] '' --> ' '", + "insert text[74:74] --> decoded_text[132:133] '' --> ' '", + "insert text[75:75] --> decoded_text[134:135] '' --> ' '", + "insert text[76:76] --> decoded_text[136:137] '' --> ' '", + "insert text[77:77] --> decoded_text[138:139] '' --> ' '", + "insert text[78:78] --> decoded_text[140:141] '' --> ' '", + "insert text[79:79] --> decoded_text[142:143] '' --> ' '", + "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[148:149] '' --> ' '", + "insert text[83:83] --> decoded_text[150:151] '' --> ' '", + "insert text[84:84] --> decoded_text[152:153] '' --> ' '", + "insert text[85:85] --> decoded_text[154:155] '' --> ' '", + "insert text[86:86] --> decoded_text[156:157] '' --> ' '", + "insert text[87:87] --> decoded_text[158:159] '' --> ' '", + "insert text[88:88] --> decoded_text[160:161] '' --> ' '", + "insert text[89:89] --> decoded_text[162:163] '' --> ' '", + "insert text[90:90] --> decoded_text[164:165] '' --> ' '", + "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[170:171] '' --> ' '", + "insert text[94:94] --> decoded_text[172:173] '' --> ' '", + "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", + "insert text[97:97] --> decoded_text[178:179] '' --> ' '", + "insert text[98:98] --> decoded_text[180:181] '' --> ' '", + "insert text[99:99] --> decoded_text[182:183] '' --> ' '", + "insert text[100:100] --> decoded_text[184:185] '' --> ' '", + "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[190:191] '' --> ' '", + "insert text[104:104] --> decoded_text[192:193] '' --> ' '", + "insert text[105:105] --> decoded_text[194:195] '' --> ' '", + "insert text[106:106] --> decoded_text[196:197] '' --> ' '", + "insert text[107:107] --> decoded_text[198:199] '' --> ' '", + "insert text[108:108] --> decoded_text[200:201] '' --> ' '", + "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[206:207] '' --> ' '", + "insert text[112:112] --> decoded_text[208:209] '' --> ' '", + "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", + "insert text[115:115] --> decoded_text[214:215] '' --> ' '", + "insert text[116:116] --> decoded_text[216:217] '' --> ' '", + "insert text[117:117] --> decoded_text[218:219] '' --> ' '", + "insert text[118:118] --> decoded_text[220:221] '' --> ' '", + "insert text[119:119] --> decoded_text[222:223] '' --> ' '", + "insert text[120:120] --> decoded_text[224:225] '' --> ' '", + "insert text[121:121] --> decoded_text[226:227] '' --> ' '", + "insert text[122:122] --> decoded_text[228:229] '' --> ' '", + "insert text[123:123] --> decoded_text[230:231] '' --> ' '", + "insert text[124:124] --> decoded_text[232:233] '' --> ' '", + "insert text[125:125] --> decoded_text[234:235] '' --> ' '", + "insert text[126:126] --> decoded_text[236:237] '' --> ' '", + "insert text[127:127] --> decoded_text[238:239] '' --> ' '", + "insert text[128:128] --> decoded_text[240:241] '' --> ' '", + "insert text[129:129] --> decoded_text[242:243] '' --> ' '", + "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", + "insert text[134:134] --> decoded_text[251:252] '' --> ' '", + "insert text[135:135] --> decoded_text[253:254] '' --> ' '", + "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", + "insert text[138:138] --> decoded_text[259:260] '' --> ' '", + "insert text[139:139] --> decoded_text[261:262] '' --> ' '", + "insert text[140:140] --> decoded_text[263:264] '' --> ' '", + "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[269:270] '' --> ' '", + "insert text[144:144] --> decoded_text[271:272] '' --> ' '", + "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[277:278] '' --> ' '", + "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", + "insert text[150:150] --> decoded_text[283:284] '' --> ' '", + "insert text[151:151] --> decoded_text[285:286] '' --> ' '", + "insert text[152:152] --> decoded_text[287:288] '' --> ' '", + "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[293:294] '' --> ' '", + "insert text[156:156] --> decoded_text[295:296] '' --> ' '", + "insert text[157:157] --> decoded_text[297:298] '' --> ' '", + "insert text[158:158] --> decoded_text[299:300] '' --> ' '", + "insert text[159:159] --> decoded_text[301:302] '' --> ' '", + "insert text[163:163] --> decoded_text[306:307] '' --> ' '", + "insert text[164:164] --> decoded_text[308:309] '' --> ' '", + "insert text[165:165] --> decoded_text[310:311] '' --> ' '", + "insert text[166:166] --> decoded_text[312:313] '' --> ' '", + "insert text[167:167] --> decoded_text[314:315] '' --> ' '", + "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", + "insert text[170:170] --> decoded_text[320:321] '' --> ' '", + "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[328:329] '' --> ' '", + "insert text[175:175] --> decoded_text[330:331] '' --> ' '", + "insert text[176:176] --> decoded_text[332:333] '' --> ' '", + "insert text[177:177] --> decoded_text[334:335] '' --> ' '", + "insert text[178:178] --> decoded_text[336:337] '' --> ' '", + "insert text[179:179] --> decoded_text[338:339] '' --> ' '", + "insert text[180:180] --> decoded_text[340:341] '' --> ' '", + "insert text[181:181] --> decoded_text[342:343] '' --> ' '", + "insert text[182:182] --> decoded_text[344:345] '' --> ' '", + "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", + "insert text[185:185] --> decoded_text[350:351] '' --> ' '", + "insert text[186:186] --> decoded_text[352:353] '' --> ' '", + "insert text[187:187] --> decoded_text[354:355] '' --> ' '", + "insert text[188:188] --> decoded_text[356:357] '' --> ' '", + "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[362:363] '' --> ' '", + "insert text[192:192] --> decoded_text[364:365] '' --> ' '", + "insert text[193:193] --> decoded_text[366:367] '' --> ' '", + "insert text[194:194] --> decoded_text[368:369] '' --> ' '", + "insert text[195:195] --> decoded_text[370:371] '' --> ' '", + "insert text[196:196] --> decoded_text[372:373] '' --> ' '", + "insert text[206:206] --> decoded_text[383:384] '' --> ' '", + "insert text[207:207] --> decoded_text[385:386] '' --> ' '", + "insert text[211:211] --> decoded_text[390:391] '' --> ' '", + "insert text[212:212] --> decoded_text[392:393] '' --> ' '", + "insert text[213:213] --> decoded_text[394:395] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"・\", \"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "insert text[12:12] --> decoded_text[24:25] '' --> ' '", + "insert text[13:13] --> decoded_text[26:27] '' --> ' '", + "insert text[14:14] --> decoded_text[28:29] '' --> ' '", + "insert text[15:15] --> decoded_text[30:31] '' --> ' '", + "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[42:43] '' --> ' '", + "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[48:49] '' --> ' '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "insert text[26:26] --> decoded_text[52:53] '' --> ' '", + "insert text[27:27] --> decoded_text[54:55] '' --> ' '", + "insert text[28:28] --> decoded_text[56:57] '' --> ' '", + "insert text[29:29] --> decoded_text[58:59] '' --> ' '", + "insert text[30:30] --> decoded_text[60:61] '' --> ' '", + "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[68:69] '' --> ' '", + "insert text[35:35] --> decoded_text[70:71] '' --> ' '", + "insert text[36:36] --> decoded_text[72:73] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '", + "insert text[40:40] --> decoded_text[80:81] '' --> ' '", + "insert text[41:41] --> decoded_text[82:83] '' --> ' '", + "insert text[42:42] --> decoded_text[84:85] '' --> ' '", + "insert text[43:43] --> decoded_text[86:87] '' --> ' '", + "insert text[44:44] --> decoded_text[88:89] '' --> ' '", + "insert text[45:45] --> decoded_text[90:91] '' --> ' '", + "insert text[46:46] --> decoded_text[92:93] '' --> ' '", + "insert text[47:47] --> decoded_text[94:95] '' --> ' '", + "insert text[48:48] --> decoded_text[96:97] '' --> ' '", + "insert text[49:49] --> decoded_text[98:99] '' --> ' '", + "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[104:105] '' --> ' '", + "insert text[53:53] --> decoded_text[106:107] '' --> ' '", + "insert text[54:54] --> decoded_text[108:109] '' --> ' '", + "insert text[55:55] --> decoded_text[110:111] '' --> ' '", + "insert text[56:56] --> decoded_text[112:113] '' --> ' '", + "insert text[57:57] --> decoded_text[114:115] '' --> ' '", + "insert text[58:58] --> decoded_text[116:117] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> ' '", + "insert text[60:60] --> decoded_text[120:121] '' --> ' '", + "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[126:127] '' --> ' '", + "insert text[64:64] --> decoded_text[128:129] '' --> ' '", + "insert text[65:65] --> decoded_text[130:131] '' --> ' '", + "insert text[66:66] --> decoded_text[132:133] '' --> ' '", + "insert text[67:67] --> decoded_text[134:135] '' --> ' '", + "insert text[68:68] --> decoded_text[136:137] '' --> ' '", + "insert text[69:69] --> decoded_text[138:139] '' --> ' '", + "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[75:75] --> decoded_text[150:151] '' --> ' '", + "insert text[76:76] --> decoded_text[152:153] '' --> ' '", + "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[166:167] '' --> ' '", + "insert text[84:84] --> decoded_text[168:169] '' --> ' '", + "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[174:175] '' --> ' '", + "insert text[88:88] --> decoded_text[176:177] '' --> ' '", + "insert text[89:89] --> decoded_text[178:179] '' --> ' '", + "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[192:193] '' --> ' '", + "insert text[97:97] --> decoded_text[194:195] '' --> ' '", + "insert text[98:98] --> decoded_text[196:197] '' --> ' '", + "insert text[99:99] --> decoded_text[198:199] '' --> ' '", + "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[204:205] '' --> ' '", + "insert text[103:103] --> decoded_text[206:207] '' --> ' '", + "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[218:219] '' --> ' '", + "insert text[110:110] --> decoded_text[220:221] '' --> ' '", + "insert text[111:111] --> decoded_text[222:223] '' --> ' '", + "insert text[112:112] --> decoded_text[224:225] '' --> ' '", + "insert text[113:113] --> decoded_text[226:227] '' --> ' '", + "insert text[114:114] --> decoded_text[228:229] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"・\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", + "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[221:228] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[229:234] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[235:236] '' --> ' '", + "replace text[117:118] --> decoded_text[237:240] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[241:242] '' --> ' '", + "insert text[120:120] --> decoded_text[243:244] '' --> ' '", + "replace text[121:122] --> decoded_text[245:248] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[249:250] '' --> ' '", + "insert text[124:124] --> decoded_text[251:252] '' --> ' '", + "insert text[125:125] --> decoded_text[253:254] '' --> ' '", + "replace text[126:131] --> decoded_text[255:266] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[267:268] '' --> ' '", + "insert text[133:133] --> decoded_text[269:270] '' --> ' '", + "insert text[134:134] --> decoded_text[271:272] '' --> ' '", + "insert text[135:135] --> decoded_text[273:274] '' --> ' '", + "replace text[136:137] --> decoded_text[275:277] '。' --> ' 。'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0072992700729927005, + "oov_charset": "[\"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 [UNK] , 还 “ 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "replace text[24:26] --> decoded_text[47:56] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[57:58] '' --> ' '", + "replace text[28:29] --> decoded_text[59:62] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[63:64] '' --> ' '", + "insert text[31:31] --> decoded_text[65:66] '' --> ' '", + "insert text[32:32] --> decoded_text[67:68] '' --> ' '", + "insert text[33:33] --> decoded_text[69:70] '' --> ' '", + "insert text[34:34] --> decoded_text[71:72] '' --> ' '", + "insert text[35:35] --> decoded_text[73:74] '' --> ' '", + "insert text[36:36] --> decoded_text[75:76] '' --> ' '", + "insert text[37:37] --> decoded_text[77:78] '' --> ' '", + "replace text[38:40] --> decoded_text[79:84] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[85:86] '' --> ' '", + "replace text[42:43] --> decoded_text[87:90] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[91:92] '' --> ' '", + "insert text[45:45] --> decoded_text[93:94] '' --> ' '", + "insert text[46:46] --> decoded_text[95:96] '' --> ' '", + "insert text[47:47] --> decoded_text[97:98] '' --> ' '", + "insert text[48:48] --> decoded_text[99:100] '' --> ' '", + "insert text[49:49] --> decoded_text[101:102] '' --> ' '", + "insert text[50:50] --> decoded_text[103:104] '' --> ' '", + "insert text[51:51] --> decoded_text[105:106] '' --> ' '", + "insert text[52:52] --> decoded_text[107:108] '' --> ' '", + "replace text[53:54] --> decoded_text[109:112] ',' --> ' , '", + "insert text[55:55] --> decoded_text[113:114] '' --> ' '", + "insert text[56:56] --> decoded_text[115:116] '' --> ' '", + "insert text[57:57] --> decoded_text[117:118] '' --> ' '", + "replace text[58:59] --> decoded_text[119:122] ',' --> ' , '", + "insert text[60:60] --> decoded_text[123:124] '' --> ' '", + "insert text[61:61] --> decoded_text[125:126] '' --> ' '", + "replace text[62:64] --> decoded_text[127:132] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[133:136] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[137:138] '' --> ' '", + "insert text[68:68] --> decoded_text[139:140] '' --> ' '", + "replace text[69:70] --> decoded_text[141:144] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[145:146] '' --> ' '", + "replace text[72:73] --> decoded_text[147:154] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[155:156] '' --> ' '", + "insert text[75:75] --> decoded_text[157:158] '' --> ' '", + "insert text[76:76] --> decoded_text[159:160] '' --> ' '", + "insert text[77:77] --> decoded_text[161:162] '' --> ' '", + "insert text[78:78] --> decoded_text[163:164] '' --> ' '", + "insert text[79:79] --> decoded_text[165:166] '' --> ' '", + "insert text[80:80] --> decoded_text[167:168] '' --> ' '", + "insert text[81:81] --> decoded_text[169:170] '' --> ' '", + "insert text[82:82] --> decoded_text[171:172] '' --> ' '", + "insert text[83:83] --> decoded_text[173:174] '' --> ' '", + "insert text[84:84] --> decoded_text[175:176] '' --> ' '", + "insert text[85:85] --> decoded_text[177:178] '' --> ' '", + "insert text[86:86] --> decoded_text[179:180] '' --> ' '", + "insert text[87:87] --> decoded_text[181:182] '' --> ' '", + "insert text[88:88] --> decoded_text[183:184] '' --> ' '", + "replace text[89:90] --> decoded_text[185:188] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[189:190] '' --> ' '", + "insert text[92:92] --> decoded_text[191:192] '' --> ' '", + "insert text[93:93] --> decoded_text[193:194] '' --> ' '", + "insert text[94:94] --> decoded_text[195:196] '' --> ' '", + "replace text[95:96] --> decoded_text[197:200] ',' --> ' , '", + "insert text[97:97] --> decoded_text[201:202] '' --> ' '", + "insert text[98:98] --> decoded_text[203:204] '' --> ' '", + "insert text[99:99] --> decoded_text[205:206] '' --> ' '", + "insert text[100:100] --> decoded_text[207:208] '' --> ' '", + "insert text[101:101] --> decoded_text[209:210] '' --> ' '", + "insert text[102:102] --> decoded_text[211:212] '' --> ' '", + "insert text[103:103] --> decoded_text[213:214] '' --> ' '", + "insert text[104:104] --> decoded_text[215:216] '' --> ' '", + "insert text[105:105] --> decoded_text[217:218] '' --> ' '", + "insert text[106:106] --> decoded_text[219:220] '' --> ' '", + "replace text[107:108] --> decoded_text[221:224] ',' --> ' , '", + "insert text[109:109] --> decoded_text[225:226] '' --> ' '", + "replace text[110:112] --> decoded_text[227:232] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[233:234] '' --> ' '", + "insert text[114:114] --> decoded_text[235:236] '' --> ' '", + "insert text[115:115] --> decoded_text[237:238] '' --> ' '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "insert text[118:118] --> decoded_text[243:244] '' --> ' '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "replace text[120:122] --> decoded_text[247:256] '”,' --> ' [UNK] , '", + "insert text[123:123] --> decoded_text[257:258] '' --> ' '", + "insert text[124:124] --> decoded_text[259:260] '' --> ' '", + "replace text[125:126] --> decoded_text[261:268] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[269:270] '' --> ' '", + "insert text[128:128] --> decoded_text[271:272] '' --> ' '", + "insert text[129:129] --> decoded_text[273:274] '' --> ' '", + "insert text[130:130] --> decoded_text[275:276] '' --> ' '", + "insert text[131:131] --> decoded_text[277:278] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"’\", \"”\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4a97ff2230823a353878e7cdda083198c81f6093 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ar.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "diff": [ + "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'", + "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a54fd4411a585061beb54f978cf1e633378ab0f9 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.de.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?", + "diff": [ + "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.", + "diff": [ + "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.", + "diff": [ + "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,", + "diff": [ + "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.00392156862745098, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.", + "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.", + "diff": [ + "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007194244604316547, + "oov_charset": "[\"¼\"]" + }, + { + "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.", + "diff": [ + "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005847953216374269, + "oov_charset": "[\"¼\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ea704b00b050672bf084a1d2fa27862b13ea7605 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7d18eb94764ac8a356394d286cc19e13442113b1 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fa.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن....عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''", + "replace text[99:101] --> decoded_text[98:101] ' …' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009009009009009009, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02702702702702703, + "oov_charset": "[\"!\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"1\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "diff": [ + "replace text[35:36] --> decoded_text[35:36] '5' --> '5'", + "replace text[51:52] --> decoded_text[51:52] '1' --> '1'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03125, + "oov_charset": "[\"5\", \"1\"]" + }, + { + "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。", + "diff": [ + "replace text[30:32] --> decoded_text[30:36] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.024096385542168676, + "oov_charset": "[\"…\"]" + }, + { + "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。", + "diff": [ + "replace text[8:10] --> decoded_text[8:14] '……' --> '......'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"…\"]" + }, + { + "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] '!' --> '!'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"!\"]" + }, + { + "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023809523809523808, + "oov_charset": "[\"?\"]" + }, + { + "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] '1' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"1\"]" + }, + { + "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。", + "diff": [ + "replace text[36:37] --> decoded_text[36:37] '?' --> '?'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"?\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d2fa407bbd6b5d68fcde79aae085e45990acc23 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "언제나 좋은 글 감사합니다ㅡㅡ", + "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ", + "diff": [ + "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.125, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "좋은 자료 감사합니다ㅡ0ㅡ", + "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ", + "diff": [ + "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'", + "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.14285714285714285, + "oov_charset": "[\"ㅡ\"]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011363636363636364, + "oov_charset": "[\"⁴\"]" + }, + { + "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.023255813953488372, + "oov_charset": "[\"¹\"]" + }, + { + "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.", + "diff": [ + "replace text[19:20] --> decoded_text[19:22] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012048192771084338, + "oov_charset": "[\"…\"]" + }, + { + "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.", + "diff": [ + "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.010752688172043012, + "oov_charset": "[\"¹\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/cyberagent.open-calm-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..044739760e37c99a1d108edae638ac1276f4d243 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ar.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.", + "diff": [ + "delete text[45:46] --> decoded_text[45:45] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .", + "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان", + "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان", + "diff": [ + "delete text[825:826] --> decoded_text[825:825] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .", + "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.", + "diff": [ + "delete text[469:470] --> decoded_text[469:469] ' ' --> ''", + "delete text[720:721] --> decoded_text[719:719] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .", + "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.", + "diff": [ + "delete text[147:148] --> decoded_text[147:147] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...", + "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....", + "diff": [ + "delete text[183:184] --> decoded_text[183:183] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...", + "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...", + "diff": [ + "delete text[279:280] --> decoded_text[279:279] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة", + "diff": [ + "delete text[22:23] --> decoded_text[22:22] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .", + "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..346ef60e51451a7fcfd1d66b8194b576febd5e09 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.de.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !", + "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!", + "diff": [ + "delete text[67:68] --> decoded_text[67:67] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Laut dieser Studie sind es ....", + "decoded_text": "Laut dieser Studie sind es....", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...", + "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...", + "diff": [ + "delete text[78:79] --> decoded_text[78:78] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,", + "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.", + "diff": [ + "delete text[553:554] --> decoded_text[553:553] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.", + "diff": [ + "delete text[169:170] --> decoded_text[169:169] ' ' --> ''", + "delete text[218:219] --> decoded_text[217:217] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !", + "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !", + "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂", + "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂", + "diff": [ + "delete text[42:43] --> decoded_text[42:42] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !", + "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6e7e33df7d8b83b93e7de01ec45695b92cfc8353 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fa.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید", + "diff": [ + "delete text[82:83] --> decoded_text[82:82] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..", + "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..", + "diff": [ + "delete text[108:109] --> decoded_text[108:108] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)", + "diff": [ + "delete text[129:130] --> decoded_text[129:129] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.", + "diff": [ + "delete text[290:291] --> decoded_text[290:290] ' ' --> ''", + "delete text[621:622] --> decoded_text[620:620] ' ' --> ''", + "delete text[672:673] --> decoded_text[670:670] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...", + "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...", + "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...", + "diff": [ + "delete text[128:129] --> decoded_text[128:128] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...", + "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...", + "diff": [ + "delete text[123:124] --> decoded_text[123:123] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...", + "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.", + "diff": [ + "delete text[161:162] --> decoded_text[161:161] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش", + "diff": [ + "delete text[4:5] --> decoded_text[4:4] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9f0009ec60f4baf997b9a13aa566c6bb9776a5d7 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ja.diff.json @@ -0,0 +1,82 @@ +[ + { + "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...", + "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...", + "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...", + "diff": [ + "delete text[132:133] --> decoded_text[132:132] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...", + "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...", + "diff": [ + "delete text[131:132] --> decoded_text[131:131] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...", + "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...", + "diff": [ + "delete text[36:37] --> decoded_text[36:36] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...", + "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...", + "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...", + "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...", + "diff": [ + "delete text[40:41] --> decoded_text[40:40] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...", + "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...", + "diff": [ + "delete text[68:69] --> decoded_text[68:68] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0554a90957042a4d5225801b5924055cf53611a3 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.ko.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "diff": [ + "delete text[59:60] --> decoded_text[59:59] ' ' --> ''", + "delete text[64:65] --> decoded_text[63:63] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.", + "diff": [ + "delete text[28:29] --> decoded_text[28:28] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[86:87] --> decoded_text[85:85] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).", + "diff": [ + "delete text[33:34] --> decoded_text[33:33] ' ' --> ''", + "delete text[38:39] --> decoded_text[37:37] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는", + "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는", + "diff": [ + "delete text[62:63] --> decoded_text[62:62] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''", + "delete text[81:82] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....", + "diff": [ + "delete text[14:15] --> decoded_text[14:14] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/databricks.dbrx-instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d91c7f7dd01adbd376b91940494b2240ffec887e --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ar.diff.json @@ -0,0 +1,232 @@ +[ + { + "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)", + "decoded_text": "- [UNK] / [UNK] [UNK] [UNK] - [UNK] [UNK].. ( 1 )", + "diff": [ + "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'", + "replace text[11:14] --> decoded_text[10:15] 'علي' --> '[UNK]'", + "replace text[15:19] --> decoded_text[16:21] 'محمد' --> '[UNK]'", + "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> '[UNK]'", + "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> '[UNK]'", + "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> '[UNK]'", + "insert text[49:49] --> decoded_text[47:48] '' --> ' '" + ], + "n_oov_chars": 31, + "oov_ratio": 0.62, + "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]" + }, + { + "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..", + "decoded_text": "[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[99:247] --> decoded_text[93:250] 'ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[249:279] --> decoded_text[252:281] 'ومن اضطراب في نسيجها الاجتماعي' --> '[UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[281:389] --> decoded_text[283:398] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[391:525] --> decoded_text[400:537] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[527:785] --> decoded_text[539:798] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[787:884] --> decoded_text[800:897] 'عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '[UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[886:890] --> decoded_text[899:906] 'تردف' --> ' [UNK] '", + "replace text[892:966] --> decoded_text[908:987] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" + ], + "n_oov_chars": 776, + "oov_ratio": 0.8033126293995859, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]" + }, + { + "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:49] --> decoded_text[0:59] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[51:81] --> decoded_text[61:96] 'وما شهدته البلد من مواقف عديدة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[83:151] --> decoded_text[98:163] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[200:337] --> decoded_text[208:351] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 333, + "oov_ratio": 0.9823008849557522, + "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \" \", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]" + }, + { + "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'", + "replace text[6:12] --> decoded_text[6:11] 'الرسول' --> '[UNK]'", + "replace text[13:21] --> decoded_text[12:17] 'وأحاديثه' --> '[UNK]'", + "replace text[22:24] --> decoded_text[18:23] 'ما' --> '[UNK]'", + "replace text[25:27] --> decoded_text[24:29] 'هي' --> '[UNK]'", + "replace text[28:31] --> decoded_text[30:35] 'إلا' --> '[UNK]'", + "replace text[32:35] --> decoded_text[36:41] 'وحي' --> '[UNK]'", + "replace text[36:38] --> decoded_text[42:47] 'من' --> '[UNK]'", + "replace text[39:43] --> decoded_text[48:53] 'الله' --> '[UNK]'", + "replace text[46:51] --> decoded_text[56:61] 'بمعنى' --> '[UNK]'", + "replace text[52:54] --> decoded_text[62:67] 'أن' --> '[UNK]'", + "replace text[55:60] --> decoded_text[68:73] 'العمل' --> '[UNK]'", + "replace text[61:64] --> decoded_text[74:79] 'بما' --> '[UNK]'", + "replace text[65:69] --> decoded_text[80:85] 'قاله' --> '[UNK]'", + "replace text[70:76] --> decoded_text[86:91] 'الرسول' --> '[UNK]'", + "replace text[77:83] --> decoded_text[92:97] 'الأعظم' --> '[UNK]'", + "replace text[84:86] --> decoded_text[98:103] 'هو' --> '[UNK]'", + "replace text[87:94] --> decoded_text[104:109] 'مسؤولية' --> '[UNK]'", + "replace text[95:102] --> decoded_text[110:115] 'أخلاقية' --> '[UNK]'", + "replace text[103:109] --> decoded_text[116:121] 'ودينية' --> '[UNK]'", + "replace text[110:118] --> decoded_text[122:127] 'ومسؤولية' --> '[UNK]'", + "replace text[119:125] --> decoded_text[128:133] 'سياسية' --> '[UNK]'" + ], + "n_oov_chars": 123, + "oov_ratio": 0.968503937007874, + "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \" \", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]" + }, + { + "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'", + "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'", + "replace text[10:18] --> decoded_text[12:17] 'اليمنيين' --> '[UNK]'", + "replace text[19:26] --> decoded_text[18:23] 'القائمة' --> '[UNK]'", + "replace text[27:29] --> decoded_text[24:29] 'هي' --> '[UNK]'", + "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'", + "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'", + "replace text[41:44] --> decoded_text[43:48] 'وهل' --> '[UNK]'", + "replace text[45:47] --> decoded_text[49:54] 'من' --> '[UNK]'", + "replace text[48:54] --> decoded_text[55:60] 'الحكمة' --> '[UNK]'", + "replace text[55:57] --> decoded_text[61:66] 'أن' --> '[UNK]'", + "replace text[58:61] --> decoded_text[67:72] 'تظل' --> '[UNK]'", + "replace text[62:70] --> decoded_text[73:78] 'البندقية' --> '[UNK]'", + "replace text[71:79] --> decoded_text[79:84] 'والقذيفة' --> '[UNK]'", + "replace text[80:82] --> decoded_text[85:90] 'هي' --> '[UNK]'", + "replace text[83:88] --> decoded_text[91:96] 'وسيلة' --> '[UNK]'", + "replace text[89:95] --> decoded_text[97:102] 'الخطاب' --> '[UNK]'", + "replace text[96:103] --> decoded_text[103:108] 'والحوار' --> '[UNK]'", + "replace text[104:108] --> decoded_text[109:114] 'فيما' --> '[UNK]'", + "replace text[109:114] --> decoded_text[115:120] 'بيننا' --> '[UNK]'", + "replace text[115:118] --> decoded_text[121:126] 'نحن' --> '[UNK]'", + "replace text[119:124] --> decoded_text[127:132] 'أبناء' --> '[UNK]'", + "replace text[125:128] --> decoded_text[133:138] 'هذا' --> '[UNK]'", + "replace text[129:134] --> decoded_text[139:144] 'البلد' --> '[UNK]'", + "replace text[135:141] --> decoded_text[145:150] 'العظيم' --> '[UNK]'" + ], + "n_oov_chars": 140, + "oov_ratio": 0.9790209790209791, + "oov_charset": "[\"ف\", \"ه\", \"ل\", \" \", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]" + }, + { + "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'وهل' --> '[UNK]'", + "replace text[4:12] --> decoded_text[6:11] 'الانسياق' --> '[UNK]'", + "replace text[13:16] --> decoded_text[12:17] 'نحو' --> '[UNK]'", + "replace text[17:22] --> decoded_text[18:23] 'مزيدٍ' --> '[UNK]'", + "replace text[23:25] --> decoded_text[24:29] 'من' --> '[UNK]'", + "replace text[26:32] --> decoded_text[30:35] 'العناد' --> '[UNK]'", + "replace text[33:39] --> decoded_text[36:41] 'ومزيدٍ' --> '[UNK]'", + "replace text[40:42] --> decoded_text[42:47] 'من' --> '[UNK]'", + "replace text[43:51] --> decoded_text[48:53] 'الاحتقان' --> '[UNK]'", + "replace text[53:59] --> decoded_text[55:60] 'ومزيدٍ' --> '[UNK]'", + "replace text[60:62] --> decoded_text[61:66] 'من' --> '[UNK]'", + "replace text[63:71] --> decoded_text[67:72] 'الاحتراب' --> '[UNK]'", + "replace text[72:75] --> decoded_text[73:78] 'بين' --> '[UNK]'", + "replace text[76:81] --> decoded_text[79:84] 'أبناء' --> '[UNK]'", + "replace text[82:85] --> decoded_text[85:90] 'بلد' --> '[UNK]'", + "replace text[86:90] --> decoded_text[91:96] 'واحد' --> '[UNK]'", + "replace text[91:95] --> decoded_text[97:102] 'وشعب' --> '[UNK]'", + "replace text[96:100] --> decoded_text[103:108] 'واحد' --> '[UNK]'", + "replace text[101:105] --> decoded_text[109:114] 'يرضى' --> '[UNK]'", + "replace text[106:110] --> decoded_text[115:120] 'الله' --> '[UNK]'", + "replace text[111:117] --> decoded_text[121:126] 'ورسوله' --> '[UNK]'", + "replace text[118:124] --> decoded_text[127:132] 'الكريم' --> '[UNK]'", + "replace text[125:129] --> decoded_text[133:138] 'عليه' --> '[UNK]'", + "replace text[130:134] --> decoded_text[139:144] 'صلاة' --> '[UNK]'", + "replace text[135:139] --> decoded_text[145:150] 'الله' --> '[UNK]'", + "replace text[140:146] --> decoded_text[151:156] 'وسلامه' --> '[UNK]'", + "replace text[147:151] --> decoded_text[157:162] 'وعلى' --> '[UNK]'", + "replace text[152:155] --> decoded_text[163:168] 'آله' --> '[UNK]'" + ], + "n_oov_chars": 154, + "oov_ratio": 0.9808917197452229, + "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]" + }, + { + "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] - [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..", + "diff": [ + "replace text[0:84] --> decoded_text[0:110] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] '", + "replace text[86:107] --> decoded_text[112:135] 'وهو بلد ولاَّد بالخير' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[109:118] --> decoded_text[137:148] 'إلى أطلال' --> '[UNK] [UNK]'", + "replace text[120:175] --> decoded_text[150:209] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[177:226] --> decoded_text[211:266] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'" + ], + "n_oov_chars": 176, + "oov_ratio": 0.7787610619469026, + "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]" + }, + { + "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!", + "diff": [ + "replace text[0:96] --> decoded_text[0:95] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[98:118] --> decoded_text[97:120] 'لم يسلموا ولن يسلموا' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[121:150] --> decoded_text[123:146] 'والأعباء والمتاعب طالت الجميع' --> '[UNK] [UNK] [UNK] [UNK]'", + "replace text[152:280] --> decoded_text[148:279] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[282:392] --> decoded_text[281:394] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[394:403] --> decoded_text[396:407] 'أو أبوظبي' --> '[UNK] [UNK]'", + "replace text[405:406] --> decoded_text[409:415] '؟' --> ' [UNK]'" + ], + "n_oov_chars": 398, + "oov_ratio": 0.9778869778869779, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]" + }, + { + "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]!!", + "diff": [ + "replace text[0:118] --> decoded_text[0:131] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'", + "replace text[121:245] --> decoded_text[134:271] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 243, + "oov_ratio": 0.9838056680161943, + "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]" + }, + { + "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..", + "decoded_text": "[UNK].. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK], [UNK], [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'اليمن' --> '[UNK]'", + "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'", + "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'", + "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'", + "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'", + "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'", + "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'", + "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'", + "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'", + "replace text[55:60] --> decoded_text[58:63] 'مدمرة' --> '[UNK]'", + "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'", + "replace text[71:76] --> decoded_text[72:77] 'ويباد' --> '[UNK]'", + "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'", + "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'", + "replace text[94:99] --> decoded_text[92:97] 'اليمن' --> '[UNK]'", + "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'", + "replace text[108:112] --> decoded_text[104:109] 'لعنة' --> '[UNK]'", + "replace text[113:121] --> decoded_text[110:115] 'الارتزاق' --> '[UNK]'", + "replace text[122:130] --> decoded_text[116:121] 'وابتلاها' --> '[UNK]'", + "replace text[131:135] --> decoded_text[122:127] 'الله' --> '[UNK]'", + "replace text[136:143] --> decoded_text[128:133] 'بقيادات' --> '[UNK]'", + "replace text[144:148] --> decoded_text[134:139] 'يممت' --> '[UNK]'", + "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'", + "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'", + "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'", + "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'", + "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'", + "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'", + "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'", + "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'" + ], + "n_oov_chars": 182, + "oov_ratio": 0.9381443298969072, + "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..14b218a13ea6cd4cae5eaa9ecca19a0cc5ff06ab --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.de.diff.json @@ -0,0 +1,213 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.", + "diff": [ + "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'", + "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'", + "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'", + "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '", + "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '", + "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'", + "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'", + "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'", + "insert text[120:120] --> decoded_text[127:128] '' --> ' '", + "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '", + "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'", + "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'", + "insert text[199:199] --> decoded_text[208:209] '' --> ' '", + "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'", + "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'", + "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.08571428571428572, + "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'", + "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'", + "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'", + "insert text[74:74] --> decoded_text[77:78] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de", + "diff": [ + "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'", + "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'", + "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'", + "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'", + "insert text[62:62] --> decoded_text[62:63] '' --> ' '", + "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'", + "insert text[66:66] --> decoded_text[67:68] '' --> ' '", + "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'", + "insert text[75:75] --> decoded_text[78:79] '' --> ' '", + "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'", + "insert text[91:91] --> decoded_text[96:97] '' --> ' '", + "insert text[92:92] --> decoded_text[98:99] '' --> ' '", + "insert text[93:93] --> decoded_text[100:101] '' --> ' '", + "insert text[94:94] --> decoded_text[102:103] '' --> ' '", + "insert text[101:101] --> decoded_text[110:111] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.06796116504854369, + "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'", + "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'", + "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'", + "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'", + "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.12, + "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'", + "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'", + "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'", + "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'", + "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'", + "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'", + "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '", + "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '", + "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'", + "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'", + "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'", + "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'", + "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'", + "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'", + "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'", + "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'", + "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'" + ], + "n_oov_chars": 41, + "oov_ratio": 0.06047197640117994, + "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'", + "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'", + "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'", + "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'", + "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'", + "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'", + "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'", + "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'", + "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'", + "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'", + "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'" + ], + "n_oov_chars": 24, + "oov_ratio": 0.05429864253393665, + "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.", + "diff": [ + "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'", + "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'", + "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'", + "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'", + "insert text[176:176] --> decoded_text[176:177] '' --> ' '", + "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'", + "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'", + "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'", + "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'", + "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'", + "insert text[394:394] --> decoded_text[395:396] '' --> ' '", + "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.053830227743271224, + "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]" + }, + { + "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,", + "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'", + "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'", + "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'", + "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'", + "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.07407407407407407, + "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;", + "diff": [ + "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'", + "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'", + "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'", + "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'", + "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'", + "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'", + "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'", + "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'", + "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'", + "insert text[188:188] --> decoded_text[188:189] '' --> ' '" + ], + "n_oov_chars": 10, + "oov_ratio": 0.05291005291005291, + "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;", + "diff": [ + "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'", + "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'", + "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'", + "insert text[87:87] --> decoded_text[87:88] '' --> ' '", + "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'", + "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'", + "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'", + "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'", + "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'", + "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'", + "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'", + "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'", + "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'", + "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'", + "insert text[188:188] --> decoded_text[190:191] '' --> ' '", + "insert text[189:189] --> decoded_text[192:193] '' --> ' '" + ], + "n_oov_chars": 13, + "oov_ratio": 0.06842105263157895, + "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6c12c1388eb6aa809e6330a8e32781424dce53a1 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.en.diff.json @@ -0,0 +1,172 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a41364ca331616aa48c554033ea4b69ffc857be7 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.es.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..dc9f25ce07713b1313887bad889b62bfca32a7ea --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fa.diff.json @@ -0,0 +1,171 @@ +[ + { + "text": "آشپزخانه کوچک من: February 2012", + "decoded_text": "[UNK] [UNK] [UNK] : february 2012", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "replace text[14:16] --> decoded_text[12:18] 'من' --> '[UNK] '", + "replace text[18:19] --> decoded_text[20:21] 'F' --> 'f'" + ], + "n_oov_chars": 15, + "oov_ratio": 0.4838709677419355, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\", \"F\"]" + }, + { + "text": "آشپزخانه کوچک من", + "decoded_text": "[UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'", + "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'", + "replace text[14:16] --> decoded_text[12:17] 'من' --> '[UNK]'" + ], + "n_oov_chars": 16, + "oov_ratio": 1.0, + "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \" \", \"ک\", \"و\", \"چ\", \"م\"]" + }, + { + "text": "بکینگ پودر:2 قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'", + "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '", + "insert text[11:11] --> decoded_text[13:14] '' --> ' '", + "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'", + "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'", + "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.7692307692307693, + "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]" + }, + { + "text": "تخم مرغ:2 عدد بزرگ", + "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'", + "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '", + "insert text[8:8] --> decoded_text[13:14] '' --> ' '", + "replace text[10:13] --> decoded_text[16:21] 'عدد' --> '[UNK]'", + "replace text[14:18] --> decoded_text[22:27] 'بزرگ' --> '[UNK]'" + ], + "n_oov_chars": 13, + "oov_ratio": 0.7222222222222222, + "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]" + }, + { + "text": "کره:225 گرم به دمای اتاق رسیده", + "decoded_text": "[UNK] : 225 [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'", + "replace text[12:14] --> decoded_text[18:23] 'به' --> '[UNK]'", + "replace text[15:19] --> decoded_text[24:29] 'دمای' --> '[UNK]'", + "replace text[20:24] --> decoded_text[30:35] 'اتاق' --> '[UNK]'", + "replace text[25:30] --> decoded_text[36:41] 'رسیده' --> '[UNK]'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.7, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]" + }, + { + "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری", + "decoded_text": "[UNK] : [UNK] / 2 [UNK] + 3 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '", + "replace text[4:7] --> decoded_text[7:14] '1و1' --> ' [UNK] '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "replace text[10:16] --> decoded_text[18:24] 'پیمانه' --> '[UNK] '", + "replace text[20:24] --> decoded_text[28:33] 'قاشق' --> '[UNK]'", + "replace text[25:28] --> decoded_text[34:39] 'غذا' --> '[UNK]'", + "replace text[29:33] --> decoded_text[40:45] 'خوری' --> '[UNK]'" + ], + "n_oov_chars": 21, + "oov_ratio": 0.6363636363636364, + "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]" + }, + { + "text": "پودر دارچین:2 و1/2قاشق چای خوری", + "decoded_text": "[UNK] [UNK] : 2 [UNK] / [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'", + "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '", + "insert text[12:12] --> decoded_text[13:14] '' --> ' '", + "replace text[14:16] --> decoded_text[16:22] 'و1' --> '[UNK] '", + "delete text[17:22] --> decoded_text[23:23] '2قاشق' --> ''", + "replace text[23:26] --> decoded_text[24:29] 'چای' --> '[UNK]'", + "replace text[27:31] --> decoded_text[30:41] 'خوری' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 22, + "oov_ratio": 0.7096774193548387, + "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]" + }, + { + "text": "فر رو روی 350 درجه فارنهایت روشن کنید", + "decoded_text": "[UNK] [UNK] [UNK] 350 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] 'رو' --> '[UNK]'", + "replace text[6:9] --> decoded_text[12:17] 'روی' --> '[UNK]'", + "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '[UNK]'", + "replace text[19:27] --> decoded_text[28:33] 'فارنهایت' --> '[UNK]'", + "replace text[28:32] --> decoded_text[34:39] 'روشن' --> '[UNK]'", + "replace text[33:37] --> decoded_text[40:45] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 34, + "oov_ratio": 0.918918918918919, + "oov_charset": "[\"ف\", \"ر\", \" \", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]" + }, + { + "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'", + "replace text[4:6] --> decoded_text[6:11] 'رو' --> '[UNK]'", + "replace text[7:9] --> decoded_text[12:17] 'با' --> '[UNK]'", + "replace text[10:13] --> decoded_text[18:23] 'شکر' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] 'هم' --> '[UNK]'", + "replace text[17:22] --> decoded_text[30:35] 'بزنید' --> '[UNK]'", + "replace text[23:25] --> decoded_text[36:41] 'تا' --> '[UNK]'", + "replace text[26:31] --> decoded_text[42:47] 'یکدست' --> '[UNK]'", + "replace text[32:33] --> decoded_text[48:53] 'و' --> '[UNK]'", + "replace text[34:38] --> decoded_text[54:59] 'کرمی' --> '[UNK]'", + "replace text[39:42] --> decoded_text[60:65] 'بشه' --> '[UNK]'", + "replace text[43:46] --> decoded_text[66:71] 'تخم' --> '[UNK]'", + "replace text[47:52] --> decoded_text[72:77] 'مرغها' --> '[UNK]'", + "replace text[53:55] --> decoded_text[78:83] 'رو' --> '[UNK]'", + "replace text[56:60] --> decoded_text[84:89] 'دونه' --> '[UNK]'", + "replace text[61:65] --> decoded_text[90:95] 'دونه' --> '[UNK]'", + "replace text[66:71] --> decoded_text[96:101] 'اضافه' --> '[UNK]'", + "replace text[72:76] --> decoded_text[102:107] 'کنید' --> '[UNK]'", + "replace text[77:78] --> decoded_text[108:113] 'و' --> '[UNK]'", + "replace text[79:81] --> decoded_text[114:119] 'هم' --> '[UNK]'", + "replace text[82:87] --> decoded_text[120:125] 'بزنید' --> '[UNK]'" + ], + "n_oov_chars": 87, + "oov_ratio": 1.0, + "oov_charset": "[\"ک\", \"ر\", \"ه\", \" \", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]" + }, + { + "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'ارد' --> '[UNK]'", + "replace text[4:5] --> decoded_text[6:11] 'و' --> '[UNK]'", + "replace text[6:11] --> decoded_text[12:17] 'بکینگ' --> '[UNK]'", + "replace text[12:16] --> decoded_text[18:23] 'پودر' --> '[UNK]'", + "replace text[17:18] --> decoded_text[24:29] 'و' --> '[UNK]'", + "replace text[19:22] --> decoded_text[30:35] 'نمک' --> '[UNK]'", + "replace text[23:25] --> decoded_text[36:41] 'رو' --> '[UNK]'", + "replace text[26:29] --> decoded_text[42:47] 'الک' --> '[UNK]'", + "replace text[30:34] --> decoded_text[48:53] 'کنید' --> '[UNK]'", + "replace text[35:36] --> decoded_text[54:59] 'و' --> '[UNK]'", + "replace text[37:42] --> decoded_text[60:65] 'اضافه' --> '[UNK]'", + "replace text[43:47] --> decoded_text[66:71] 'کنید' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 1.0, + "oov_charset": "[\"ا\", \"ر\", \"د\", \" \", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..40740d2c17d1cf8fb9cd3e64f6345aff9409f678 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ja.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:37] --> decoded_text[0:125] '午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 37, + "oov_ratio": 1.0, + "oov_charset": "[\"午\", \"後\", \"か\", \"ら\", \"雨\", \"が\", \"心\", \"配\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"出\", \"は\", \"せ\", \"ず\", \"、\", \"『\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"』\", \"を\", \"走\", \"て\", \"来\", \"ま\", \"し\", \"!\"]" + }, + { + "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:67] --> decoded_text[0:209] '確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 67, + "oov_ratio": 1.0, + "oov_charset": "[\"確\", \"実\", \"に\", \"春\", \"が\", \"近\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"肌\", \"で\", \"感\", \"じ\", \"出\", \"来\", \"ま\", \"し\", \"た\", \" \", \"着\", \"々\", \"整\", \"備\", \"さ\", \"れ\", \"圏\", \"央\", \"道\", \"越\", \"え\", \"お\", \"世\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\", \"。\"]" + }, + { + "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:46] --> decoded_text[0:119] 'うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 46, + "oov_ratio": 1.0, + "oov_charset": "[\"う\", \"ぅ\", \"〜\", \"、\", \"私\", \"が\", \"途\", \"中\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"行\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"通\", \"り\", \"道\", \"あ\", \"ケ\", \"ン\", \"タ\", \"変\", \"更\", \"ち\", \"ゃ\", \"。\"]" + }, + { + "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:49] --> decoded_text[0:185] '実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 49, + "oov_ratio": 1.0, + "oov_charset": "[\"実\", \"は\", \"、\", \"1\", \"年\", \"程\", \"前\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"右\", \"目\", \"黒\", \"端\", \"よ\", \"〜\", \"く\", \"見\", \"な\", \"い\", \"と\", \"分\", \"か\", \"ら\", \"小\", \"さ\", \"斑\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\", \"。\"]" + }, + { + "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:101] 'その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 43, + "oov_ratio": 1.0, + "oov_charset": "[\"そ\", \"の\", \"時\", \"点\", \"で\", \"先\", \"生\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"『\", \"角\", \"膜\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"』\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"断\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\", \"。\"]" + }, + { + "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:95] 'エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 42, + "oov_ratio": 0.9767441860465116, + "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"合\", \"は\", \"年\", \"程\", \"経\", \"過\", \"し\", \"て\", \"徐\", \"々\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"、\", \"少\", \"大\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]" + }, + { + "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:60] --> decoded_text[0:125] 'ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 60, + "oov_ratio": 1.0, + "oov_charset": "[\"た\", \"だ\", \"、\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"散\", \"歩\", \"仲\", \"間\", \"か\", \"ら\", \"は\", \"指\", \"摘\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"言\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"目\", \"立\", \"つ\", \"程\", \"す\", \"ど\", \"ね\", \"。\"]" + }, + { + "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:40] --> decoded_text[0:101] '昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 40, + "oov_ratio": 1.0, + "oov_charset": "[\"昔\", \"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"酸\", \"の\", \"目\", \"薬\", \"な\", \"ど\", \"も\", \"処\", \"方\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"、\", \"こ\", \"効\", \"く\", \"事\", \"い\", \"そ\", \"。\"]" + }, + { + "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:27] --> decoded_text[0:5] 'なので、エルディとのお散歩でも訪れたことがありません。' --> '[UNK]'", + "replace text[28:64] --> decoded_text[6:155] 'カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 64, + "oov_ratio": 1.0, + "oov_charset": "[\"な\", \"の\", \"で\", \"、\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"散\", \"歩\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"。\", \" \", \"カ\", \"タ\", \"ク\", \"リ\", \"花\", \"5\", \"分\", \"咲\", \"き\", \"情\", \"報\", \"か\", \"ら\", \"今\", \"回\", \"コ\", \"ー\", \"ス\", \"1\", \"つ\", \"に\", \"取\", \"入\", \"て\", \"み\", \"し\"]" + }, + { + "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:71] --> decoded_text[0:125] '前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 71, + "oov_ratio": 1.0, + "oov_charset": "[\"前\", \"々\", \"か\", \"ら\", \"走\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"、\", \"い\", \"つ\", \"も\", \"陸\", \"上\", \"部\", \"し\", \"き\", \"学\", \"生\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"駆\", \"抜\", \"く\", \"を\", \"目\", \"当\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..e6fd13c2ce26f04099767db90c454baa0c1aa023 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.ko.diff.json @@ -0,0 +1,259 @@ +[ + { + "text": "+ HOME > 라이브스코어", + "decoded_text": "+ home > [UNK]", + "diff": [ + "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'", + "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.6666666666666666, + "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]" + }, + { + "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.", + "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'", + "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "delete text[9:12] --> decoded_text[16:16] '17번' --> ''", + "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'", + "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'", + "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'", + "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'", + "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 26, + "oov_ratio": 0.65, + "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]" + }, + { + "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.", + "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'", + "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '", + "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''", + "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'", + "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'", + "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'", + "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'", + "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'", + "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'", + "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'", + "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'", + "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'", + "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'", + "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'", + "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'", + "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'" + ], + "n_oov_chars": 47, + "oov_ratio": 0.7230769230769231, + "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]" + }, + { + "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.", + "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'", + "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"", + "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'", + "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'", + "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'", + "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'", + "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'", + "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'", + "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'", + "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'", + "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'", + "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'", + "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'", + "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'", + "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'", + "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'" + ], + "n_oov_chars": 55, + "oov_ratio": 0.7432432432432432, + "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]" + }, + { + "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'", + "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'", + "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'", + "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '", + "insert text[22:22] --> decoded_text[31:32] '' --> ' '", + "delete text[24:26] --> decoded_text[34:34] ')는' --> ''", + "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''", + "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '", + "insert text[56:56] --> decoded_text[79:80] '' --> ' '", + "insert text[59:59] --> decoded_text[83:84] '' --> '.'", + "delete text[60:61] --> decoded_text[85:85] '.' --> ''", + "insert text[64:64] --> decoded_text[88:89] '' --> '.'", + "delete text[65:66] --> decoded_text[90:90] '.' --> ''", + "insert text[69:69] --> decoded_text[93:94] '' --> ' '", + "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'", + "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'", + "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'", + "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'", + "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'", + "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'", + "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'", + "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.5849056603773585, + "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]" + }, + { + "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'", + "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'", + "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'", + "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'", + "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'", + "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'", + "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'", + "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'", + "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '", + "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '", + "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''", + "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'", + "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'", + "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'", + "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'", + "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'", + "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'", + "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'", + "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'", + "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'", + "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '", + "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '", + "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '", + "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''", + "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'", + "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'", + "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 66, + "oov_ratio": 0.5945945945945946, + "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]" + }, + { + "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'", + "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'", + "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'", + "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'", + "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'", + "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'", + "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'", + "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'", + "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'", + "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'", + "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'", + "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'", + "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'", + "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'", + "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'", + "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'", + "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'", + "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"", + "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'", + "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'", + "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'", + "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'", + "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'" + ], + "n_oov_chars": 101, + "oov_ratio": 0.9439252336448598, + "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]" + }, + { + "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.", + "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'", + "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'", + "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'", + "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'", + "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'", + "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'", + "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'", + "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'", + "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'", + "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'", + "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'", + "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'", + "delete text[58:59] --> decoded_text[75:75] '빅' --> ''", + "replace text[60:63] --> decoded_text[76:88] '사이닝' --> '[UNK] [UNK] '", + "delete text[64:65] --> decoded_text[89:89] '을' --> ''", + "replace text[66:68] --> decoded_text[90:95] '통해' --> '[UNK]'", + "replace text[69:74] --> decoded_text[96:101] '유벤투스로' --> '[UNK]'", + "replace text[75:78] --> decoded_text[102:107] '옮겼기' --> '[UNK]'", + "replace text[79:83] --> decoded_text[108:119] '때문이다' --> '[UNK] [UNK]'" + ], + "n_oov_chars": 62, + "oov_ratio": 0.7380952380952381, + "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]" + }, + { + "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'", + "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'", + "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'", + "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'", + "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'", + "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'", + "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'" + ], + "n_oov_chars": 39, + "oov_ratio": 0.975, + "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]" + }, + { + "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'", + "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'", + "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'", + "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'", + "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'", + "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'", + "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'", + "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'", + "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'", + "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'", + "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'", + "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'", + "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'", + "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'", + "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'", + "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'", + "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'", + "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'", + "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'", + "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'", + "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'", + "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'", + "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'", + "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'", + "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'" + ], + "n_oov_chars": 95, + "oov_ratio": 0.9693877551020408, + "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c11fb128139a747e1bd8b7c14e5dc64e66509f26 --- /dev/null +++ b/stats/compression_rate/dbmdz.bert-base-german-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,150 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4s [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[41:131] --> decoded_text[126:667] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[132:159] --> decoded_text[668:826] 'S店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> 's [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '", + "replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 170, + "oov_ratio": 0.794392523364486, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"S\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] queenieeye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '", + "replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:63] --> decoded_text[345:347] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[351:352] 'S' --> 's'", + "insert text[72:72] --> decoded_text[356:357] '' --> ' '", + "replace text[73:106] --> decoded_text[358:557] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[558:559] '' --> ' '", + "replace text[108:111] --> decoded_text[560:579] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[580:582] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[586:587] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[593:594] '' --> ' '", + "replace text[125:153] --> decoded_text[595:759] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《Q' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] q'", + "replace text[159:160] --> decoded_text[765:766] 'E' --> 'e'", + "replace text[162:176] --> decoded_text[768:848] '》,然后轮到后者演绎旧作《P' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] p'", + "replace text[185:201] --> decoded_text[857:953] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 155, + "oov_ratio": 0.7711442786069652, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:70] --> decoded_text[0:420] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[71:88] --> decoded_text[421:524] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[525:568] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:111] --> decoded_text[569:654] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:137] --> decoded_text[655:805] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[1:19] --> decoded_text[1:110] '金庸的小说《连城诀》里有一个反派人物' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:24] --> decoded_text[111:136] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:72] --> decoded_text[137:420] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[73:115] --> decoded_text[421:674] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[116:120] --> decoded_text[675:700] '拾金而昧' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[701:714] ',还' --> ' [UNK] [UNK] '", + "replace text[124:125] --> decoded_text[715:722] '昧' --> ' [UNK] '", + "replace text[126:132] --> decoded_text[723:759] '得理直气壮。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..82b966e711b62fae26620b53c0cb26a287651f77 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.ar.diff.json @@ -0,0 +1,12 @@ +[ + { + "text": "من طرف A.Höganäs في الأحد سبتمبر 20, 2009 2:44 am", + "decoded_text": "من طرف A.H�ganäs في الأحد سبتمبر 20, 2009 2:44 am", + "diff": [ + "replace text[10:11] --> decoded_text[10:11] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"ö\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..9a351f31eea893286fa0dc45a012723830a64ae5 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.de.diff.json @@ -0,0 +1,121 @@ +[ + { + "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.", + "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „P�ngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h�ren. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f�r die Gäste.", + "diff": [ + "replace text[60:61] --> decoded_text[60:61] 'ü' --> '�'", + "replace text[159:160] --> decoded_text[159:160] 'ö' --> '�'", + "replace text[267:268] --> decoded_text[267:268] 'ü' --> '�'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010714285714285714, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.", + "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „P�ngel-Weihnacht“ an.", + "diff": [ + "replace text[59:60] --> decoded_text[59:60] 'ü' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"ü\"]" + }, + { + "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "decoded_text": "02683 967019. Die Karten k�nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.009708737864077669, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.", + "decoded_text": "Der Chor w�nscht Ihnen schon jetzt viel Vergn�gen.", + "diff": [ + "replace text[10:11] --> decoded_text[10:11] 'ü' --> '�'", + "replace text[45:46] --> decoded_text[45:46] 'ü' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.04, + "oov_charset": "[\"ü\"]" + }, + { + "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.", + "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder �ber ein auf der Internetseite befindliches Webformular, an den f�r die Verarbeitung Verantwortlichen �bermittelt. Sollten Sie �ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf�gen, k�nnen wir die Daten auch von Ihrer �ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchf�hrung des Bewerbungsverfahrens.", + "diff": [ + "replace text[211:212] --> decoded_text[211:212] 'ü' --> '�'", + "replace text[276:277] --> decoded_text[276:277] 'ü' --> '�'", + "replace text[313:314] --> decoded_text[313:314] 'ü' --> '�'", + "replace text[338:339] --> decoded_text[338:339] 'ü' --> '�'", + "replace text[435:436] --> decoded_text[435:436] 'ü' --> '�'", + "replace text[442:443] --> decoded_text[442:443] 'ö' --> '�'", + "replace text[477:478] --> decoded_text[477:478] 'ö' --> '�'", + "replace text[646:647] --> decoded_text[646:647] 'ü' --> '�'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.011799410029498525, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.", + "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die �bermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel�scht, sofern einer L�schung keine sonstigen berechtigten Interessen des f�r die Verarbeitung Verantwortlichen entgegenstehen.", + "diff": [ + "replace text[77:78] --> decoded_text[77:78] 'ü' --> '�'", + "replace text[316:317] --> decoded_text[316:317] 'ö' --> '�'", + "replace text[337:338] --> decoded_text[337:338] 'ö' --> '�'", + "replace text[390:391] --> decoded_text[390:391] 'ü' --> '�'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.00904977375565611, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.", + "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf�llung unserer vertraglichen und gesetzlichen Pflichten (wie F�hrungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung �ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben�tigen.", + "diff": [ + "replace text[119:120] --> decoded_text[119:120] 'ü' --> '�'", + "replace text[181:182] --> decoded_text[181:182] 'ü' --> '�'", + "replace text[280:281] --> decoded_text[280:281] 'ü' --> '�'", + "replace text[476:477] --> decoded_text[476:477] 'ö' --> '�'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.008281573498964804, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;", + "decoded_text": "bei denen wir zur Erf�llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im �ffentlichen Interesse liegt;", + "diff": [ + "replace text[21:22] --> decoded_text[21:22] 'ü' --> '�'", + "replace text[160:161] --> decoded_text[160:161] 'ö' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010582010582010581, + "oov_charset": "[\"ü\", \"ö\"]" + }, + { + "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh�rden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);", + "diff": [ + "replace text[98:99] --> decoded_text[98:99] 'ö' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005263157894736842, + "oov_charset": "[\"ö\"]" + }, + { + "text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies für die Entscheidung über die Begründung eines Beschäftigungsverhältnisses erforderlich ist.", + "decoded_text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies f�r die Entscheidung �ber die Begr�ndung eines Beschäftigungsverhältnisses erforderlich ist.", + "diff": [ + "replace text[104:105] --> decoded_text[104:105] 'ü' --> '�'", + "replace text[124:125] --> decoded_text[124:125] 'ü' --> '�'", + "replace text[137:138] --> decoded_text[137:138] 'ü' --> '�'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"ü\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3144d16a9f0c55b50b5ec7730bc85aa25bf5e59d --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", + "diff": [ + "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "en ningún caso, podrá suponer la ampliación del número de", + "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", + "diff": [ + "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", + "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"ú\"]" + }, + { + "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "diff": [ + "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002506265664160401, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0037593984962406013, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "diff": [ + "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0026954177897574125, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "diff": [ + "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0035460992907801418, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013157894736842105, + "oov_charset": "[\"ú\"]" + }, + { + "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", + "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", + "diff": [ + "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", + "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0057306590257879654, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", + "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", + "diff": [ + "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0025974025974025974, + "oov_charset": "[\"ú\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..12dec0d76472bba7afae43808fb3b43182111783 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.fr.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'", + "replace text[164:165] --> decoded_text[164:165] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"ù\", \"û\"]" + }, + { + "text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)", + "decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)", + "diff": [ + "replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005025125628140704, + "oov_charset": "[\"ù\"]" + }, + { + "text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "diff": [ + "replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005, + "oov_charset": "[\"ù\"]" + }, + { + "text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h", + "decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h", + "diff": [ + "replace text[49:50] --> decoded_text[49:50] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une passion…le dessin, et les poneys bien sûr...", + "decoded_text": "-Une passion…le dessin, et les poneys bien s�r...", + "diff": [ + "replace text[44:45] --> decoded_text[44:45] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô", + "decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte… une sal*pe", + "decoded_text": "-Une personne qui te dégo�te… une sal*pe", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Un jouet des 80’s… un petit poney bien sûr..", + "decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.", + "decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] 'û' --> '�'", + "replace text[82:83] --> decoded_text[82:83] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "diff": [ + "replace text[63:64] --> decoded_text[63:64] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"û\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4f89018a815662f49fc7911b864ea9f5dc765def --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-coder-33b-instruct @ cc100.zh-Hans.diff.json @@ -0,0 +1,12 @@ +[ + { + "text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"ù\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..3144d16a9f0c55b50b5ec7730bc85aa25bf5e59d --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El período o períodos de su disfrute se fijará de com�n", + "diff": [ + "replace text[56:57] --> decoded_text[56:57] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este n�mero ha sido incorporado por:", + "diff": [ + "replace text[28:29] --> decoded_text[28:29] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"ú\"]" + }, + { + "text": "en ningún caso, podrá suponer la ampliación del número de", + "decoded_text": "en ning�n caso, podrá suponer la ampliación del n�mero de", + "diff": [ + "replace text[7:8] --> decoded_text[7:8] 'ú' --> '�'", + "replace text[49:50] --> decoded_text[49:50] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"ú\"]" + }, + { + "text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por último, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "decoded_text": "También esto determinará que sean propósitos asequibles, que podemos alcanzar si nos dedicamos a lograrlo y por �ltimo, pensemos en que lo mejor no es establecer 10 propósitos diferentes, sino que lo ideal es plantear pocos objetivos, con sólo tres a cinco será suficiente, y si somos capaces de cumplirlos antes de terminar el año, podremos volver a establecer propósitos saludables si lo deseamos.", + "diff": [ + "replace text[112:113] --> decoded_text[112:113] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002506265664160401, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Podemos emplear algún gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "decoded_text": "Podemos emplear alg�n gadget cuantificador, registrar tiempos, velocidad, días de entrenamiento y asistencia e ir completando un check list de las tareas establecidas en el plan de acción, de manera de saber que estamos avanzando hacia el logro de nuestro propósito.", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0037593984962406013, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados músculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "decoded_text": "Es sencillo observar cómo la degeneración, por edad, dejadez o mala práctica física, provoca un alargamiento de determinados m�sculos, una distensión del abdomen y un acortamiento de otros grupos musculares, justo los que mantienen la columna en su postura óptima. Esto provoca un aumento del perímetro de la cintura y un peligroso incremento de las curvas de la columna.", + "diff": [ + "replace text[126:127] --> decoded_text[126:127] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0026954177897574125, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las múltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "decoded_text": "Para los profesores, existen diversos recursos para planificar online y explorando, a cada paso, las m�ltiples posibilidades educativas de las TIC como dinamizadoras de procesos educativos y potenciadoras de la motivación intrínseca del alumno, de su curiosidad y ganas de aprender.", + "diff": [ + "replace text[102:103] --> decoded_text[102:103] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0035460992907801418, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "S�per! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "replace text[1:2] --> decoded_text[1:2] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.013157894736842105, + "oov_charset": "[\"ú\"]" + }, + { + "text": "nstagram es la red social de mayor crecimiento en los últimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle algún provecho a nuestro ingenio.", + "decoded_text": "nstagram es la red social de mayor crecimiento en los �ltimos tiempos, su enfoque hacia las imágenes ha sido un concepto que ha revolucionado la forma en la que nos comunicamos con nuestros contactos, esto ha generado un nuevo espacio para promocionar nuestras empresas y negocios o hasta crear una forma de sacarle alg�n provecho a nuestro ingenio.", + "diff": [ + "replace text[54:55] --> decoded_text[54:55] 'ú' --> '�'", + "replace text[319:320] --> decoded_text[319:320] 'ú' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0057306590257879654, + "oov_charset": "[\"ú\"]" + }, + { + "text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en número de contactos y seguidores.", + "decoded_text": "Pero como todo no es tan fácil, hay que seguir algunas pautas y tener una dirección de forma que podamos resaltar sobre nuestros competidores directos o simplemente que los usuarios nos tomen más en cuenta, para ello debemos seguir algunos consejos que veremos a continuación, con ellos seguramente lograremos crear nuestras estrategias para crecer en n�mero de contactos y seguidores.", + "diff": [ + "replace text[353:354] --> decoded_text[353:354] 'ú' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0025974025974025974, + "oov_charset": "[\"ú\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..12dec0d76472bba7afae43808fb3b43182111783 --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.fr.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, o� le prof a d� me garder une heure en plus pour m'expliquer des démonstrations)", + "diff": [ + "replace text[151:152] --> decoded_text[151:152] 'ù' --> '�'", + "replace text[164:165] --> decoded_text[164:165] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"ù\", \"û\"]" + }, + { + "text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas où s'arréter le job de la copine)", + "decoded_text": "-Je veux toujours aider les autres, au risque d'en souffir (duran près de deux ans, j'ai été plus ou moins la psy de cette même fille citer plus haut, ne sachant pas o� s'arréter le job de la copine)", + "diff": [ + "replace text[167:168] --> decoded_text[167:168] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005025125628140704, + "oov_charset": "[\"ù\"]" + }, + { + "text": "Le délai pour l’installation commence à partir du moment où vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "decoded_text": "Le délai pour l’installation commence à partir du moment o� vous acceptez les changements (si changement il y a). Nos délais de livraison varient de 8 à 12 jours ouvrables selon la période de l’année.", + "diff": [ + "replace text[58:59] --> decoded_text[58:59] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005, + "oov_charset": "[\"ù\"]" + }, + { + "text": "-La chose que tu préfère faire au quotidien…le goûter de 4 h", + "decoded_text": "-La chose que tu préfère faire au quotidien…le go�ter de 4 h", + "diff": [ + "replace text[49:50] --> decoded_text[49:50] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une passion…le dessin, et les poneys bien sûr...", + "decoded_text": "-Une passion…le dessin, et les poneys bien s�r...", + "diff": [ + "replace text[44:45] --> decoded_text[44:45] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte…Ceux qui font du mal aux ô", + "decoded_text": "-Une personne qui te dégo�te…Ceux qui font du mal aux ô", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Une personne qui te dégoûte… une sal*pe", + "decoded_text": "-Une personne qui te dégo�te… une sal*pe", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.025, + "oov_charset": "[\"û\"]" + }, + { + "text": "-Un jouet des 80’s… un petit poney bien sûr..", + "decoded_text": "-Un jouet des 80’s… un petit poney bien s�r..", + "diff": [ + "replace text[41:42] --> decoded_text[41:42] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Une personne qui te dégoûte… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégoût... Je sais pas.", + "decoded_text": "- Une personne qui te dégo�te… Y en a pas mal qui m'exaspèrent, mais jusqu'au dégo�t... Je sais pas.", + "diff": [ + "replace text[26:27] --> decoded_text[26:27] 'û' --> '�'", + "replace text[82:83] --> decoded_text[82:83] 'û' --> '�'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02, + "oov_charset": "[\"û\"]" + }, + { + "text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est sûr, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "decoded_text": "- Si tu étais une maladie… >_>; Je mourrai d'un cancer, c'est s�r, mais j'aimerais pas l'être pour autant. Soignée par le D House !! *0*//", + "diff": [ + "replace text[63:64] --> decoded_text[63:64] 'û' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.007246376811594203, + "oov_charset": "[\"û\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..4f89018a815662f49fc7911b864ea9f5dc765def --- /dev/null +++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.zh-Hans.diff.json @@ -0,0 +1,12 @@ +[ + { + "text": "在这一瞬间,所有的乌山族人都lù出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "decoded_text": "在这一瞬间,所有的乌山族人都l�出悲哀的疯狂,但他们什么也做不了,这一刻,就连乌山族长都难★以去帮助阿公……", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] 'ù' --> '�'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"ù\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6c12c1388eb6aa809e6330a8e32781424dce53a1 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.en.diff.json @@ -0,0 +1,172 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a41364ca331616aa48c554033ea4b69ffc857be7 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.es.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..446b5174c46edd19580adf245996c3d1a0e13369 --- /dev/null +++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.zh-Hans.diff.json @@ -0,0 +1,1123 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "replace text[32:33] --> decoded_text[47:54] '・' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[55:56] '' --> ' '", + "insert text[35:35] --> decoded_text[57:58] '' --> ' '", + "insert text[36:36] --> decoded_text[59:60] '' --> ' '", + "insert text[37:37] --> decoded_text[61:62] '' --> ' '", + "insert text[41:41] --> decoded_text[66:67] '' --> ' '", + "insert text[42:42] --> decoded_text[68:69] '' --> ' '", + "insert text[43:43] --> decoded_text[70:71] '' --> ' '", + "insert text[44:44] --> decoded_text[72:73] '' --> ' '", + "insert text[45:45] --> decoded_text[74:75] '' --> ' '", + "insert text[46:46] --> decoded_text[76:77] '' --> ' '", + "replace text[47:48] --> decoded_text[78:81] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[82:83] '' --> ' '", + "insert text[50:50] --> decoded_text[84:85] '' --> ' '", + "insert text[51:51] --> decoded_text[86:87] '' --> ' '", + "insert text[52:52] --> decoded_text[88:89] '' --> ' '", + "insert text[53:53] --> decoded_text[90:91] '' --> ' '", + "insert text[54:54] --> decoded_text[92:93] '' --> ' '", + "insert text[55:55] --> decoded_text[94:95] '' --> ' '", + "insert text[56:56] --> decoded_text[96:97] '' --> ' '", + "replace text[57:58] --> decoded_text[98:101] ',' --> ' , '", + "insert text[59:59] --> decoded_text[102:103] '' --> ' '", + "insert text[60:60] --> decoded_text[104:105] '' --> ' '", + "insert text[61:61] --> decoded_text[106:107] '' --> ' '", + "insert text[62:62] --> decoded_text[108:109] '' --> ' '", + "insert text[63:63] --> decoded_text[110:111] '' --> ' '", + "insert text[64:64] --> decoded_text[112:113] '' --> ' '", + "insert text[65:65] --> decoded_text[114:115] '' --> ' '", + "insert text[66:66] --> decoded_text[116:117] '' --> ' '", + "insert text[67:67] --> decoded_text[118:119] '' --> ' '", + "insert text[68:68] --> decoded_text[120:121] '' --> ' '", + "insert text[69:69] --> decoded_text[122:123] '' --> ' '", + "insert text[70:70] --> decoded_text[124:125] '' --> ' '", + "insert text[71:71] --> decoded_text[126:127] '' --> ' '", + "insert text[72:72] --> decoded_text[128:129] '' --> ' '", + "insert text[73:73] --> decoded_text[130:131] '' --> ' '", + "insert text[74:74] --> decoded_text[132:133] '' --> ' '", + "insert text[75:75] --> decoded_text[134:135] '' --> ' '", + "insert text[76:76] --> decoded_text[136:137] '' --> ' '", + "insert text[77:77] --> decoded_text[138:139] '' --> ' '", + "insert text[78:78] --> decoded_text[140:141] '' --> ' '", + "insert text[79:79] --> decoded_text[142:143] '' --> ' '", + "replace text[80:81] --> decoded_text[144:147] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[148:149] '' --> ' '", + "insert text[83:83] --> decoded_text[150:151] '' --> ' '", + "insert text[84:84] --> decoded_text[152:153] '' --> ' '", + "insert text[85:85] --> decoded_text[154:155] '' --> ' '", + "insert text[86:86] --> decoded_text[156:157] '' --> ' '", + "insert text[87:87] --> decoded_text[158:159] '' --> ' '", + "insert text[88:88] --> decoded_text[160:161] '' --> ' '", + "insert text[89:89] --> decoded_text[162:163] '' --> ' '", + "insert text[90:90] --> decoded_text[164:165] '' --> ' '", + "replace text[91:92] --> decoded_text[166:169] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[170:171] '' --> ' '", + "insert text[94:94] --> decoded_text[172:173] '' --> ' '", + "replace text[95:96] --> decoded_text[174:177] ',' --> ' , '", + "insert text[97:97] --> decoded_text[178:179] '' --> ' '", + "insert text[98:98] --> decoded_text[180:181] '' --> ' '", + "insert text[99:99] --> decoded_text[182:183] '' --> ' '", + "insert text[100:100] --> decoded_text[184:185] '' --> ' '", + "replace text[101:102] --> decoded_text[186:189] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[190:191] '' --> ' '", + "insert text[104:104] --> decoded_text[192:193] '' --> ' '", + "insert text[105:105] --> decoded_text[194:195] '' --> ' '", + "insert text[106:106] --> decoded_text[196:197] '' --> ' '", + "insert text[107:107] --> decoded_text[198:199] '' --> ' '", + "insert text[108:108] --> decoded_text[200:201] '' --> ' '", + "replace text[109:110] --> decoded_text[202:205] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[206:207] '' --> ' '", + "insert text[112:112] --> decoded_text[208:209] '' --> ' '", + "replace text[113:114] --> decoded_text[210:213] ',' --> ' , '", + "insert text[115:115] --> decoded_text[214:215] '' --> ' '", + "insert text[116:116] --> decoded_text[216:217] '' --> ' '", + "insert text[117:117] --> decoded_text[218:219] '' --> ' '", + "insert text[118:118] --> decoded_text[220:221] '' --> ' '", + "insert text[119:119] --> decoded_text[222:223] '' --> ' '", + "insert text[120:120] --> decoded_text[224:225] '' --> ' '", + "insert text[121:121] --> decoded_text[226:227] '' --> ' '", + "insert text[122:122] --> decoded_text[228:229] '' --> ' '", + "insert text[123:123] --> decoded_text[230:231] '' --> ' '", + "insert text[124:124] --> decoded_text[232:233] '' --> ' '", + "insert text[125:125] --> decoded_text[234:235] '' --> ' '", + "insert text[126:126] --> decoded_text[236:237] '' --> ' '", + "insert text[127:127] --> decoded_text[238:239] '' --> ' '", + "insert text[128:128] --> decoded_text[240:241] '' --> ' '", + "insert text[129:129] --> decoded_text[242:243] '' --> ' '", + "replace text[130:131] --> decoded_text[244:247] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[248:250] 'S' --> 's '", + "insert text[134:134] --> decoded_text[251:252] '' --> ' '", + "insert text[135:135] --> decoded_text[253:254] '' --> ' '", + "replace text[136:137] --> decoded_text[255:258] ',' --> ' , '", + "insert text[138:138] --> decoded_text[259:260] '' --> ' '", + "insert text[139:139] --> decoded_text[261:262] '' --> ' '", + "insert text[140:140] --> decoded_text[263:264] '' --> ' '", + "replace text[141:142] --> decoded_text[265:268] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[269:270] '' --> ' '", + "insert text[144:144] --> decoded_text[271:272] '' --> ' '", + "replace text[145:146] --> decoded_text[273:276] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[277:278] '' --> ' '", + "replace text[148:149] --> decoded_text[279:282] ',' --> ' , '", + "insert text[150:150] --> decoded_text[283:284] '' --> ' '", + "insert text[151:151] --> decoded_text[285:286] '' --> ' '", + "insert text[152:152] --> decoded_text[287:288] '' --> ' '", + "replace text[153:154] --> decoded_text[289:292] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[293:294] '' --> ' '", + "insert text[156:156] --> decoded_text[295:296] '' --> ' '", + "insert text[157:157] --> decoded_text[297:298] '' --> ' '", + "insert text[158:158] --> decoded_text[299:300] '' --> ' '", + "insert text[159:159] --> decoded_text[301:302] '' --> ' '", + "insert text[163:163] --> decoded_text[306:307] '' --> ' '", + "insert text[164:164] --> decoded_text[308:309] '' --> ' '", + "insert text[165:165] --> decoded_text[310:311] '' --> ' '", + "insert text[166:166] --> decoded_text[312:313] '' --> ' '", + "insert text[167:167] --> decoded_text[314:315] '' --> ' '", + "replace text[168:169] --> decoded_text[316:319] ',' --> ' , '", + "insert text[170:170] --> decoded_text[320:321] '' --> ' '", + "replace text[171:173] --> decoded_text[322:327] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[328:329] '' --> ' '", + "insert text[175:175] --> decoded_text[330:331] '' --> ' '", + "insert text[176:176] --> decoded_text[332:333] '' --> ' '", + "insert text[177:177] --> decoded_text[334:335] '' --> ' '", + "insert text[178:178] --> decoded_text[336:337] '' --> ' '", + "insert text[179:179] --> decoded_text[338:339] '' --> ' '", + "insert text[180:180] --> decoded_text[340:341] '' --> ' '", + "insert text[181:181] --> decoded_text[342:343] '' --> ' '", + "insert text[182:182] --> decoded_text[344:345] '' --> ' '", + "replace text[183:184] --> decoded_text[346:349] ',' --> ' , '", + "insert text[185:185] --> decoded_text[350:351] '' --> ' '", + "insert text[186:186] --> decoded_text[352:353] '' --> ' '", + "insert text[187:187] --> decoded_text[354:355] '' --> ' '", + "insert text[188:188] --> decoded_text[356:357] '' --> ' '", + "replace text[189:190] --> decoded_text[358:361] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[362:363] '' --> ' '", + "insert text[192:192] --> decoded_text[364:365] '' --> ' '", + "insert text[193:193] --> decoded_text[366:367] '' --> ' '", + "insert text[194:194] --> decoded_text[368:369] '' --> ' '", + "insert text[195:195] --> decoded_text[370:371] '' --> ' '", + "insert text[196:196] --> decoded_text[372:373] '' --> ' '", + "insert text[206:206] --> decoded_text[383:384] '' --> ' '", + "insert text[207:207] --> decoded_text[385:386] '' --> ' '", + "insert text[211:211] --> decoded_text[390:391] '' --> ' '", + "insert text[212:212] --> decoded_text[392:393] '' --> ' '", + "insert text[213:213] --> decoded_text[394:395] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.009345794392523364, + "oov_charset": "[\"・\", \"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 [UNK] 小 时 , 终 于 在 飞 机 起 飞 前 [UNK] 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:206] '的3' --> ' 的 [UNK] '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "replace text[103:104] --> decoded_text[209:212] ',' --> ' , '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "insert text[107:107] --> decoded_text[217:218] '' --> ' '", + "insert text[108:108] --> decoded_text[219:220] '' --> ' '", + "insert text[109:109] --> decoded_text[221:222] '' --> ' '", + "insert text[110:110] --> decoded_text[223:224] '' --> ' '", + "insert text[111:111] --> decoded_text[225:226] '' --> ' '", + "replace text[112:113] --> decoded_text[227:234] '5' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[235:236] '' --> ' '", + "replace text[115:116] --> decoded_text[237:240] ',' --> ' , '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "insert text[118:118] --> decoded_text[243:244] '' --> ' '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "replace text[120:121] --> decoded_text[247:250] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[251:252] '' --> ' '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 [UNK] 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:3] --> decoded_text[3:10] '・' --> ' [UNK] '", + "insert text[4:4] --> decoded_text[11:12] '' --> ' '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "insert text[12:12] --> decoded_text[24:25] '' --> ' '", + "insert text[13:13] --> decoded_text[26:27] '' --> ' '", + "insert text[14:14] --> decoded_text[28:29] '' --> ' '", + "insert text[15:15] --> decoded_text[30:31] '' --> ' '", + "replace text[16:17] --> decoded_text[32:35] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[36:41] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[42:43] '' --> ' '", + "replace text[22:23] --> decoded_text[44:47] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[48:49] '' --> ' '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "insert text[26:26] --> decoded_text[52:53] '' --> ' '", + "insert text[27:27] --> decoded_text[54:55] '' --> ' '", + "insert text[28:28] --> decoded_text[56:57] '' --> ' '", + "insert text[29:29] --> decoded_text[58:59] '' --> ' '", + "insert text[30:30] --> decoded_text[60:61] '' --> ' '", + "replace text[31:33] --> decoded_text[62:67] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[68:69] '' --> ' '", + "insert text[35:35] --> decoded_text[70:71] '' --> ' '", + "insert text[36:36] --> decoded_text[72:73] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[39:39] --> decoded_text[78:79] '' --> ' '", + "insert text[40:40] --> decoded_text[80:81] '' --> ' '", + "insert text[41:41] --> decoded_text[82:83] '' --> ' '", + "insert text[42:42] --> decoded_text[84:85] '' --> ' '", + "insert text[43:43] --> decoded_text[86:87] '' --> ' '", + "insert text[44:44] --> decoded_text[88:89] '' --> ' '", + "insert text[45:45] --> decoded_text[90:91] '' --> ' '", + "insert text[46:46] --> decoded_text[92:93] '' --> ' '", + "insert text[47:47] --> decoded_text[94:95] '' --> ' '", + "insert text[48:48] --> decoded_text[96:97] '' --> ' '", + "insert text[49:49] --> decoded_text[98:99] '' --> ' '", + "replace text[50:51] --> decoded_text[100:103] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[104:105] '' --> ' '", + "insert text[53:53] --> decoded_text[106:107] '' --> ' '", + "insert text[54:54] --> decoded_text[108:109] '' --> ' '", + "insert text[55:55] --> decoded_text[110:111] '' --> ' '", + "insert text[56:56] --> decoded_text[112:113] '' --> ' '", + "insert text[57:57] --> decoded_text[114:115] '' --> ' '", + "insert text[58:58] --> decoded_text[116:117] '' --> ' '", + "insert text[59:59] --> decoded_text[118:119] '' --> ' '", + "insert text[60:60] --> decoded_text[120:121] '' --> ' '", + "replace text[61:62] --> decoded_text[122:125] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[126:127] '' --> ' '", + "insert text[64:64] --> decoded_text[128:129] '' --> ' '", + "insert text[65:65] --> decoded_text[130:131] '' --> ' '", + "insert text[66:66] --> decoded_text[132:133] '' --> ' '", + "insert text[67:67] --> decoded_text[134:135] '' --> ' '", + "insert text[68:68] --> decoded_text[136:137] '' --> ' '", + "insert text[69:69] --> decoded_text[138:139] '' --> ' '", + "replace text[70:71] --> decoded_text[140:143] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[75:75] --> decoded_text[150:151] '' --> ' '", + "insert text[76:76] --> decoded_text[152:153] '' --> ' '", + "replace text[77:80] --> decoded_text[154:161] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[162:165] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[166:167] '' --> ' '", + "insert text[84:84] --> decoded_text[168:169] '' --> ' '", + "replace text[85:86] --> decoded_text[170:173] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[174:175] '' --> ' '", + "insert text[88:88] --> decoded_text[176:177] '' --> ' '", + "insert text[89:89] --> decoded_text[178:179] '' --> ' '", + "replace text[90:93] --> decoded_text[180:187] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[188:191] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[192:193] '' --> ' '", + "insert text[97:97] --> decoded_text[194:195] '' --> ' '", + "insert text[98:98] --> decoded_text[196:197] '' --> ' '", + "insert text[99:99] --> decoded_text[198:199] '' --> ' '", + "replace text[100:101] --> decoded_text[200:203] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[204:205] '' --> ' '", + "insert text[103:103] --> decoded_text[206:207] '' --> ' '", + "replace text[104:108] --> decoded_text[208:217] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[218:219] '' --> ' '", + "insert text[110:110] --> decoded_text[220:221] '' --> ' '", + "insert text[111:111] --> decoded_text[222:223] '' --> ' '", + "insert text[112:112] --> decoded_text[224:225] '' --> ' '", + "insert text[113:113] --> decoded_text[226:227] '' --> ' '", + "insert text[114:114] --> decoded_text[228:229] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"・\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : “ 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? ” 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "replace text[73:74] --> decoded_text[145:148] ',' --> ' , '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "replace text[76:77] --> decoded_text[151:154] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "replace text[84:85] --> decoded_text[167:170] ',' --> ' , '", + "replace text[86:87] --> decoded_text[171:174] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "replace text[91:93] --> decoded_text[181:186] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:101] --> decoded_text[197:202] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:110] --> decoded_text[213:220] '是不是' --> ' 是 不 是 '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "replace text[113:115] --> decoded_text[225:230] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[231:232] '' --> ' '", + "replace text[117:118] --> decoded_text[233:236] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "insert text[120:120] --> decoded_text[239:240] '' --> ' '", + "replace text[121:122] --> decoded_text[241:244] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '", + "insert text[124:124] --> decoded_text[247:248] '' --> ' '", + "insert text[125:125] --> decoded_text[249:250] '' --> ' '", + "replace text[126:131] --> decoded_text[251:262] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[263:264] '' --> ' '", + "insert text[133:133] --> decoded_text[265:266] '' --> ' '", + "insert text[134:134] --> decoded_text[267:268] '' --> ' '", + "insert text[135:135] --> decoded_text[269:270] '' --> ' '", + "replace text[136:137] --> decoded_text[271:273] '。' --> ' 。'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 ‘ 血 刀 老 祖 ’ , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 ” 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 “ 拾 金 而 昧 ” , 还 “ 昧 ” 得 理 直 气 壮 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "replace text[25:26] --> decoded_text[49:52] ',' --> ' , '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "replace text[28:29] --> decoded_text[55:58] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "replace text[38:40] --> decoded_text[75:80] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "replace text[42:43] --> decoded_text[83:86] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "replace text[53:54] --> decoded_text[105:108] ',' --> ' , '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "replace text[58:59] --> decoded_text[115:118] ',' --> ' , '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "replace text[62:64] --> decoded_text[123:128] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[129:132] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "replace text[69:70] --> decoded_text[137:140] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "insert text[84:84] --> decoded_text[167:168] '' --> ' '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "insert text[87:87] --> decoded_text[173:174] '' --> ' '", + "insert text[88:88] --> decoded_text[175:176] '' --> ' '", + "replace text[89:90] --> decoded_text[177:180] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "replace text[95:96] --> decoded_text[189:192] ',' --> ' , '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "insert text[99:99] --> decoded_text[197:198] '' --> ' '", + "insert text[100:100] --> decoded_text[199:200] '' --> ' '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "insert text[103:103] --> decoded_text[205:206] '' --> ' '", + "insert text[104:104] --> decoded_text[207:208] '' --> ' '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "replace text[107:108] --> decoded_text[213:216] ',' --> ' , '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "replace text[110:112] --> decoded_text[219:224] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "insert text[115:115] --> decoded_text[229:230] '' --> ' '", + "insert text[116:116] --> decoded_text[231:232] '' --> ' '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "insert text[120:120] --> decoded_text[239:240] '' --> ' '", + "replace text[121:122] --> decoded_text[241:244] ',' --> ' , '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '", + "insert text[124:124] --> decoded_text[247:248] '' --> ' '", + "insert text[125:125] --> decoded_text[249:250] '' --> ' '", + "insert text[126:126] --> decoded_text[251:252] '' --> ' '", + "insert text[127:127] --> decoded_text[253:254] '' --> ' '", + "insert text[128:128] --> decoded_text[255:256] '' --> ' '", + "insert text[129:129] --> decoded_text[257:258] '' --> ' '", + "insert text[130:130] --> decoded_text[259:260] '' --> ' '", + "insert text[131:131] --> decoded_text[261:262] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c39cd77046309ae8b43eb827307d87f0605885da --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.en.diff.json @@ -0,0 +1,159 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "insert text[229:229] --> decoded_text[234:235] '' --> ' '", + "insert text[230:230] --> decoded_text[236:237] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "insert text[182:182] --> decoded_text[190:191] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls, ” says Frosch.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "insert text[95:95] --> decoded_text[98:99] '' --> ' '", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..0d00014e944c8dab737f065dd5ae27d88d1689cd --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.es.diff.json @@ -0,0 +1,112 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici … en definitiva …. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "insert text[77:77] --> decoded_text[77:78] '' --> ' '", + "insert text[78:78] --> decoded_text[79:80] '' --> ' '", + "insert text[91:91] --> decoded_text[93:94] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bb60771e67b7b26cd11aef97f2b3f82db2080e34 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fr.diff.json @@ -0,0 +1,119 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", + "diff": [ + "insert text[71:71] --> decoded_text[71:72] '' --> ' '", + "insert text[89:89] --> decoded_text[90:91] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "insert text[229:229] --> decoded_text[230:231] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", + "diff": [ + "insert text[42:42] --> decoded_text[42:43] '' --> ' '", + "insert text[61:61] --> decoded_text[62:63] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", + "diff": [ + "insert text[82:82] --> decoded_text[82:83] '' --> ' '", + "insert text[111:111] --> decoded_text[112:113] '' --> ' '", + "insert text[112:112] --> decoded_text[114:115] '' --> ' '", + "insert text[175:175] --> decoded_text[178:179] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", + "diff": [ + "insert text[127:127] --> decoded_text[127:128] '' --> ' '", + "insert text[150:150] --> decoded_text[151:152] '' --> '!'", + "delete text[151:152] --> decoded_text[153:153] '!' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'écris très vite et très mal (tout le monde s'en fout)", + "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[56:56] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", + "diff": [ + "insert text[136:136] --> decoded_text[136:137] '' --> ' '", + "insert text[186:186] --> decoded_text[187:188] '' --> ' '", + "insert text[187:187] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c6ed9130ea69dbb986e1bb83f99d50dd026e55bd --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,372 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "replace text[42:48] --> decoded_text[124:161] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[162:163] '' --> ' '", + "replace text[50:55] --> decoded_text[164:195] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[196:203] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[204:223] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[224:225] '' --> ' '", + "replace text[63:67] --> decoded_text[226:251] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[252:271] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[272:291] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:83] --> decoded_text[292:335] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:89] --> decoded_text[336:367] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[90:94] --> decoded_text[368:393] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[394:395] '' --> ' '", + "replace text[96:103] --> decoded_text[396:439] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[440:441] '' --> ' '", + "replace text[105:107] --> decoded_text[442:455] '合资' --> ' [UNK] [UNK] '", + "insert text[108:108] --> decoded_text[456:457] '' --> ' '", + "replace text[109:110] --> decoded_text[458:465] '的' --> ' [UNK] '", + "replace text[111:112] --> decoded_text[466:473] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[474:475] '' --> ' '", + "replace text[114:121] --> decoded_text[476:519] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[520:521] '' --> ' '", + "replace text[123:125] --> decoded_text[522:535] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[536:537] '' --> ' '", + "replace text[127:131] --> decoded_text[538:563] '现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[133:136] --> decoded_text[565:584] '店得知' --> ' [UNK] [UNK] [UNK] '", + "replace text[137:148] --> decoded_text[585:652] '店内朗动车型有现车供应' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[653:708] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[709:710] '' --> ' '", + "replace text[163:168] --> decoded_text[714:745] '元优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:174] --> decoded_text[746:777] '具体的车型' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[778:815] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[816:823] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[824:825] '' --> ' '", + "replace text[185:196] --> decoded_text[826:893] '时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[903:910] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[914:927] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 134, + "oov_ratio": 0.6261682242990654, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 [UNK] [UNK] [UNK] [UNK] [UNK] 》 [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] [UNK] [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 上 [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "replace text[9:14] --> decoded_text[33:64] '幸福终点站' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[15:19] --> decoded_text[65:90] '的案例令' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[91:92] '' --> ' '", + "replace text[21:27] --> decoded_text[93:130] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[131:174] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:51] --> decoded_text[175:266] '由于行前未能仔细核对签证有效期' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[267:268] '' --> ' '", + "replace text[53:61] --> decoded_text[269:318] '对赴俄罗斯旅游的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[319:320] '' --> ' '", + "insert text[63:63] --> decoded_text[321:322] '' --> ' '", + "replace text[64:79] --> decoded_text[323:414] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:86] --> decoded_text[415:452] '在胡滨的协助' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[453:454] '' --> ' '", + "replace text[88:90] --> decoded_text[455:468] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[469:500] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:101] --> decoded_text[501:526] '动魄的3' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[102:103] --> decoded_text[527:534] '时' --> ' [UNK] '", + "replace text[104:115] --> decoded_text[535:602] '终于在飞机起飞前5分钟' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[116:117] --> decoded_text[603:610] '登' --> ' [UNK] '", + "replace text[118:123] --> decoded_text[611:642] '返程的航班' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 99, + "oov_ratio": 0.7983870967741935, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"的\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 江 [UNK] [UNK] [UNK] 中 [UNK] [UNK] , 中 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 [UNK] [UNK] [UNK] [UNK] 大 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 同 社 [UNK] [UNK] [UNK] 国 [UNK] 和 平 [UNK] [UNK] [UNK] 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '招财带什么佛牌张德' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[10:13] --> decoded_text[55:74] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:16] --> decoded_text[75:88] '表示' --> ' [UNK] [UNK] '", + "insert text[17:17] --> decoded_text[89:90] '' --> ' '", + "replace text[18:24] --> decoded_text[91:128] '法建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:29] --> decoded_text[129:154] '法两个伟' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[155:156] '' --> ' '", + "replace text[31:37] --> decoded_text[157:194] '家友好关系的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:40] --> decoded_text[195:208] '纪元' --> ' [UNK] [UNK] '", + "replace text[41:45] --> decoded_text[209:234] '树立了不' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[46:46] --> decoded_text[235:236] '' --> ' '", + "replace text[47:50] --> decoded_text[237:256] '会制度' --> ' [UNK] [UNK] [UNK] '", + "replace text[51:52] --> decoded_text[257:264] '家' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[265:266] '' --> ' '", + "replace text[54:57] --> decoded_text[267:286] '共处的' --> ' [UNK] [UNK] [UNK] '", + "replace text[58:60] --> decoded_text[287:300] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[301:308] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[309:346] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[347:360] '了重' --> ' [UNK] [UNK] '", + "replace text[73:79] --> decoded_text[361:398] '而深远的影响' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 60, + "oov_ratio": 0.75, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"在\", \"致\", \"辞\", \"表\", \"示\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"会\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 [UNK] 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "replace text[32:33] --> decoded_text[163:170] '英' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[171:172] '' --> ' '", + "replace text[35:37] --> decoded_text[173:186] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[187:188] '' --> ' '", + "insert text[39:39] --> decoded_text[189:190] '' --> ' '", + "replace text[40:42] --> decoded_text[191:204] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[205:206] '' --> ' '", + "insert text[47:47] --> decoded_text[210:211] '' --> ' '", + "insert text[48:48] --> decoded_text[212:213] '' --> ' '", + "replace text[49:54] --> decoded_text[214:245] '他成为联合' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:59] --> decoded_text[246:271] '驻东帝汶' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[272:279] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[280:287] '令' --> ' [UNK] '", + "replace text[64:72] --> decoded_text[288:337] '监督东帝汶向独立' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[73:77] --> decoded_text[338:363] '家的过渡' --> ' [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 53, + "oov_ratio": 0.6794871794871795, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"英\", \"印\", \"度\", \"工\", \"作\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] [UNK] [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 [UNK] [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] : [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 [UNK] [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] 二 人 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 [UNK] 《 QueenieEye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 Photograph 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 日 [UNK] 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:9] --> decoded_text[8:33] '电据香港' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[34:35] '' --> ' '", + "replace text[11:12] --> decoded_text[36:43] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[44:57] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[58:89] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[90:103] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[104:105] '' --> ' '", + "replace text[26:30] --> decoded_text[106:131] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[133:140] '周' --> ' [UNK] '", + "replace text[34:37] --> decoded_text[141:160] '的纪念' --> ' [UNK] [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[161:162] '' --> ' '", + "insert text[39:39] --> decoded_text[163:164] '' --> ' '", + "replace text[40:42] --> decoded_text[165:178] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:50] --> decoded_text[179:222] '向两名仅存成员' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[51:58] --> decoded_text[223:266] '保罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[267:268] '' --> ' '", + "replace text[60:61] --> decoded_text[269:276] '达' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[277:278] '' --> ' '", + "insert text[72:72] --> decoded_text[288:289] '' --> ' '", + "replace text[73:80] --> decoded_text[290:333] '颁发终身成就奖' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[334:371] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[372:403] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[404:405] '' --> ' '", + "insert text[95:95] --> decoded_text[406:407] '' --> ' '", + "replace text[96:99] --> decoded_text[408:427] '会请来' --> ' [UNK] [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[428:465] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[466:467] '' --> ' '", + "replace text[108:111] --> decoded_text[468:487] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "insert text[112:112] --> decoded_text[488:489] '' --> ' '", + "insert text[124:124] --> decoded_text[501:502] '' --> ' '", + "replace text[125:129] --> decoded_text[503:528] '负责介绍' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[130:130] --> decoded_text[529:530] '' --> ' '", + "replace text[131:133] --> decoded_text[531:544] '出场' --> ' [UNK] [UNK] '", + "replace text[134:142] --> decoded_text[545:594] '保罗在拍档的鼓声' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[595:602] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[603:604] '' --> ' '", + "replace text[146:149] --> decoded_text[605:624] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "replace text[150:151] --> decoded_text[625:632] '歌' --> ' [UNK] '", + "insert text[152:152] --> decoded_text[633:634] '' --> ' '", + "insert text[162:162] --> decoded_text[644:645] '' --> ' '", + "insert text[163:163] --> decoded_text[646:647] '' --> ' '", + "replace text[164:174] --> decoded_text[648:709] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[175:175] --> decoded_text[710:711] '' --> ' '", + "insert text[185:185] --> decoded_text[721:722] '' --> ' '", + "insert text[186:186] --> decoded_text[723:724] '' --> ' '", + "replace text[187:194] --> decoded_text[725:768] '带领歌迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[195:196] --> decoded_text[769:776] '的' --> ' [UNK] '", + "replace text[197:200] --> decoded_text[777:796] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.5422885572139303, + "oov_charset": "[\"电\", \"据\", \"香\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"的\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"会\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] , [UNK] 司 [UNK] [UNK] [UNK] 21 [UNK] , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] , [UNK] [UNK] [UNK] [UNK] 6 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:23] --> decoded_text[0:134] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[136:151] '元,但' --> ' [UNK] , [UNK] '", + "replace text[29:32] --> decoded_text[152:171] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[173:196] '元,因此,' --> ' [UNK] , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[197:222] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:54] --> decoded_text[223:274] '元,除去之前支付的' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:61] --> decoded_text[275:308] '元,记者净赚' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[309:348] '元,还免费乘了' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[349:368] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:78] --> decoded_text[370:389] '元的车' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 59, + "oov_ratio": 0.7468354430379747, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 大 [UNK] [UNK] [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] 。 ( 方 [UNK] [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "replace text[12:18] --> decoded_text[44:81] '加入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[82:83] '' --> ' '", + "replace text[20:25] --> decoded_text[84:115] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[116:123] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[124:143] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[144:145] '' --> ' '", + "replace text[33:37] --> decoded_text[146:171] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[172:191] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[192:211] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:53] --> decoded_text[212:255] '路虎以外的业务' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[54:59] --> decoded_text[256:287] '这位斯坦福' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[60:64] --> decoded_text[288:313] '学的毕业' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[314:315] '' --> ' '", + "replace text[66:73] --> decoded_text[316:359] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[360:361] '' --> ' '", + "replace text[75:77] --> decoded_text[362:375] '合资' --> ' [UNK] [UNK] '", + "insert text[78:78] --> decoded_text[376:377] '' --> ' '", + "replace text[79:83] --> decoded_text[378:403] '的副总裁' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[404:405] '' --> ' '", + "replace text[85:90] --> decoded_text[406:437] '汽通用五菱' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[91:91] --> decoded_text[438:439] '' --> ' '", + "replace text[92:104] --> decoded_text[440:513] '的副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[514:515] '' --> ' '", + "replace text[106:109] --> decoded_text[516:535] '的总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[536:537] '' --> ' '", + "insert text[111:111] --> decoded_text[538:539] '' --> ' '", + "replace text[112:114] --> decoded_text[540:553] '赵春' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 82, + "oov_ratio": 0.7130434782608696, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"福\", \"学\", \"毕\", \"曾\", \"通\", \"用\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 部 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 人 , [UNK] [UNK] 神 , 人 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] : “ [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ” [UNK] [UNK] [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[1:8] --> decoded_text[1:44] '腕导演不可能每' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[9:18] --> decoded_text[45:100] '作品都是你喜欢的东' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[101:122] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:37] --> decoded_text[123:198] '时控制不住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[199:218] '他也是' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[219:234] ',不是' --> ' , [UNK] [UNK] '", + "replace text[46:47] --> decoded_text[235:238] ',' --> ' , '", + "replace text[48:55] --> decoded_text[239:282] '就有自己的脾气' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:69] --> decoded_text[283:358] '他这次执导春晚,对我也开骂' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[359:360] '' --> ' '", + "replace text[71:88] --> decoded_text[361:456] '老毕,我跟你说了这么长时间,让你走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[457:496] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:111] --> decoded_text[497:578] '号位,你想跟我较死劲是不是?' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:116] --> decoded_text[579:604] '这也是骂' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[605:606] '' --> ' '", + "replace text[118:131] --> decoded_text[607:682] '但因为你非常了解他,他也不' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[683:708] '定有恶意' --> ' [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.7956204379562044, + "oov_charset": "[\"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"也\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 花 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 年 [UNK] 高 [UNK] 360 [UNK] [UNK] 人 [UNK] [UNK] , 李 [UNK] [UNK] 年 [UNK] 花 [UNK] [UNK] 600 [UNK] [UNK] [UNK] 。 [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "replace text[0:12] --> decoded_text[0:72] '招财带什么佛牌不过挣得多' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[13:16] --> decoded_text[73:92] '娜姐也' --> ' [UNK] [UNK] [UNK] '", + "replace text[17:19] --> decoded_text[93:106] '得多' --> ' [UNK] [UNK] '", + "replace text[20:24] --> decoded_text[107:132] '有媒体报' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[133:134] '' --> ' '", + "replace text[26:32] --> decoded_text[135:172] '教练卡洛斯的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[33:34] --> decoded_text[173:180] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[181:188] '达' --> ' [UNK] '", + "replace text[39:41] --> decoded_text[191:204] '万元' --> ' [UNK] [UNK] '", + "replace text[42:44] --> decoded_text[205:218] '民币' --> ' [UNK] [UNK] '", + "insert text[45:45] --> decoded_text[219:220] '' --> ' '", + "replace text[46:48] --> decoded_text[221:234] '娜每' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[235:242] '的' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[243:256] '费是' --> ' [UNK] [UNK] '", + "replace text[56:59] --> decoded_text[259:278] '多万元' --> ' [UNK] [UNK] [UNK] '", + "replace text[60:61] --> decoded_text[279:286] '用' --> ' [UNK] '", + "replace text[62:68] --> decoded_text[287:324] '个形象的比喻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[69:72] --> decoded_text[325:344] '娜姐每' --> ' [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[345:346] '' --> ' '", + "replace text[74:76] --> decoded_text[347:360] '睁眼' --> ' [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[361:374] '将近' --> ' [UNK] [UNK] '", + "replace text[80:86] --> decoded_text[375:412] '万元就出去了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 61, + "oov_ratio": 0.7011494252873564, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"也\", \"有\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"薪\", \"达\", \"万\", \"元\", \"民\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] [UNK] 小 [UNK] 《 [UNK] 城 [UNK] 》 [UNK] [UNK] 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] [UNK] [UNK] 人 [UNK] [UNK] 事 [UNK] [UNK] 心 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:16] '庸的' --> ' [UNK] [UNK] '", + "replace text[5:6] --> decoded_text[17:24] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[25:32] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[33:40] '诀' --> ' [UNK] '", + "replace text[11:13] --> decoded_text[41:54] '里有' --> ' [UNK] [UNK] '", + "replace text[14:17] --> decoded_text[55:74] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[75:82] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[83:108] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[109:110] '' --> ' '", + "insert text[26:26] --> decoded_text[111:112] '' --> ' '", + "replace text[27:30] --> decoded_text[113:132] '般的坏' --> ' [UNK] [UNK] [UNK] '", + "replace text[31:33] --> decoded_text[133:146] '做坏' --> ' [UNK] [UNK] '", + "replace text[34:36] --> decoded_text[147:160] '都是' --> ' [UNK] [UNK] '", + "replace text[37:39] --> decoded_text[161:174] '虚的' --> ' [UNK] [UNK] '", + "replace text[40:44] --> decoded_text[175:200] '但是这个' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[201:226] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[227:228] '' --> ' '", + "replace text[51:53] --> decoded_text[229:242] '理得' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[243:268] '理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[59:71] --> decoded_text[269:342] '我遇到的这个的哥就是这样' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[343:344] '' --> ' '", + "insert text[73:73] --> decoded_text[345:346] '' --> ' '", + "replace text[74:75] --> decoded_text[347:354] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[355:410] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[411:448] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[449:450] '' --> ' '", + "replace text[94:95] --> decoded_text[451:458] '来' --> ' [UNK] '", + "replace text[96:97] --> decoded_text[459:466] '昨' --> ' [UNK] '", + "insert text[98:98] --> decoded_text[467:468] '' --> ' '", + "replace text[99:100] --> decoded_text[469:476] '先' --> ' [UNK] '", + "replace text[101:107] --> decoded_text[477:514] '在搭出租车时' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[108:115] --> decoded_text[515:558] '遇到的的哥不仅' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '而昧' --> ' [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[581:582] '' --> ' '", + "replace text[122:123] --> decoded_text[583:590] '还' --> ' [UNK] '", + "replace text[124:125] --> decoded_text[591:598] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[599:630] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 92, + "oov_ratio": 0.696969696969697, + "oov_charset": "[\"庸\", \"的\", \"说\", \"连\", \"诀\", \"里\", \"有\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"都\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..48321b4e84ad56898f7e32d875f249e76c540222 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.en.diff.json @@ -0,0 +1,159 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "[UNK] [UNK] is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. [UNK] on [UNK], the home is being sold by high - end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK].", + "diff": [ + "replace text[0:14] --> decoded_text[0:11] 'Belmont Estate' --> '[UNK] [UNK]'", + "insert text[37:37] --> decoded_text[34:35] '' --> ' '", + "insert text[70:70] --> decoded_text[68:69] '' --> ' '", + "insert text[140:140] --> decoded_text[139:140] '' --> ' '", + "replace text[150:167] --> decoded_text[150:190] 'Listed on Thursda' --> '[UNK] on [UNK], the home is being sold b'", + "replace text[168:186] --> decoded_text[191:194] ', the home is bein' --> ' hi'", + "replace text[187:200] --> decoded_text[195:197] ' sold by high' --> 'h '", + "replace text[201:259] --> decoded_text[198:251] 'end real estate firm Sotheby’s International Realty Canada' --> ' end real estate firm [UNK] [UNK] s [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] [UNK] the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent [UNK] [UNK] of [UNK] [UNK] s tells [UNK].", + "diff": [ + "replace text[0:7] --> decoded_text[0:11] '“Within' --> '[UNK] [UNK]'", + "replace text[19:20] --> decoded_text[23:30] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[63:64] '' --> ' '", + "insert text[66:66] --> decoded_text[77:78] '' --> ' '", + "insert text[79:79] --> decoded_text[91:92] '' --> ' '", + "replace text[140:141] --> decoded_text[153:159] '”' --> ' [UNK]'", + "replace text[156:202] --> decoded_text[174:214] 'Christa Frosch of Sotheby’s tells BuzzBuzzNews' --> '[UNK] [UNK] of [UNK] [UNK] s tells [UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "[UNK] three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. [UNK] to entertain, two main gallery halls can seat up to 100 guests. [UNK] [UNK] - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. [UNK] amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:12] 'The three' --> '[UNK] three '", + "insert text[10:10] --> decoded_text[13:14] '' --> ' '", + "replace text[92:97] --> decoded_text[96:101] 'Built' --> '[UNK]'", + "replace text[162:173] --> decoded_text[166:178] 'The Italian' --> '[UNK] [UNK] '", + "insert text[174:174] --> decoded_text[179:180] '' --> ' '", + "replace text[283:285] --> decoded_text[289:367] 'La' --> '[UNK] amenities include an indoor pool and sauna, a six - car garage and a pri'", + "replace text[286:339] --> decoded_text[368:384] 'ish amenities include an indoor pool and sauna, a six' --> 'ate entrance in '", + "replace text[340:381] --> decoded_text[385:396] 'car garage and a private entrance in-law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "[UNK] the property is a [UNK] - inspired garden with a variety of trees, plants and an orchard. [UNK] the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:11] --> decoded_text[0:5] 'Surrounding' --> '[UNK]'", + "replace text[30:40] --> decoded_text[24:30] 'Versailles' --> '[UNK] '", + "insert text[41:41] --> decoded_text[31:32] '' --> ' '", + "replace text[105:107] --> decoded_text[96:101] 'In' --> '[UNK]'", + "insert text[128:128] --> decoded_text[122:123] '' --> ' '", + "insert text[166:166] --> decoded_text[161:162] '' --> ' '", + "insert text[167:167] --> decoded_text[163:164] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "[UNK] to [UNK], the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] 'According' --> '[UNK]'", + "replace text[13:19] --> decoded_text[9:14] 'Frosch' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] [UNK] just went to the market yesterday, it [UNK] s private through [UNK] [UNK] s and we [UNK] ve already started to get calls, [UNK] says [UNK].", + "diff": [ + "replace text[0:3] --> decoded_text[0:11] '“We' --> '[UNK] [UNK]'", + "replace text[41:42] --> decoded_text[49:56] '’' --> ' [UNK] '", + "replace text[60:68] --> decoded_text[74:86] 'Sotheby’' --> '[UNK] [UNK] '", + "replace text[76:77] --> decoded_text[94:101] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[133:139] '”' --> ' [UNK]'", + "replace text[116:122] --> decoded_text[145:150] 'Frosch' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "[UNK] well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. [UNK] will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'Stay' --> '[UNK]'", + "replace text[18:19] --> decoded_text[19:26] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[64:65] '' --> ' '", + "replace text[80:83] --> decoded_text[88:93] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[94:103] 'calorie' --> ' calorie '", + "replace text[103:106] --> decoded_text[115:120] 'You' --> '[UNK]'", + "replace text[139:140] --> decoded_text[153:160] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[164:171] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "[UNK] [UNK] [UNK] after your surgery, begin adding liquid protein during this [UNK] ( 20 to 30 grams per day ). [UNK] means you should buy a protein powder suggested by your dietitian, doctor or nurse. [UNK] recommend :", + "diff": [ + "replace text[0:11] --> decoded_text[0:17] 'On Day Four' --> '[UNK] [UNK] [UNK]'", + "replace text[72:77] --> decoded_text[78:83] 'Phase' --> '[UNK]'", + "insert text[79:79] --> decoded_text[85:86] '' --> ' '", + "insert text[101:101] --> decoded_text[108:109] '' --> ' '", + "replace text[104:105] --> decoded_text[112:129] 'T' --> '[UNK] means you s'", + "delete text[106:121] --> decoded_text[130:130] 'at means you sh' --> ''", + "replace text[193:195] --> decoded_text[202:207] 'We' --> '[UNK]'", + "insert text[205:205] --> decoded_text[217:218] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "[UNK] ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. [UNK]. com or 800 - 517 - 5111", + "diff": [ + "insert text[0:0] --> decoded_text[0:1] '' --> '['", + "replace text[1:6] --> decoded_text[2:5] 'njury' --> 'NK]'", + "insert text[8:8] --> decoded_text[7:8] '' --> ' '", + "insert text[50:50] --> decoded_text[50:51] '' --> ' '", + "insert text[64:64] --> decoded_text[65:66] '' --> ' '", + "insert text[95:95] --> decoded_text[97:99] '' --> ' ['", + "replace text[97:101] --> decoded_text[101:103] 'JURY' --> 'K]'", + "insert text[102:102] --> decoded_text[104:105] '' --> ' '", + "insert text[112:112] --> decoded_text[115:116] '' --> ' '", + "insert text[113:113] --> decoded_text[117:118] '' --> ' '", + "insert text[116:116] --> decoded_text[121:122] '' --> ' '", + "insert text[117:117] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "[UNK] for signs of dehydration!", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Watch' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7c47595c6d887d36c54cc45c0c7c1088289d2127 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.es.diff.json @@ -0,0 +1,125 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" [UNK] trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] [UNK].", + "diff": [ + "replace text[1:3] --> decoded_text[1:7] 'Se' --> ' [UNK]'", + "replace text[80:82] --> decoded_text[84:188] 'or' --> '[UNK] criminal \" [UNK] [UNK] del [UNK] [UNK] \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de dro'", + "delete text[84:204] --> decoded_text[190:190] 'nización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de droga' --> ''", + "replace text[206:223] --> decoded_text[192:207] '\", explicó Medina' --> ' \", [UNK] [UNK]'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "[UNK] el momento se han detenido a 48 integrantes de la [UNK] criminal.", + "diff": [ + "replace text[0:5] --> decoded_text[0:5] 'Hasta' --> '[UNK]'", + "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "[UNK] \" [UNK] [UNK] del [UNK] [UNK] \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] 'A' --> '[UNK]'", + "replace text[3:35] --> decoded_text[7:36] 'Los Sanguinarios del Norte Chico' --> ' [UNK] [UNK] del [UNK] [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "[UNK] este megaoperativo han participado 800 agentes de la [UNK] [UNK] del [UNK] y 85 fiscales, quienes se han desplazado en 130 [UNK]. [UNK], e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", + "replace text[56:63] --> decoded_text[59:64] 'Policia' --> '[UNK]'", + "insert text[64:64] --> decoded_text[65:67] '' --> '[U'", + "replace text[65:72] --> decoded_text[68:70] 'acional' --> 'K]'", + "replace text[77:81] --> decoded_text[75:80] 'Peru' --> '[UNK]'", + "replace text[130:139] --> decoded_text[129:134] 'vehículos' --> '[UNK]'", + "replace text[141:149] --> decoded_text[136:141] 'Asimismo' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. [UNK] [UNK] de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", + "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] [UNK]. 2, [UNK] 4 / 1983, de 29 de junio, de [UNK] de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:5] --> decoded_text[6:11] 'Art' --> '[UNK]'", + "replace text[10:13] --> decoded_text[16:21] 'Ley' --> '[UNK]'", + "insert text[15:15] --> decoded_text[23:24] '' --> ' '", + "insert text[16:16] --> decoded_text[25:26] '' --> ' '", + "replace text[41:49] --> decoded_text[51:56] 'fijación' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. [UNK] [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", + "diff": [ + "replace text[3:5] --> decoded_text[3:8] 'El' --> '[UNK]'", + "replace text[6:13] --> decoded_text[9:14] 'período' --> '[UNK]'", + "replace text[16:24] --> decoded_text[17:22] 'períodos' --> '[UNK]'", + "replace text[43:49] --> decoded_text[41:46] 'fijará' --> '[UNK]'", + "replace text[53:58] --> decoded_text[50:55] 'común' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los [UNK] [UNK]", + "diff": [ + "replace text[37:46] --> decoded_text[37:42] 'Convenios' --> '[UNK]'", + "replace text[47:57] --> decoded_text[43:48] 'Colectivos' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre [UNK] anual de las vacaciones.", + "diff": [ + "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "[UNK] caso de desacuerdo entre las partes, la [UNK] competente", + "diff": [ + "replace text[0:2] --> decoded_text[0:5] 'En' --> '[UNK]'", + "replace text[43:55] --> decoded_text[46:51] 'jurisdicción' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1d9a9a666136ef33dbf380eec7018449e43e6216 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fr.diff.json @@ -0,0 +1,139 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "[UNK], comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[0:3] --> decoded_text[0:5] 'Bon' --> '[UNK]'", + "replace text[34:35] --> decoded_text[36:41] 'à' --> '[UNK]'", + "replace text[42:50] --> decoded_text[48:53] 'envisagé' --> '[UNK]'", + "replace text[54:59] --> decoded_text[57:62] 'créer' --> '[UNK]'", + "replace text[91:96] --> decoded_text[94:99] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[105:110] 'être' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "[UNK] dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", + "diff": [ + "replace text[0:4] --> decoded_text[0:5] 'Vous' --> '[UNK]'", + "replace text[74:84] --> decoded_text[75:80] 'réfléchira' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "[UNK] une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", + "diff": [ + "replace text[0:6] --> decoded_text[0:5] 'Encore' --> '[UNK]'", + "replace text[33:39] --> decoded_text[32:37] 'obligé' --> '[UNK]'", + "replace text[48:56] --> decoded_text[46:51] 'dévoilez' --> '[UNK]'", + "replace text[57:68] --> decoded_text[52:57] 'entièrement' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- [UNK] peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[117:124] --> decoded_text[120:125] 'mémoire' --> '[UNK]'", + "insert text[159:159] --> decoded_text[160:161] '' --> ' '", + "replace text[176:194] --> decoded_text[178:197] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", + "insert text[195:195] --> decoded_text[198:199] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- [UNK] peux penser une chose et son contraire. [UNK] exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[45:48] --> decoded_text[48:53] 'Par' --> '[UNK]'", + "replace text[67:71] --> decoded_text[72:77] 'mère' --> '[UNK]'", + "replace text[224:225] --> decoded_text[230:235] 'à' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- [UNK] penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. [UNK], quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[15:24] --> decoded_text[18:23] 'réfléchit' --> '[UNK]'", + "replace text[63:64] --> decoded_text[62:67] 'à' --> '[UNK]'", + "replace text[90:97] --> decoded_text[93:98] 'Exemple' --> '[UNK]'", + "replace text[132:136] --> decoded_text[133:138] 'mère' --> '[UNK]'", + "replace text[159:168] --> decoded_text[161:166] 'réfléchit' --> '[UNK]'", + "replace text[169:170] --> decoded_text[167:172] 'à' --> '[UNK]'", + "replace text[174:182] --> decoded_text[176:181] 'création' --> '[UNK]'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- [UNK] suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par [UNK] ou ailleurs qu'au [UNK]", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "insert text[58:58] --> decoded_text[61:62] '' --> ' '", + "insert text[62:62] --> decoded_text[66:67] '' --> ' '", + "replace text[67:72] --> decoded_text[72:77] 'lycée' --> '[UNK]'", + "replace text[90:91] --> decoded_text[95:100] 'à' --> '[UNK]'", + "replace text[92:100] --> decoded_text[101:106] 'preférer' --> '[UNK]'", + "replace text[125:133] --> decoded_text[131:136] 'Internet' --> '[UNK]'", + "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- [UNK] dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[10:14] --> decoded_text[13:18] 'être' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- [UNK] n'envoie que [UNK] peu de sms et n'appelle personne", + "diff": [ + "replace text[2:4] --> decoded_text[2:7] 'Je' --> '[UNK]'", + "replace text[18:22] --> decoded_text[21:26] 'très' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- [UNK]'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:7] 'J' --> '[UNK]'", + "replace text[16:17] --> decoded_text[20:25] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[51:52] '' --> ' '", + "insert text[50:50] --> decoded_text[59:60] '' --> ' '", + "replace text[95:104] --> decoded_text[105:110] 'capacités' --> '[UNK]'", + "replace text[108:118] --> decoded_text[114:119] 'réflexions' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..49b7b3211acd8b58d93487620f012c012f8cc783 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.zh-Hans.diff.json @@ -0,0 +1,1110 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 [UNK] 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:133] --> decoded_text[240:249] '车4S' --> ' 车 [UNK] '", + "insert text[134:134] --> decoded_text[250:251] '' --> ' '", + "insert text[135:135] --> decoded_text[252:253] '' --> ' '", + "replace text[136:137] --> decoded_text[254:257] ',' --> ' , '", + "insert text[138:138] --> decoded_text[258:259] '' --> ' '", + "insert text[139:139] --> decoded_text[260:261] '' --> ' '", + "insert text[140:140] --> decoded_text[262:263] '' --> ' '", + "replace text[141:142] --> decoded_text[264:267] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[268:269] '' --> ' '", + "insert text[144:144] --> decoded_text[270:271] '' --> ' '", + "replace text[145:146] --> decoded_text[272:275] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[276:277] '' --> ' '", + "replace text[148:149] --> decoded_text[278:281] ',' --> ' , '", + "insert text[150:150] --> decoded_text[282:283] '' --> ' '", + "insert text[151:151] --> decoded_text[284:285] '' --> ' '", + "insert text[152:152] --> decoded_text[286:287] '' --> ' '", + "replace text[153:154] --> decoded_text[288:291] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[292:293] '' --> ' '", + "insert text[156:156] --> decoded_text[294:295] '' --> ' '", + "insert text[157:157] --> decoded_text[296:297] '' --> ' '", + "insert text[158:158] --> decoded_text[298:299] '' --> ' '", + "insert text[159:159] --> decoded_text[300:301] '' --> ' '", + "insert text[163:163] --> decoded_text[305:306] '' --> ' '", + "insert text[164:164] --> decoded_text[307:308] '' --> ' '", + "insert text[165:165] --> decoded_text[309:310] '' --> ' '", + "insert text[166:166] --> decoded_text[311:312] '' --> ' '", + "insert text[167:167] --> decoded_text[313:314] '' --> ' '", + "replace text[168:169] --> decoded_text[315:318] ',' --> ' , '", + "insert text[170:170] --> decoded_text[319:320] '' --> ' '", + "replace text[171:173] --> decoded_text[321:326] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[327:328] '' --> ' '", + "insert text[175:175] --> decoded_text[329:330] '' --> ' '", + "insert text[176:176] --> decoded_text[331:332] '' --> ' '", + "insert text[177:177] --> decoded_text[333:334] '' --> ' '", + "insert text[178:178] --> decoded_text[335:336] '' --> ' '", + "insert text[179:179] --> decoded_text[337:338] '' --> ' '", + "insert text[180:180] --> decoded_text[339:340] '' --> ' '", + "insert text[181:181] --> decoded_text[341:342] '' --> ' '", + "insert text[182:182] --> decoded_text[343:344] '' --> ' '", + "replace text[183:184] --> decoded_text[345:348] ',' --> ' , '", + "insert text[185:185] --> decoded_text[349:350] '' --> ' '", + "insert text[186:186] --> decoded_text[351:352] '' --> ' '", + "insert text[187:187] --> decoded_text[353:354] '' --> ' '", + "insert text[188:188] --> decoded_text[355:356] '' --> ' '", + "replace text[189:190] --> decoded_text[357:360] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[361:362] '' --> ' '", + "insert text[192:192] --> decoded_text[363:364] '' --> ' '", + "insert text[193:193] --> decoded_text[365:366] '' --> ' '", + "insert text[194:194] --> decoded_text[367:368] '' --> ' '", + "insert text[195:195] --> decoded_text[369:370] '' --> ' '", + "insert text[196:196] --> decoded_text[371:372] '' --> ' '", + "insert text[206:206] --> decoded_text[382:383] '' --> ' '", + "insert text[207:207] --> decoded_text[384:385] '' --> ' '", + "insert text[211:211] --> decoded_text[389:390] '' --> ' '", + "insert text[212:212] --> decoded_text[391:392] '' --> ' '", + "insert text[213:213] --> decoded_text[393:394] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004672897196261682, + "oov_charset": "[\"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( [UNK] ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( [UNK] ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 [UNK] 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 [UNK] 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:72] --> decoded_text[121:128] 'RingoStarr' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[129:130] '' --> ' '", + "insert text[74:74] --> decoded_text[131:132] '' --> ' '", + "insert text[75:75] --> decoded_text[133:134] '' --> ' '", + "insert text[76:76] --> decoded_text[135:136] '' --> ' '", + "insert text[77:77] --> decoded_text[137:138] '' --> ' '", + "insert text[78:78] --> decoded_text[139:140] '' --> ' '", + "insert text[79:79] --> decoded_text[141:142] '' --> ' '", + "replace text[80:81] --> decoded_text[143:146] ',' --> ' , '", + "insert text[82:82] --> decoded_text[147:148] '' --> ' '", + "insert text[83:83] --> decoded_text[149:150] '' --> ' '", + "insert text[84:84] --> decoded_text[151:152] '' --> ' '", + "insert text[85:85] --> decoded_text[153:154] '' --> ' '", + "insert text[86:86] --> decoded_text[155:156] '' --> ' '", + "insert text[87:87] --> decoded_text[157:158] '' --> ' '", + "insert text[88:88] --> decoded_text[159:160] '' --> ' '", + "insert text[89:89] --> decoded_text[161:162] '' --> ' '", + "insert text[90:90] --> decoded_text[163:164] '' --> ' '", + "insert text[91:91] --> decoded_text[165:166] '' --> ' '", + "insert text[92:92] --> decoded_text[167:168] '' --> ' '", + "insert text[93:93] --> decoded_text[169:170] '' --> ' '", + "replace text[94:95] --> decoded_text[171:174] ',' --> ' , '", + "insert text[96:96] --> decoded_text[175:176] '' --> ' '", + "insert text[97:97] --> decoded_text[177:178] '' --> ' '", + "insert text[98:98] --> decoded_text[179:180] '' --> ' '", + "insert text[99:99] --> decoded_text[181:182] '' --> ' '", + "insert text[100:100] --> decoded_text[183:184] '' --> ' '", + "insert text[101:101] --> decoded_text[185:186] '' --> ' '", + "insert text[102:102] --> decoded_text[187:188] '' --> ' '", + "insert text[103:103] --> decoded_text[189:190] '' --> ' '", + "insert text[104:104] --> decoded_text[191:192] '' --> ' '", + "insert text[105:105] --> decoded_text[193:194] '' --> ' '", + "insert text[106:106] --> decoded_text[195:196] '' --> ' '", + "insert text[107:107] --> decoded_text[197:198] '' --> ' '", + "insert text[108:108] --> decoded_text[199:200] '' --> ' '", + "insert text[109:109] --> decoded_text[201:202] '' --> ' '", + "insert text[110:110] --> decoded_text[203:204] '' --> ' '", + "insert text[111:111] --> decoded_text[205:206] '' --> ' '", + "replace text[112:124] --> decoded_text[207:214] 'JuliaRoberts' --> ' [UNK] '", + "insert text[125:125] --> decoded_text[215:216] '' --> ' '", + "insert text[126:126] --> decoded_text[217:218] '' --> ' '", + "insert text[127:127] --> decoded_text[219:220] '' --> ' '", + "insert text[128:128] --> decoded_text[221:222] '' --> ' '", + "insert text[129:129] --> decoded_text[223:224] '' --> ' '", + "insert text[130:130] --> decoded_text[225:226] '' --> ' '", + "insert text[131:131] --> decoded_text[227:228] '' --> ' '", + "insert text[132:132] --> decoded_text[229:230] '' --> ' '", + "replace text[133:134] --> decoded_text[231:234] ',' --> ' , '", + "insert text[135:135] --> decoded_text[235:236] '' --> ' '", + "insert text[136:136] --> decoded_text[237:238] '' --> ' '", + "insert text[137:137] --> decoded_text[239:240] '' --> ' '", + "insert text[138:138] --> decoded_text[241:242] '' --> ' '", + "insert text[139:139] --> decoded_text[243:244] '' --> ' '", + "insert text[140:140] --> decoded_text[245:246] '' --> ' '", + "insert text[141:141] --> decoded_text[247:248] '' --> ' '", + "insert text[142:142] --> decoded_text[249:250] '' --> ' '", + "insert text[143:143] --> decoded_text[251:252] '' --> ' '", + "insert text[144:144] --> decoded_text[253:254] '' --> ' '", + "replace text[145:146] --> decoded_text[255:258] ',' --> ' , '", + "insert text[147:147] --> decoded_text[259:260] '' --> ' '", + "insert text[148:148] --> decoded_text[261:262] '' --> ' '", + "insert text[149:149] --> decoded_text[263:264] '' --> ' '", + "insert text[150:150] --> decoded_text[265:266] '' --> ' '", + "insert text[151:151] --> decoded_text[267:268] '' --> ' '", + "replace text[152:162] --> decoded_text[269:276] 'QueenieEye' --> ' [UNK] '", + "replace text[163:164] --> decoded_text[277:280] ',' --> ' , '", + "insert text[165:165] --> decoded_text[281:282] '' --> ' '", + "insert text[166:166] --> decoded_text[283:284] '' --> ' '", + "insert text[167:167] --> decoded_text[285:286] '' --> ' '", + "insert text[168:168] --> decoded_text[287:288] '' --> ' '", + "insert text[169:169] --> decoded_text[289:290] '' --> ' '", + "insert text[170:170] --> decoded_text[291:292] '' --> ' '", + "insert text[171:171] --> decoded_text[293:294] '' --> ' '", + "insert text[172:172] --> decoded_text[295:296] '' --> ' '", + "insert text[173:173] --> decoded_text[297:298] '' --> ' '", + "insert text[174:174] --> decoded_text[299:300] '' --> ' '", + "replace text[175:185] --> decoded_text[301:308] 'Photograph' --> ' [UNK] '", + "replace text[186:187] --> decoded_text[309:312] ',' --> ' , '", + "insert text[188:188] --> decoded_text[313:314] '' --> ' '", + "insert text[189:189] --> decoded_text[315:316] '' --> ' '", + "insert text[190:190] --> decoded_text[317:318] '' --> ' '", + "insert text[191:191] --> decoded_text[319:320] '' --> ' '", + "insert text[192:192] --> decoded_text[321:322] '' --> ' '", + "insert text[193:193] --> decoded_text[323:324] '' --> ' '", + "insert text[194:194] --> decoded_text[325:326] '' --> ' '", + "insert text[195:195] --> decoded_text[327:328] '' --> ' '", + "insert text[196:196] --> decoded_text[329:330] '' --> ' '", + "insert text[197:197] --> decoded_text[331:332] '' --> ' '", + "insert text[198:198] --> decoded_text[333:334] '' --> ' '", + "insert text[199:199] --> decoded_text[335:336] '' --> ' '", + "insert text[200:200] --> decoded_text[337:338] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..92f989959acf16c831a08b5f796077166cc1b839 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.en.diff.json @@ -0,0 +1,150 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "insert text[95:95] --> decoded_text[98:99] '' --> ' '", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..10aac206d5c107d7be7ba5f0faeff61508749510 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.es.diff.json @@ -0,0 +1,116 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la [UNK] criminal \" Los Sanguinarios del Norte Chico \" dedicados a la [UNK], robo, sicariato, [UNK] [UNK] de drogas. \", [UNK] Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[80:92] --> decoded_text[81:86] 'organización' --> '[UNK]'", + "insert text[103:103] --> decoded_text[97:98] '' --> ' '", + "replace text[135:161] --> decoded_text[130:153] '\" dedicados a la extorsión' --> ' \" dedicados a la [UNK]'", + "replace text[180:195] --> decoded_text[172:183] 'tráfico ilícito' --> '[UNK] [UNK]'", + "replace text[206:216] --> decoded_text[194:203] '\", explicó' --> ' \", [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022321428571428572, + "oov_charset": "[\"ó\", \"á\", \"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la [UNK] criminal.", + "diff": [ + "replace text[56:68] --> decoded_text[56:61] 'organización' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01282051282051282, + "oov_charset": "[\"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 [UNK]. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[130:139] --> decoded_text[130:135] 'vehículos' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El [UNK] de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de [UNK] de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[41:49] --> decoded_text[47:52] 'fijación' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"–\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El [UNK] o [UNK] de su disfrute se [UNK] de [UNK]", + "diff": [ + "replace text[6:13] --> decoded_text[6:11] 'período' --> '[UNK]'", + "replace text[16:24] --> decoded_text[14:19] 'períodos' --> '[UNK]'", + "replace text[43:49] --> decoded_text[38:43] 'fijará' --> '[UNK]'", + "replace text[53:58] --> decoded_text[47:52] 'común' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06896551724137931, + "oov_charset": "[\"í\", \"á\", \"ú\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre [UNK] anual de las vacaciones.", + "diff": [ + "replace text[6:19] --> decoded_text[6:11] 'planificación' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "En caso de desacuerdo entre las partes, la [UNK] competente", + "diff": [ + "replace text[43:55] --> decoded_text[43:48] 'jurisdicción' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015151515151515152, + "oov_charset": "[\"ó\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..877e2d30ebf91e2b7a957ad578062f06771ab388 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fr.diff.json @@ -0,0 +1,126 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir [UNK] de [UNK] ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", + "replace text[42:50] --> decoded_text[46:51] 'envisagé' --> '[UNK]'", + "replace text[54:59] --> decoded_text[55:60] 'créer' --> '[UNK]'", + "replace text[91:96] --> decoded_text[92:97] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[103:108] 'être' --> '[UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.03875968992248062, + "oov_charset": "[\"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on [UNK].", + "diff": [ + "replace text[74:84] --> decoded_text[74:79] 'réfléchira' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.023529411764705882, + "oov_charset": "[\"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas [UNK] de vous [UNK] [UNK]", + "diff": [ + "replace text[33:39] --> decoded_text[33:38] 'obligé' --> '[UNK]'", + "replace text[48:56] --> decoded_text[47:52] 'dévoilez' --> '[UNK]'", + "replace text[57:68] --> decoded_text[53:58] 'entièrement' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.04411764705882353, + "oov_charset": "[\"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de [UNK], par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la [UNK]? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[117:124] --> decoded_text[117:122] 'mémoire' --> '[UNK]'", + "insert text[159:159] --> decoded_text[157:158] '' --> ' '", + "replace text[176:194] --> decoded_text[175:194] 'ça dans la soirée ' --> '[UNK] dans la [UNK]'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012295081967213115, + "oov_charset": "[\"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma [UNK] dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[67:71] --> decoded_text[67:72] 'mère' --> '[UNK]'", + "replace text[224:225] --> decoded_text[225:230] 'à' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008547008547008548, + "oov_charset": "[\"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et [UNK] tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma [UNK] devant un magasin, je [UNK] [UNK] la [UNK] du monde.", + "diff": [ + "replace text[15:24] --> decoded_text[15:20] 'réfléchit' --> '[UNK]'", + "replace text[63:64] --> decoded_text[59:64] 'à' --> '[UNK]'", + "replace text[132:136] --> decoded_text[132:137] 'mère' --> '[UNK]'", + "replace text[159:168] --> decoded_text[160:165] 'réfléchit' --> '[UNK]'", + "replace text[169:170] --> decoded_text[166:171] 'à' --> '[UNK]'", + "replace text[174:182] --> decoded_text[175:180] 'création' --> '[UNK]'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"é\", \"à\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du [UNK], et ait tendance [UNK] [UNK] ceux que je connais par Internet ou ailleurs qu'au [UNK]", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[67:72] --> decoded_text[69:74] 'lycée' --> '[UNK]'", + "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'", + "replace text[92:100] --> decoded_text[98:103] 'preférer' --> '[UNK]'", + "replace text[152:157] --> decoded_text[155:160] 'lycée' --> '[UNK]'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.025477707006369428, + "oov_charset": "[\"é\", \"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que [UNK] peu de sms et n'appelle personne", + "diff": [ + "replace text[18:22] --> decoded_text[18:23] 'très' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01818181818181818, + "oov_charset": "[\"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de [UNK] de [UNK], et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[47:48] '' --> ' '", + "insert text[50:50] --> decoded_text[55:56] '' --> ' '", + "replace text[95:104] --> decoded_text[101:106] 'capacités' --> '[UNK]'", + "replace text[108:118] --> decoded_text[110:115] 'réflexions' --> '[UNK]'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.020134228187919462, + "oov_charset": "[\"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..25f6a6679b9dd1e9c685b7654416fe5fec4fd49a --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,136 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4S [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6000 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:37] --> decoded_text[79:122] '卡尔・斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[41:131] --> decoded_text[126:667] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[133:159] --> decoded_text[669:826] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[163:196] --> decoded_text[830:1029] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[1039:1046] '转' --> ' [UNK] '", + "replace text[211:214] --> decoded_text[1050:1068] '详询:' --> ' [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:124] --> decoded_text[0:743] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:80] --> decoded_text[0:479] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1999 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:43] --> decoded_text[0:258] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[47:78] --> decoded_text[262:448] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 [UNK] 28 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 50 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( RingoStarr ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( JuliaRoberts ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] QueenieEye [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] Photograph [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[1:2] --> decoded_text[1:8] '月' --> ' [UNK] '", + "replace text[4:30] --> decoded_text[10:167] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:61] --> decoded_text[169:344] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[345:346] '' --> ' '", + "insert text[72:72] --> decoded_text[356:357] '' --> ' '", + "replace text[73:111] --> decoded_text[358:587] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[112:112] --> decoded_text[588:589] '' --> ' '", + "insert text[124:124] --> decoded_text[601:602] '' --> ' '", + "replace text[125:152] --> decoded_text[603:766] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[162:175] --> decoded_text[776:855] '》,然后轮到后者演绎旧作《' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[185:201] --> decoded_text[865:961] '》,带领歌迷重温昔日的美好情怀。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 150, + "oov_ratio": 0.746268656716418, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"•\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 21 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 7 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 6 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 14 [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:23] --> decoded_text[0:138] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:32] --> decoded_text[140:183] '元,但司机到账' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[34:44] --> decoded_text[185:246] '元,因此,司机给记者' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:54] --> decoded_text[247:302] '元,除去之前支付的' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[55:61] --> decoded_text[303:340] '元,记者净赚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:73] --> decoded_text[341:408] '元,还免费乘了本应支付' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[75:79] --> decoded_text[410:434] '元的车。' --> ' [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2012 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] [UNK] [UNK] )", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '卡尔・斯利姆于' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[11:110] --> decoded_text[46:641] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[111:114] --> decoded_text[642:661] '方赵春' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:88] --> decoded_text[0:528] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[529:572] '号位,你非要走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:137] --> decoded_text[573:813] '号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 135, + "oov_ratio": 0.9854014598540146, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"“\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"”\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 360 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 600 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 2 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:36] --> decoded_text[0:216] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[39:53] --> decoded_text[219:304] '万元人民币,李娜每年的花费是' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:79] --> decoded_text[307:446] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:87] --> decoded_text[447:489] '万元就出去了。' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]", + "diff": [ + "replace text[0:132] --> decoded_text[0:791] '“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'" + ], + "n_oov_chars": 132, + "oov_ratio": 1.0, + "oov_charset": "[\"“\", \"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"‘\", \"血\", \"刀\", \"老\", \"祖\", \"’\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"”\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..92f989959acf16c831a08b5f796077166cc1b839 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.en.diff.json @@ -0,0 +1,150 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby [UNK] s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "replace text[229:230] --> decoded_text[234:241] '’' --> ' [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0038461538461538464, + "oov_charset": "[\"’\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] Within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent Christa Frosch of Sotheby [UNK] s tells BuzzBuzzNews.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[181:182] --> decoded_text[200:207] '’' --> ' [UNK] '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.019704433497536946, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.002570694087403599, + "oov_charset": "[\"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] We just went to the market yesterday, it [UNK] s private through Sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says Frosch.", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.04065040650406504, + "oov_charset": "[\"“\", \"’\", \"”\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.012658227848101266, + "oov_charset": "[\"—\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "insert text[95:95] --> decoded_text[98:99] '' --> ' '", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..611189f67c3331bdd63c0a008f5032b592c3a3a0 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.es.diff.json @@ -0,0 +1,113 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas. \", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"–\"]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "[UNK] Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"–\"]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici [UNK] en definitiva [UNK]. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:84] '…' --> ' [UNK] '", + "replace text[91:92] --> decoded_text[97:103] '…' --> ' [UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..bb60771e67b7b26cd11aef97f2b3f82db2080e34 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fr.diff.json @@ -0,0 +1,119 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire ça dans la soirée? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "delete text[193:194] --> decoded_text[194:194] ' ' --> ''", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs à tous et de tout \" remettre au propre \"", + "diff": [ + "insert text[71:71] --> decoded_text[71:72] '' --> ' '", + "insert text[89:89] --> decoded_text[90:91] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "insert text[229:229] --> decoded_text[230:231] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)", + "decoded_text": "- quand quelqu'un critique quelque chose ( ex. plan Vigipirate ) j'essaie tout de suite de réfléchir à une autre solution ( bon ça c'est normal mais je le dis quand même )", + "diff": [ + "insert text[42:42] --> decoded_text[42:43] '' --> ' '", + "insert text[61:61] --> decoded_text[62:63] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)", + "decoded_text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins ( généralement pas mon âge pile - poil, la plupart de mes amis ont un ou deux ans de plus que moi )", + "diff": [ + "insert text[82:82] --> decoded_text[82:83] '' --> ' '", + "insert text[111:111] --> decoded_text[112:113] '' --> ' '", + "insert text[112:112] --> decoded_text[114:115] '' --> ' '", + "insert text[175:175] --> decoded_text[178:179] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison ( et c'est moi qui le dis! ), je sais reconnaître quand j'ai tort", + "diff": [ + "insert text[127:127] --> decoded_text[127:128] '' --> ' '", + "insert text[150:150] --> decoded_text[151:152] '' --> '!'", + "delete text[151:152] --> decoded_text[153:153] '!' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'écris très vite et très mal (tout le monde s'en fout)", + "decoded_text": "- j'écris très vite et très mal ( tout le monde s'en fout )", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[56:56] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent", + "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre ( du moins la majorité ), mais je Cornichonçois peut - être trop bien que tout le monde est différent", + "diff": [ + "insert text[136:136] --> decoded_text[136:137] '' --> ' '", + "insert text[186:186] --> decoded_text[187:188] '' --> ' '", + "insert text[187:187] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..93de6c8f221db4bcc98171b0fcd7d95848c301dc --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.zh-Hans.diff.json @@ -0,0 +1,1114 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4S 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", + "insert text[133:133] --> decoded_text[245:246] '' --> ' '", + "insert text[134:134] --> decoded_text[247:248] '' --> ' '", + "insert text[135:135] --> decoded_text[249:250] '' --> ' '", + "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", + "insert text[138:138] --> decoded_text[255:256] '' --> ' '", + "insert text[139:139] --> decoded_text[257:258] '' --> ' '", + "insert text[140:140] --> decoded_text[259:260] '' --> ' '", + "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[265:266] '' --> ' '", + "insert text[144:144] --> decoded_text[267:268] '' --> ' '", + "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[273:274] '' --> ' '", + "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", + "insert text[150:150] --> decoded_text[279:280] '' --> ' '", + "insert text[151:151] --> decoded_text[281:282] '' --> ' '", + "insert text[152:152] --> decoded_text[283:284] '' --> ' '", + "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[289:290] '' --> ' '", + "insert text[156:156] --> decoded_text[291:292] '' --> ' '", + "insert text[157:157] --> decoded_text[293:294] '' --> ' '", + "insert text[158:158] --> decoded_text[295:296] '' --> ' '", + "insert text[159:159] --> decoded_text[297:298] '' --> ' '", + "insert text[163:163] --> decoded_text[302:303] '' --> ' '", + "insert text[164:164] --> decoded_text[304:305] '' --> ' '", + "insert text[165:165] --> decoded_text[306:307] '' --> ' '", + "insert text[166:166] --> decoded_text[308:309] '' --> ' '", + "insert text[167:167] --> decoded_text[310:311] '' --> ' '", + "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", + "insert text[170:170] --> decoded_text[316:317] '' --> ' '", + "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[324:325] '' --> ' '", + "insert text[175:175] --> decoded_text[326:327] '' --> ' '", + "insert text[176:176] --> decoded_text[328:329] '' --> ' '", + "insert text[177:177] --> decoded_text[330:331] '' --> ' '", + "insert text[178:178] --> decoded_text[332:333] '' --> ' '", + "insert text[179:179] --> decoded_text[334:335] '' --> ' '", + "insert text[180:180] --> decoded_text[336:337] '' --> ' '", + "insert text[181:181] --> decoded_text[338:339] '' --> ' '", + "insert text[182:182] --> decoded_text[340:341] '' --> ' '", + "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", + "insert text[185:185] --> decoded_text[346:347] '' --> ' '", + "insert text[186:186] --> decoded_text[348:349] '' --> ' '", + "insert text[187:187] --> decoded_text[350:351] '' --> ' '", + "insert text[188:188] --> decoded_text[352:353] '' --> ' '", + "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[358:359] '' --> ' '", + "insert text[192:192] --> decoded_text[360:361] '' --> ' '", + "insert text[193:193] --> decoded_text[362:363] '' --> ' '", + "insert text[194:194] --> decoded_text[364:365] '' --> ' '", + "insert text[195:195] --> decoded_text[366:367] '' --> ' '", + "insert text[196:196] --> decoded_text[368:369] '' --> ' '", + "insert text[206:206] --> decoded_text[379:380] '' --> ' '", + "insert text[207:207] --> decoded_text[381:382] '' --> ' '", + "insert text[211:211] --> decoded_text[386:387] '' --> ' '", + "insert text[212:212] --> decoded_text[388:389] '' --> ' '", + "insert text[213:213] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( RingoStarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( JuliaRoberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 QueenieEye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 Photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "insert text[112:112] --> decoded_text[212:213] '' --> ' '", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "insert text[152:152] --> decoded_text[281:282] '' --> ' '", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "insert text[175:175] --> decoded_text[318:319] '' --> ' '", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 [UNK] 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "replace text[74:75] --> decoded_text[143:150] '睁' --> ' [UNK] '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "insert text[83:83] --> decoded_text[165:166] '' --> ' '", + "insert text[84:84] --> decoded_text[167:168] '' --> ' '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011494252873563218, + "oov_charset": "[\"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..5d8eb47c6425470309be552e986a6c2ca06970be --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.en.diff.json @@ -0,0 +1,163 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby [UNK] s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:254] --> decoded_text[205:265] 'end real estate firm Sotheby’s International Realty C' --> ' end real estate firm sotheby [UNK] s international realty c'" + ], + "n_oov_chars": 9, + "oov_ratio": 0.03461538461538462, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"’\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "[UNK] within the city we [UNK] ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, [UNK] listing agent christa frosch of sotheby [UNK] s tells buzzbuzznews.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[19:20] --> decoded_text[24:31] '’' --> ' [UNK] '", + "insert text[53:53] --> decoded_text[64:65] '' --> ' '", + "insert text[66:66] --> decoded_text[78:79] '' --> ' '", + "insert text[79:79] --> decoded_text[92:93] '' --> ' '", + "replace text[140:141] --> decoded_text[154:160] '”' --> ' [UNK]'", + "replace text[156:175] --> decoded_text[175:194] 'Christa Frosch of S' --> 'christa frosch of s'", + "replace text[181:191] --> decoded_text[200:216] '’s tells B' --> ' [UNK] s tells b'", + "replace text[194:195] --> decoded_text[219:220] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[223:224] 'N' --> 'n'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.054187192118226604, + "oov_charset": "[\"“\", \"W\", \"’\", \"”\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law [UNK] s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "insert text[340:340] --> decoded_text[345:346] '' --> ' '", + "insert text[376:376] --> decoded_text[382:383] '' --> ' '", + "replace text[377:381] --> decoded_text[384:395] 'law’' --> ' law [UNK] '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.015424164524421594, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\", \"’\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "[UNK] we just went to the market yesterday, it [UNK] s private through sotheby [UNK] s and we [UNK] ve already started to get calls, [UNK] says frosch.", + "diff": [ + "replace text[0:2] --> decoded_text[0:7] '“W' --> '[UNK] w'", + "replace text[41:42] --> decoded_text[46:53] '’' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[71:72] 'S' --> 's'", + "replace text[67:68] --> decoded_text[78:85] '’' --> ' [UNK] '", + "replace text[76:77] --> decoded_text[93:100] '’' --> ' [UNK] '", + "replace text[109:110] --> decoded_text[132:138] '”' --> ' [UNK]'", + "replace text[116:117] --> decoded_text[144:145] 'F' --> 'f'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06504065040650407, + "oov_charset": "[\"“\", \"W\", \"’\", \"S\", \"”\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated [UNK] that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( [UNK] sips [UNK] ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[18:19] --> decoded_text[18:25] '—' --> ' [UNK] '", + "insert text[57:57] --> decoded_text[63:64] '' --> ' '", + "replace text[80:83] --> decoded_text[87:92] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[93:102] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[114:115] 'Y' --> 'y'", + "replace text[139:140] --> decoded_text[150:157] '“' --> ' [UNK] '", + "replace text[144:145] --> decoded_text[161:168] '”' --> ' [UNK] '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.02109704641350211, + "oov_charset": "[\"S\", \"—\", \"Y\", \"“\", \"”\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..d54201f9a79b49121401230064fece83ff7e6693 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.es.diff.json @@ -0,0 +1,132 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "[UNK] art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '–' --> '[UNK]'", + "replace text[2:3] --> decoded_text[6:7] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[14:15] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[19:20] '' --> ' '", + "insert text[16:16] --> decoded_text[21:22] '' --> ' '", + "replace text[47:48] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.06349206349206349, + "oov_charset": "[\"–\", \"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7e714033a0cc358131096cad35cb5f96f3b975c6 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,1118 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍 招 财 带 什 么 佛 牌 卍 ( www. suzastampin. com ) 卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 。 近 日 , 编 辑 专 门 联 系 到 山 西 传 奇 北 京 现 代 汽 车 4s 店 得 知 , 店 内 朗 动 车 型 有 现 车 供 应 , 现 阶 段 购 车 可 享 受 最 高 6000 元 优 惠 幅 度 , 具 体 的 车 型 和 价 格 情 况 请 见 下 表 , 同 时 感 兴 趣 的 朋 友 还 可 致 电 4008112233 转 3456 详 询 :", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[26:26] --> decoded_text[37:38] '' --> ' '", + "insert text[29:29] --> decoded_text[41:42] '' --> ' '", + "insert text[30:30] --> decoded_text[43:44] '' --> ' '", + "insert text[31:31] --> decoded_text[45:46] '' --> ' '", + "insert text[32:32] --> decoded_text[47:48] '' --> ' '", + "insert text[33:33] --> decoded_text[49:50] '' --> ' '", + "insert text[34:34] --> decoded_text[51:52] '' --> ' '", + "insert text[35:35] --> decoded_text[53:54] '' --> ' '", + "insert text[36:36] --> decoded_text[55:56] '' --> ' '", + "insert text[37:37] --> decoded_text[57:58] '' --> ' '", + "insert text[41:41] --> decoded_text[62:63] '' --> ' '", + "insert text[42:42] --> decoded_text[64:65] '' --> ' '", + "insert text[43:43] --> decoded_text[66:67] '' --> ' '", + "insert text[44:44] --> decoded_text[68:69] '' --> ' '", + "insert text[45:45] --> decoded_text[70:71] '' --> ' '", + "insert text[46:46] --> decoded_text[72:73] '' --> ' '", + "replace text[47:48] --> decoded_text[74:77] '车' --> ' 车 '", + "insert text[49:49] --> decoded_text[78:79] '' --> ' '", + "insert text[50:50] --> decoded_text[80:81] '' --> ' '", + "insert text[51:51] --> decoded_text[82:83] '' --> ' '", + "insert text[52:52] --> decoded_text[84:85] '' --> ' '", + "insert text[53:53] --> decoded_text[86:87] '' --> ' '", + "insert text[54:54] --> decoded_text[88:89] '' --> ' '", + "insert text[55:55] --> decoded_text[90:91] '' --> ' '", + "insert text[56:56] --> decoded_text[92:93] '' --> ' '", + "replace text[57:58] --> decoded_text[94:97] ',' --> ' , '", + "insert text[59:59] --> decoded_text[98:99] '' --> ' '", + "insert text[60:60] --> decoded_text[100:101] '' --> ' '", + "insert text[61:61] --> decoded_text[102:103] '' --> ' '", + "insert text[62:62] --> decoded_text[104:105] '' --> ' '", + "insert text[63:63] --> decoded_text[106:107] '' --> ' '", + "insert text[64:64] --> decoded_text[108:109] '' --> ' '", + "insert text[65:65] --> decoded_text[110:111] '' --> ' '", + "insert text[66:66] --> decoded_text[112:113] '' --> ' '", + "insert text[67:67] --> decoded_text[114:115] '' --> ' '", + "insert text[68:68] --> decoded_text[116:117] '' --> ' '", + "insert text[69:69] --> decoded_text[118:119] '' --> ' '", + "insert text[70:70] --> decoded_text[120:121] '' --> ' '", + "insert text[71:71] --> decoded_text[122:123] '' --> ' '", + "insert text[72:72] --> decoded_text[124:125] '' --> ' '", + "insert text[73:73] --> decoded_text[126:127] '' --> ' '", + "insert text[74:74] --> decoded_text[128:129] '' --> ' '", + "insert text[75:75] --> decoded_text[130:131] '' --> ' '", + "insert text[76:76] --> decoded_text[132:133] '' --> ' '", + "insert text[77:77] --> decoded_text[134:135] '' --> ' '", + "insert text[78:78] --> decoded_text[136:137] '' --> ' '", + "insert text[79:79] --> decoded_text[138:139] '' --> ' '", + "replace text[80:81] --> decoded_text[140:143] '的' --> ' 的 '", + "insert text[82:82] --> decoded_text[144:145] '' --> ' '", + "insert text[83:83] --> decoded_text[146:147] '' --> ' '", + "insert text[84:84] --> decoded_text[148:149] '' --> ' '", + "insert text[85:85] --> decoded_text[150:151] '' --> ' '", + "insert text[86:86] --> decoded_text[152:153] '' --> ' '", + "insert text[87:87] --> decoded_text[154:155] '' --> ' '", + "insert text[88:88] --> decoded_text[156:157] '' --> ' '", + "insert text[89:89] --> decoded_text[158:159] '' --> ' '", + "insert text[90:90] --> decoded_text[160:161] '' --> ' '", + "replace text[91:92] --> decoded_text[162:165] '的' --> ' 的 '", + "insert text[93:93] --> decoded_text[166:167] '' --> ' '", + "insert text[94:94] --> decoded_text[168:169] '' --> ' '", + "replace text[95:96] --> decoded_text[170:173] ',' --> ' , '", + "insert text[97:97] --> decoded_text[174:175] '' --> ' '", + "insert text[98:98] --> decoded_text[176:177] '' --> ' '", + "insert text[99:99] --> decoded_text[178:179] '' --> ' '", + "insert text[100:100] --> decoded_text[180:181] '' --> ' '", + "replace text[101:102] --> decoded_text[182:185] '车' --> ' 车 '", + "insert text[103:103] --> decoded_text[186:187] '' --> ' '", + "insert text[104:104] --> decoded_text[188:189] '' --> ' '", + "insert text[105:105] --> decoded_text[190:191] '' --> ' '", + "insert text[106:106] --> decoded_text[192:193] '' --> ' '", + "insert text[107:107] --> decoded_text[194:195] '' --> ' '", + "insert text[108:108] --> decoded_text[196:197] '' --> ' '", + "replace text[109:110] --> decoded_text[198:201] '的' --> ' 的 '", + "insert text[111:111] --> decoded_text[202:203] '' --> ' '", + "insert text[112:112] --> decoded_text[204:205] '' --> ' '", + "replace text[113:114] --> decoded_text[206:209] ',' --> ' , '", + "insert text[115:115] --> decoded_text[210:211] '' --> ' '", + "insert text[116:116] --> decoded_text[212:213] '' --> ' '", + "insert text[117:117] --> decoded_text[214:215] '' --> ' '", + "insert text[118:118] --> decoded_text[216:217] '' --> ' '", + "insert text[119:119] --> decoded_text[218:219] '' --> ' '", + "insert text[120:120] --> decoded_text[220:221] '' --> ' '", + "insert text[121:121] --> decoded_text[222:223] '' --> ' '", + "insert text[122:122] --> decoded_text[224:225] '' --> ' '", + "insert text[123:123] --> decoded_text[226:227] '' --> ' '", + "insert text[124:124] --> decoded_text[228:229] '' --> ' '", + "insert text[125:125] --> decoded_text[230:231] '' --> ' '", + "insert text[126:126] --> decoded_text[232:233] '' --> ' '", + "insert text[127:127] --> decoded_text[234:235] '' --> ' '", + "insert text[128:128] --> decoded_text[236:237] '' --> ' '", + "insert text[129:129] --> decoded_text[238:239] '' --> ' '", + "replace text[130:131] --> decoded_text[240:243] '车' --> ' 车 '", + "replace text[132:133] --> decoded_text[244:246] 'S' --> 's '", + "insert text[134:134] --> decoded_text[247:248] '' --> ' '", + "insert text[135:135] --> decoded_text[249:250] '' --> ' '", + "replace text[136:137] --> decoded_text[251:254] ',' --> ' , '", + "insert text[138:138] --> decoded_text[255:256] '' --> ' '", + "insert text[139:139] --> decoded_text[257:258] '' --> ' '", + "insert text[140:140] --> decoded_text[259:260] '' --> ' '", + "replace text[141:142] --> decoded_text[261:264] '车' --> ' 车 '", + "insert text[143:143] --> decoded_text[265:266] '' --> ' '", + "insert text[144:144] --> decoded_text[267:268] '' --> ' '", + "replace text[145:146] --> decoded_text[269:272] '车' --> ' 车 '", + "insert text[147:147] --> decoded_text[273:274] '' --> ' '", + "replace text[148:149] --> decoded_text[275:278] ',' --> ' , '", + "insert text[150:150] --> decoded_text[279:280] '' --> ' '", + "insert text[151:151] --> decoded_text[281:282] '' --> ' '", + "insert text[152:152] --> decoded_text[283:284] '' --> ' '", + "replace text[153:154] --> decoded_text[285:288] '车' --> ' 车 '", + "insert text[155:155] --> decoded_text[289:290] '' --> ' '", + "insert text[156:156] --> decoded_text[291:292] '' --> ' '", + "insert text[157:157] --> decoded_text[293:294] '' --> ' '", + "insert text[158:158] --> decoded_text[295:296] '' --> ' '", + "insert text[159:159] --> decoded_text[297:298] '' --> ' '", + "insert text[163:163] --> decoded_text[302:303] '' --> ' '", + "insert text[164:164] --> decoded_text[304:305] '' --> ' '", + "insert text[165:165] --> decoded_text[306:307] '' --> ' '", + "insert text[166:166] --> decoded_text[308:309] '' --> ' '", + "insert text[167:167] --> decoded_text[310:311] '' --> ' '", + "replace text[168:169] --> decoded_text[312:315] ',' --> ' , '", + "insert text[170:170] --> decoded_text[316:317] '' --> ' '", + "replace text[171:173] --> decoded_text[318:323] '的车' --> ' 的 车 '", + "insert text[174:174] --> decoded_text[324:325] '' --> ' '", + "insert text[175:175] --> decoded_text[326:327] '' --> ' '", + "insert text[176:176] --> decoded_text[328:329] '' --> ' '", + "insert text[177:177] --> decoded_text[330:331] '' --> ' '", + "insert text[178:178] --> decoded_text[332:333] '' --> ' '", + "insert text[179:179] --> decoded_text[334:335] '' --> ' '", + "insert text[180:180] --> decoded_text[336:337] '' --> ' '", + "insert text[181:181] --> decoded_text[338:339] '' --> ' '", + "insert text[182:182] --> decoded_text[340:341] '' --> ' '", + "replace text[183:184] --> decoded_text[342:345] ',' --> ' , '", + "insert text[185:185] --> decoded_text[346:347] '' --> ' '", + "insert text[186:186] --> decoded_text[348:349] '' --> ' '", + "insert text[187:187] --> decoded_text[350:351] '' --> ' '", + "insert text[188:188] --> decoded_text[352:353] '' --> ' '", + "replace text[189:190] --> decoded_text[354:357] '的' --> ' 的 '", + "insert text[191:191] --> decoded_text[358:359] '' --> ' '", + "insert text[192:192] --> decoded_text[360:361] '' --> ' '", + "insert text[193:193] --> decoded_text[362:363] '' --> ' '", + "insert text[194:194] --> decoded_text[364:365] '' --> ' '", + "insert text[195:195] --> decoded_text[366:367] '' --> ' '", + "insert text[196:196] --> decoded_text[368:369] '' --> ' '", + "insert text[206:206] --> decoded_text[379:380] '' --> ' '", + "insert text[207:207] --> decoded_text[381:382] '' --> ' '", + "insert text[211:211] --> decoded_text[386:387] '' --> ' '", + "insert text[212:212] --> decoded_text[388:389] '' --> ' '", + "insert text[213:213] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004672897196261682, + "oov_charset": "[\"S\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 个 类 似 美 国 大 片 《 幸 福 终 点 站 》 的 案 例 令 中 国 驻 圣 彼 得 堡 领 事 官 胡 滨 印 象 深 刻 。 由 于 行 前 未 能 仔 细 核 对 签 证 有 效 期 , 一 对 赴 俄 罗 斯 旅 游 的 中 国 夫 妇 因 为 签 证 过 期 差 点 被 困 在 俄 罗 斯 。 在 胡 滨 的 协 助 下 , 这 对 夫 妇 经 历 了 惊 心 动 魄 的 3 小 时 , 终 于 在 飞 机 起 飞 前 5 分 钟 , 登 上 返 程 的 航 班 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "replace text[15:16] --> decoded_text[29:32] '的' --> ' 的 '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "replace text[51:52] --> decoded_text[101:104] ',' --> ' , '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "replace text[60:61] --> decoded_text[119:122] '的' --> ' 的 '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '", + "insert text[80:80] --> decoded_text[159:160] '' --> ' '", + "insert text[81:81] --> decoded_text[161:162] '' --> ' '", + "insert text[82:82] --> decoded_text[163:164] '' --> ' '", + "replace text[83:84] --> decoded_text[165:168] '的' --> ' 的 '", + "insert text[85:85] --> decoded_text[169:170] '' --> ' '", + "insert text[86:86] --> decoded_text[171:172] '' --> ' '", + "replace text[87:88] --> decoded_text[173:176] ',' --> ' , '", + "insert text[89:89] --> decoded_text[177:178] '' --> ' '", + "insert text[90:90] --> decoded_text[179:180] '' --> ' '", + "insert text[91:91] --> decoded_text[181:182] '' --> ' '", + "insert text[92:92] --> decoded_text[183:184] '' --> ' '", + "insert text[93:93] --> decoded_text[185:186] '' --> ' '", + "insert text[94:94] --> decoded_text[187:188] '' --> ' '", + "insert text[95:95] --> decoded_text[189:190] '' --> ' '", + "insert text[96:96] --> decoded_text[191:192] '' --> ' '", + "insert text[97:97] --> decoded_text[193:194] '' --> ' '", + "insert text[98:98] --> decoded_text[195:196] '' --> ' '", + "replace text[99:100] --> decoded_text[197:200] '的' --> ' 的 '", + "insert text[101:101] --> decoded_text[201:202] '' --> ' '", + "insert text[102:102] --> decoded_text[203:204] '' --> ' '", + "replace text[103:104] --> decoded_text[205:208] ',' --> ' , '", + "insert text[105:105] --> decoded_text[209:210] '' --> ' '", + "insert text[106:106] --> decoded_text[211:212] '' --> ' '", + "insert text[107:107] --> decoded_text[213:214] '' --> ' '", + "insert text[108:108] --> decoded_text[215:216] '' --> ' '", + "insert text[109:109] --> decoded_text[217:218] '' --> ' '", + "insert text[110:110] --> decoded_text[219:220] '' --> ' '", + "insert text[111:111] --> decoded_text[221:222] '' --> ' '", + "insert text[112:112] --> decoded_text[223:224] '' --> ' '", + "insert text[113:113] --> decoded_text[225:226] '' --> ' '", + "insert text[114:114] --> decoded_text[227:228] '' --> ' '", + "replace text[115:116] --> decoded_text[229:232] ',' --> ' , '", + "insert text[117:117] --> decoded_text[233:234] '' --> ' '", + "insert text[118:118] --> decoded_text[235:236] '' --> ' '", + "insert text[119:119] --> decoded_text[237:238] '' --> ' '", + "replace text[120:121] --> decoded_text[239:242] '的' --> ' 的 '", + "insert text[122:122] --> decoded_text[243:244] '' --> ' '", + "insert text[123:123] --> decoded_text[245:246] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招 财 带 什 么 佛 牌 张 德 江 在 致 辞 中 表 示 , 中 法 建 交 开 启 了 中 法 两 个 伟 大 国 家 友 好 关 系 的 新 纪 元 , 树 立 了 不 同 社 会 制 度 国 家 和 平 共 处 的 新 典 范 , 对 国 际 战 略 格 局 产 生 了 重 大 而 深 远 的 影 响 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[44:44] --> decoded_text[87:88] '' --> ' '", + "insert text[45:45] --> decoded_text[89:90] '' --> ' '", + "insert text[46:46] --> decoded_text[91:92] '' --> ' '", + "insert text[47:47] --> decoded_text[93:94] '' --> ' '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "insert text[55:55] --> decoded_text[109:110] '' --> ' '", + "insert text[56:56] --> decoded_text[111:112] '' --> ' '", + "insert text[57:57] --> decoded_text[113:114] '' --> ' '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "insert text[63:63] --> decoded_text[125:126] '' --> ' '", + "insert text[64:64] --> decoded_text[127:128] '' --> ' '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "insert text[66:66] --> decoded_text[131:132] '' --> ' '", + "insert text[67:67] --> decoded_text[133:134] '' --> ' '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "insert text[70:70] --> decoded_text[139:140] '' --> ' '", + "insert text[71:71] --> decoded_text[141:142] '' --> ' '", + "insert text[72:72] --> decoded_text[143:144] '' --> ' '", + "insert text[73:73] --> decoded_text[145:146] '' --> ' '", + "insert text[74:74] --> decoded_text[147:148] '' --> ' '", + "insert text[75:75] --> decoded_text[149:150] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "insert text[77:77] --> decoded_text[153:154] '' --> ' '", + "insert text[78:78] --> decoded_text[155:156] '' --> ' '", + "insert text[79:79] --> decoded_text[157:158] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招 财 带 什 么 佛 牌 科 斯 格 罗 夫 一 直 供 职 于 军 队 , 曾 被 派 往 马 来 西 亚 、 越 南 、 英 国 、 印 度 、 美 国 工 作 。 1999 年 , 他 成 为 联 合 国 驻 东 帝 汶 部 队 司 令 , 监 督 东 帝 汶 向 独 立 国 家 的 过 渡 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[38:38] --> decoded_text[75:76] '' --> ' '", + "insert text[39:39] --> decoded_text[77:78] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[41:41] --> decoded_text[81:82] '' --> ' '", + "insert text[42:42] --> decoded_text[83:84] '' --> ' '", + "insert text[43:43] --> decoded_text[85:86] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "insert text[50:50] --> decoded_text[96:97] '' --> ' '", + "insert text[51:51] --> decoded_text[98:99] '' --> ' '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "insert text[61:61] --> decoded_text[118:119] '' --> ' '", + "insert text[62:62] --> decoded_text[120:121] '' --> ' '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "insert text[70:70] --> decoded_text[136:137] '' --> ' '", + "insert text[71:71] --> decoded_text[138:139] '' --> ' '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 电 据 香 港 《 明 报 》 消 息 , 在 庆 祝 披 头 士 进 军 美 国 音 乐 市 场 50 周 年 的 纪 念 日 子 , 格 莱 美 向 两 名 仅 存 成 员 : 保 罗 麦 卡 尼 及 灵 高 史 达 ( ringostarr ) 颁 发 终 身 成 就 奖 , 显 得 别 具 意 义 。 为 了 隆 重 其 事 , 大 会 请 来 金 像 影 后 茱 莉 亚 • • 罗 伯 茨 ( juliaroberts ) 负 责 介 绍 二 人 出 场 , 保 罗 在 拍 档 的 鼓 声 和 应 下 , 先 献 唱 新 歌 《 queenieeye 》 , 然 后 轮 到 后 者 演 绎 旧 作 《 photograph 》 , 带 领 歌 迷 重 温 昔 日 的 美 好 情 怀 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "insert text[5:5] --> decoded_text[8:9] '' --> ' '", + "insert text[6:6] --> decoded_text[10:11] '' --> ' '", + "insert text[7:7] --> decoded_text[12:13] '' --> ' '", + "insert text[8:8] --> decoded_text[14:15] '' --> ' '", + "insert text[9:9] --> decoded_text[16:17] '' --> ' '", + "insert text[10:10] --> decoded_text[18:19] '' --> ' '", + "insert text[11:11] --> decoded_text[20:21] '' --> ' '", + "insert text[12:12] --> decoded_text[22:23] '' --> ' '", + "insert text[13:13] --> decoded_text[24:25] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "replace text[15:16] --> decoded_text[28:31] ',' --> ' , '", + "insert text[17:17] --> decoded_text[32:33] '' --> ' '", + "insert text[18:18] --> decoded_text[34:35] '' --> ' '", + "insert text[19:19] --> decoded_text[36:37] '' --> ' '", + "insert text[20:20] --> decoded_text[38:39] '' --> ' '", + "insert text[21:21] --> decoded_text[40:41] '' --> ' '", + "insert text[22:22] --> decoded_text[42:43] '' --> ' '", + "insert text[23:23] --> decoded_text[44:45] '' --> ' '", + "insert text[24:24] --> decoded_text[46:47] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[32:32] --> decoded_text[61:62] '' --> ' '", + "insert text[33:33] --> decoded_text[63:64] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "replace text[39:40] --> decoded_text[75:78] ',' --> ' , '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "replace text[62:63] --> decoded_text[121:123] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[127:128] 'S' --> 's'", + "insert text[72:72] --> decoded_text[132:133] '' --> ' '", + "insert text[73:73] --> decoded_text[134:135] '' --> ' '", + "insert text[74:74] --> decoded_text[136:137] '' --> ' '", + "insert text[75:75] --> decoded_text[138:139] '' --> ' '", + "insert text[76:76] --> decoded_text[140:141] '' --> ' '", + "insert text[77:77] --> decoded_text[142:143] '' --> ' '", + "insert text[78:78] --> decoded_text[144:145] '' --> ' '", + "insert text[79:79] --> decoded_text[146:147] '' --> ' '", + "replace text[80:81] --> decoded_text[148:151] ',' --> ' , '", + "insert text[82:82] --> decoded_text[152:153] '' --> ' '", + "insert text[83:83] --> decoded_text[154:155] '' --> ' '", + "insert text[84:84] --> decoded_text[156:157] '' --> ' '", + "insert text[85:85] --> decoded_text[158:159] '' --> ' '", + "insert text[86:86] --> decoded_text[160:161] '' --> ' '", + "insert text[87:87] --> decoded_text[162:163] '' --> ' '", + "insert text[88:88] --> decoded_text[164:165] '' --> ' '", + "insert text[89:89] --> decoded_text[166:167] '' --> ' '", + "insert text[90:90] --> decoded_text[168:169] '' --> ' '", + "insert text[91:91] --> decoded_text[170:171] '' --> ' '", + "insert text[92:92] --> decoded_text[172:173] '' --> ' '", + "insert text[93:93] --> decoded_text[174:175] '' --> ' '", + "replace text[94:95] --> decoded_text[176:179] ',' --> ' , '", + "insert text[96:96] --> decoded_text[180:181] '' --> ' '", + "insert text[97:97] --> decoded_text[182:183] '' --> ' '", + "insert text[98:98] --> decoded_text[184:185] '' --> ' '", + "insert text[99:99] --> decoded_text[186:187] '' --> ' '", + "insert text[100:100] --> decoded_text[188:189] '' --> ' '", + "insert text[101:101] --> decoded_text[190:191] '' --> ' '", + "insert text[102:102] --> decoded_text[192:193] '' --> ' '", + "insert text[103:103] --> decoded_text[194:195] '' --> ' '", + "insert text[104:104] --> decoded_text[196:197] '' --> ' '", + "insert text[105:105] --> decoded_text[198:199] '' --> ' '", + "insert text[106:106] --> decoded_text[200:201] '' --> ' '", + "insert text[107:107] --> decoded_text[202:203] '' --> ' '", + "insert text[108:108] --> decoded_text[204:205] '' --> ' '", + "insert text[109:109] --> decoded_text[206:207] '' --> ' '", + "insert text[110:110] --> decoded_text[208:209] '' --> ' '", + "insert text[111:111] --> decoded_text[210:211] '' --> ' '", + "replace text[112:113] --> decoded_text[212:214] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[218:219] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[225:226] '' --> ' '", + "insert text[125:125] --> decoded_text[227:228] '' --> ' '", + "insert text[126:126] --> decoded_text[229:230] '' --> ' '", + "insert text[127:127] --> decoded_text[231:232] '' --> ' '", + "insert text[128:128] --> decoded_text[233:234] '' --> ' '", + "insert text[129:129] --> decoded_text[235:236] '' --> ' '", + "insert text[130:130] --> decoded_text[237:238] '' --> ' '", + "insert text[131:131] --> decoded_text[239:240] '' --> ' '", + "insert text[132:132] --> decoded_text[241:242] '' --> ' '", + "replace text[133:134] --> decoded_text[243:246] ',' --> ' , '", + "insert text[135:135] --> decoded_text[247:248] '' --> ' '", + "insert text[136:136] --> decoded_text[249:250] '' --> ' '", + "insert text[137:137] --> decoded_text[251:252] '' --> ' '", + "insert text[138:138] --> decoded_text[253:254] '' --> ' '", + "insert text[139:139] --> decoded_text[255:256] '' --> ' '", + "insert text[140:140] --> decoded_text[257:258] '' --> ' '", + "insert text[141:141] --> decoded_text[259:260] '' --> ' '", + "insert text[142:142] --> decoded_text[261:262] '' --> ' '", + "insert text[143:143] --> decoded_text[263:264] '' --> ' '", + "insert text[144:144] --> decoded_text[265:266] '' --> ' '", + "replace text[145:146] --> decoded_text[267:270] ',' --> ' , '", + "insert text[147:147] --> decoded_text[271:272] '' --> ' '", + "insert text[148:148] --> decoded_text[273:274] '' --> ' '", + "insert text[149:149] --> decoded_text[275:276] '' --> ' '", + "insert text[150:150] --> decoded_text[277:278] '' --> ' '", + "insert text[151:151] --> decoded_text[279:280] '' --> ' '", + "replace text[152:153] --> decoded_text[281:283] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[289:290] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[292:293] '' --> ' '", + "replace text[163:164] --> decoded_text[294:297] ',' --> ' , '", + "insert text[165:165] --> decoded_text[298:299] '' --> ' '", + "insert text[166:166] --> decoded_text[300:301] '' --> ' '", + "insert text[167:167] --> decoded_text[302:303] '' --> ' '", + "insert text[168:168] --> decoded_text[304:305] '' --> ' '", + "insert text[169:169] --> decoded_text[306:307] '' --> ' '", + "insert text[170:170] --> decoded_text[308:309] '' --> ' '", + "insert text[171:171] --> decoded_text[310:311] '' --> ' '", + "insert text[172:172] --> decoded_text[312:313] '' --> ' '", + "insert text[173:173] --> decoded_text[314:315] '' --> ' '", + "insert text[174:174] --> decoded_text[316:317] '' --> ' '", + "replace text[175:176] --> decoded_text[318:320] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[329:330] '' --> ' '", + "replace text[186:187] --> decoded_text[331:334] ',' --> ' , '", + "insert text[188:188] --> decoded_text[335:336] '' --> ' '", + "insert text[189:189] --> decoded_text[337:338] '' --> ' '", + "insert text[190:190] --> decoded_text[339:340] '' --> ' '", + "insert text[191:191] --> decoded_text[341:342] '' --> ' '", + "insert text[192:192] --> decoded_text[343:344] '' --> ' '", + "insert text[193:193] --> decoded_text[345:346] '' --> ' '", + "insert text[194:194] --> decoded_text[347:348] '' --> ' '", + "insert text[195:195] --> decoded_text[349:350] '' --> ' '", + "insert text[196:196] --> decoded_text[351:352] '' --> ' '", + "insert text[197:197] --> decoded_text[353:354] '' --> ' '", + "insert text[198:198] --> decoded_text[355:356] '' --> ' '", + "insert text[199:199] --> decoded_text[357:358] '' --> ' '", + "insert text[200:200] --> decoded_text[359:360] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.03482587064676617, + "oov_charset": "[\"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 绳 哪 里 有 卖 到 达 目 的 地 后 , 记 者 全 程 的 总 车 费 是 14 元 , 但 司 机 到 账 21 元 , 因 此 , 司 机 给 记 者 7 元 , 除 去 之 前 支 付 的 1 元 , 记 者 净 赚 6 元 , 还 免 费 乘 了 本 应 支 付 14 元 的 车 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[25:25] --> decoded_text[48:49] '' --> ' '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "insert text[27:27] --> decoded_text[52:53] '' --> ' '", + "insert text[28:28] --> decoded_text[54:55] '' --> ' '", + "insert text[29:29] --> decoded_text[56:57] '' --> ' '", + "insert text[30:30] --> decoded_text[58:59] '' --> ' '", + "insert text[31:31] --> decoded_text[60:61] '' --> ' '", + "insert text[32:32] --> decoded_text[62:63] '' --> ' '", + "insert text[34:34] --> decoded_text[65:66] '' --> ' '", + "insert text[35:35] --> decoded_text[67:68] '' --> ' '", + "insert text[36:36] --> decoded_text[69:70] '' --> ' '", + "insert text[37:37] --> decoded_text[71:72] '' --> ' '", + "insert text[38:38] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[54:54] --> decoded_text[105:106] '' --> ' '", + "insert text[55:55] --> decoded_text[107:108] '' --> ' '", + "insert text[56:56] --> decoded_text[109:110] '' --> ' '", + "insert text[57:57] --> decoded_text[111:112] '' --> ' '", + "insert text[58:58] --> decoded_text[113:114] '' --> ' '", + "insert text[59:59] --> decoded_text[115:116] '' --> ' '", + "insert text[60:60] --> decoded_text[117:118] '' --> ' '", + "insert text[61:61] --> decoded_text[119:120] '' --> ' '", + "insert text[62:62] --> decoded_text[121:122] '' --> ' '", + "insert text[63:63] --> decoded_text[123:124] '' --> ' '", + "insert text[64:64] --> decoded_text[125:126] '' --> ' '", + "insert text[65:65] --> decoded_text[127:128] '' --> ' '", + "insert text[66:66] --> decoded_text[129:130] '' --> ' '", + "insert text[67:67] --> decoded_text[131:132] '' --> ' '", + "insert text[68:68] --> decoded_text[133:134] '' --> ' '", + "insert text[69:69] --> decoded_text[135:136] '' --> ' '", + "insert text[70:70] --> decoded_text[137:138] '' --> ' '", + "insert text[71:71] --> decoded_text[139:140] '' --> ' '", + "insert text[72:72] --> decoded_text[141:142] '' --> ' '", + "insert text[73:73] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "insert text[77:77] --> decoded_text[150:151] '' --> ' '", + "insert text[78:78] --> decoded_text[152:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡 尔 ・ 斯 利 姆 于 2012 年 加 入 塔 塔 汽 车 公 司 担 任 总 经 理 一 职 , 并 负 责 公 司 在 印 度 及 国 际 市 场 上 除 捷 豹 和 路 虎 以 外 的 业 务 。 这 位 斯 坦 福 大 学 的 毕 业 生 , 曾 任 通 用 汽 车 在 中 国 合 资 公 司 的 副 总 裁 , 上 汽 通 用 五 菱 公 司 的 副 总 裁 以 及 通 用 汽 车 印 度 公 司 的 总 裁 。 ( 方 赵 春 )", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[11:11] --> decoded_text[18:19] '' --> ' '", + "insert text[12:12] --> decoded_text[20:21] '' --> ' '", + "insert text[13:13] --> decoded_text[22:23] '' --> ' '", + "insert text[14:14] --> decoded_text[24:25] '' --> ' '", + "insert text[15:15] --> decoded_text[26:27] '' --> ' '", + "replace text[16:17] --> decoded_text[28:31] '汽' --> ' 汽 '", + "replace text[18:20] --> decoded_text[32:37] '公司' --> ' 公 司 '", + "insert text[21:21] --> decoded_text[38:39] '' --> ' '", + "replace text[22:23] --> decoded_text[40:43] '总' --> ' 总 '", + "insert text[24:24] --> decoded_text[44:45] '' --> ' '", + "insert text[25:25] --> decoded_text[46:47] '' --> ' '", + "insert text[26:26] --> decoded_text[48:49] '' --> ' '", + "insert text[27:27] --> decoded_text[50:51] '' --> ' '", + "insert text[28:28] --> decoded_text[52:53] '' --> ' '", + "insert text[29:29] --> decoded_text[54:55] '' --> ' '", + "insert text[30:30] --> decoded_text[56:57] '' --> ' '", + "replace text[31:33] --> decoded_text[58:63] '公司' --> ' 公 司 '", + "insert text[34:34] --> decoded_text[64:65] '' --> ' '", + "insert text[35:35] --> decoded_text[66:67] '' --> ' '", + "insert text[36:36] --> decoded_text[68:69] '' --> ' '", + "insert text[37:37] --> decoded_text[70:71] '' --> ' '", + "insert text[38:38] --> decoded_text[72:73] '' --> ' '", + "insert text[39:39] --> decoded_text[74:75] '' --> ' '", + "insert text[40:40] --> decoded_text[76:77] '' --> ' '", + "insert text[41:41] --> decoded_text[78:79] '' --> ' '", + "insert text[42:42] --> decoded_text[80:81] '' --> ' '", + "insert text[43:43] --> decoded_text[82:83] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "insert text[46:46] --> decoded_text[88:89] '' --> ' '", + "insert text[47:47] --> decoded_text[90:91] '' --> ' '", + "insert text[48:48] --> decoded_text[92:93] '' --> ' '", + "insert text[49:49] --> decoded_text[94:95] '' --> ' '", + "replace text[50:51] --> decoded_text[96:99] '的' --> ' 的 '", + "insert text[52:52] --> decoded_text[100:101] '' --> ' '", + "insert text[53:53] --> decoded_text[102:103] '' --> ' '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "insert text[55:55] --> decoded_text[106:107] '' --> ' '", + "insert text[56:56] --> decoded_text[108:109] '' --> ' '", + "insert text[57:57] --> decoded_text[110:111] '' --> ' '", + "insert text[58:58] --> decoded_text[112:113] '' --> ' '", + "insert text[59:59] --> decoded_text[114:115] '' --> ' '", + "insert text[60:60] --> decoded_text[116:117] '' --> ' '", + "replace text[61:62] --> decoded_text[118:121] '的' --> ' 的 '", + "insert text[63:63] --> decoded_text[122:123] '' --> ' '", + "insert text[64:64] --> decoded_text[124:125] '' --> ' '", + "insert text[65:65] --> decoded_text[126:127] '' --> ' '", + "insert text[66:66] --> decoded_text[128:129] '' --> ' '", + "insert text[67:67] --> decoded_text[130:131] '' --> ' '", + "insert text[68:68] --> decoded_text[132:133] '' --> ' '", + "insert text[69:69] --> decoded_text[134:135] '' --> ' '", + "replace text[70:71] --> decoded_text[136:139] '汽' --> ' 汽 '", + "insert text[72:72] --> decoded_text[140:141] '' --> ' '", + "insert text[73:73] --> decoded_text[142:143] '' --> ' '", + "insert text[74:74] --> decoded_text[144:145] '' --> ' '", + "insert text[75:75] --> decoded_text[146:147] '' --> ' '", + "insert text[76:76] --> decoded_text[148:149] '' --> ' '", + "replace text[77:80] --> decoded_text[150:157] '公司的' --> ' 公 司 的 '", + "replace text[81:82] --> decoded_text[158:161] '总' --> ' 总 '", + "insert text[83:83] --> decoded_text[162:163] '' --> ' '", + "insert text[84:84] --> decoded_text[164:165] '' --> ' '", + "replace text[85:86] --> decoded_text[166:169] '汽' --> ' 汽 '", + "insert text[87:87] --> decoded_text[170:171] '' --> ' '", + "insert text[88:88] --> decoded_text[172:173] '' --> ' '", + "insert text[89:89] --> decoded_text[174:175] '' --> ' '", + "replace text[90:93] --> decoded_text[176:183] '公司的' --> ' 公 司 的 '", + "replace text[94:95] --> decoded_text[184:187] '总' --> ' 总 '", + "insert text[96:96] --> decoded_text[188:189] '' --> ' '", + "insert text[97:97] --> decoded_text[190:191] '' --> ' '", + "insert text[98:98] --> decoded_text[192:193] '' --> ' '", + "insert text[99:99] --> decoded_text[194:195] '' --> ' '", + "replace text[100:101] --> decoded_text[196:199] '汽' --> ' 汽 '", + "insert text[102:102] --> decoded_text[200:201] '' --> ' '", + "insert text[103:103] --> decoded_text[202:203] '' --> ' '", + "replace text[104:108] --> decoded_text[204:213] '公司的总' --> ' 公 司 的 总 '", + "insert text[109:109] --> decoded_text[214:215] '' --> ' '", + "insert text[110:110] --> decoded_text[216:217] '' --> ' '", + "insert text[111:111] --> decoded_text[218:219] '' --> ' '", + "insert text[112:112] --> decoded_text[220:221] '' --> ' '", + "insert text[113:113] --> decoded_text[222:223] '' --> ' '", + "insert text[114:114] --> decoded_text[224:225] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 导 演 不 可 能 每 部 作 品 都 是 你 喜 欢 的 东 西 , 如 果 他 一 时 控 制 不 住 情 绪 , 就 让 他 骂 吧 。 他 也 是 人 , 不 是 神 , 人 就 有 自 己 的 脾 气 。 他 这 次 执 导 春 晚 , 对 我 也 开 骂 : [UNK] 老 毕 , 我 跟 你 说 了 这 么 长 时 间 , 让 你 走 2 号 位 , 你 非 要 走 1 号 位 , 你 想 跟 我 较 死 劲 是 不 是 ? [UNK] 这 也 是 骂 人 。 但 因 为 你 非 常 了 解 他 , 他 也 不 一 定 有 恶 意 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "replace text[4:5] --> decoded_text[7:10] '不' --> ' 不 '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "replace text[12:14] --> decoded_text[23:28] '是你' --> ' 是 你 '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "replace text[19:20] --> decoded_text[37:40] ',' --> ' , '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "replace text[22:23] --> decoded_text[43:46] '他' --> ' 他 '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "replace text[27:28] --> decoded_text[53:56] '不' --> ' 不 '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "replace text[31:32] --> decoded_text[61:64] ',' --> ' , '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[34:35] --> decoded_text[67:70] '他' --> ' 他 '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "replace text[37:41] --> decoded_text[73:82] '。他也是' --> ' 。 他 也 是 '", + "replace text[42:45] --> decoded_text[83:90] ',不是' --> ' , 不 是 '", + "replace text[46:47] --> decoded_text[91:94] ',' --> ' , '", + "insert text[48:48] --> decoded_text[95:96] '' --> ' '", + "insert text[49:49] --> decoded_text[97:98] '' --> ' '", + "insert text[50:50] --> decoded_text[99:100] '' --> ' '", + "insert text[51:51] --> decoded_text[101:102] '' --> ' '", + "insert text[52:52] --> decoded_text[103:104] '' --> ' '", + "insert text[53:53] --> decoded_text[105:106] '' --> ' '", + "insert text[54:54] --> decoded_text[107:108] '' --> ' '", + "replace text[55:57] --> decoded_text[109:114] '。他' --> ' 。 他 '", + "insert text[58:58] --> decoded_text[115:116] '' --> ' '", + "insert text[59:59] --> decoded_text[117:118] '' --> ' '", + "insert text[60:60] --> decoded_text[119:120] '' --> ' '", + "insert text[61:61] --> decoded_text[121:122] '' --> ' '", + "insert text[62:62] --> decoded_text[123:124] '' --> ' '", + "replace text[63:64] --> decoded_text[125:128] ',' --> ' , '", + "insert text[65:65] --> decoded_text[129:130] '' --> ' '", + "replace text[66:67] --> decoded_text[131:134] '也' --> ' 也 '", + "insert text[68:68] --> decoded_text[135:136] '' --> ' '", + "insert text[69:69] --> decoded_text[137:138] '' --> ' '", + "replace text[70:71] --> decoded_text[139:146] '“' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[147:148] '' --> ' '", + "replace text[73:74] --> decoded_text[149:152] ',' --> ' , '", + "insert text[75:75] --> decoded_text[153:154] '' --> ' '", + "replace text[76:77] --> decoded_text[155:158] '你' --> ' 你 '", + "insert text[78:78] --> decoded_text[159:160] '' --> ' '", + "insert text[79:79] --> decoded_text[161:162] '' --> ' '", + "insert text[80:80] --> decoded_text[163:164] '' --> ' '", + "insert text[81:81] --> decoded_text[165:166] '' --> ' '", + "insert text[82:82] --> decoded_text[167:168] '' --> ' '", + "insert text[83:83] --> decoded_text[169:170] '' --> ' '", + "replace text[84:85] --> decoded_text[171:174] ',' --> ' , '", + "replace text[86:87] --> decoded_text[175:178] '你' --> ' 你 '", + "insert text[88:88] --> decoded_text[179:180] '' --> ' '", + "insert text[89:89] --> decoded_text[181:182] '' --> ' '", + "insert text[90:90] --> decoded_text[183:184] '' --> ' '", + "replace text[91:93] --> decoded_text[185:190] ',你' --> ' , 你 '", + "insert text[94:94] --> decoded_text[191:192] '' --> ' '", + "insert text[95:95] --> decoded_text[193:194] '' --> ' '", + "insert text[96:96] --> decoded_text[195:196] '' --> ' '", + "insert text[97:97] --> decoded_text[197:198] '' --> ' '", + "insert text[98:98] --> decoded_text[199:200] '' --> ' '", + "replace text[99:101] --> decoded_text[201:206] ',你' --> ' , 你 '", + "insert text[102:102] --> decoded_text[207:208] '' --> ' '", + "insert text[103:103] --> decoded_text[209:210] '' --> ' '", + "insert text[104:104] --> decoded_text[211:212] '' --> ' '", + "insert text[105:105] --> decoded_text[213:214] '' --> ' '", + "insert text[106:106] --> decoded_text[215:216] '' --> ' '", + "replace text[107:110] --> decoded_text[217:224] '是不是' --> ' 是 不 是 '", + "replace text[111:112] --> decoded_text[225:232] '”' --> ' [UNK] '", + "replace text[113:115] --> decoded_text[233:238] '也是' --> ' 也 是 '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "replace text[117:118] --> decoded_text[241:244] '。' --> ' 。 '", + "insert text[119:119] --> decoded_text[245:246] '' --> ' '", + "insert text[120:120] --> decoded_text[247:248] '' --> ' '", + "replace text[121:122] --> decoded_text[249:252] '你' --> ' 你 '", + "insert text[123:123] --> decoded_text[253:254] '' --> ' '", + "insert text[124:124] --> decoded_text[255:256] '' --> ' '", + "insert text[125:125] --> decoded_text[257:258] '' --> ' '", + "replace text[126:131] --> decoded_text[259:270] '他,他也不' --> ' 他 , 他 也 不 '", + "insert text[132:132] --> decoded_text[271:272] '' --> ' '", + "insert text[133:133] --> decoded_text[273:274] '' --> ' '", + "insert text[134:134] --> decoded_text[275:276] '' --> ' '", + "insert text[135:135] --> decoded_text[277:278] '' --> ' '", + "replace text[136:137] --> decoded_text[279:281] '。' --> ' 。'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.014598540145985401, + "oov_charset": "[\"“\", \"”\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招 财 带 什 么 佛 牌 不 过 挣 得 多 , 娜 姐 也 花 得 多 。 有 媒 体 报 道 , 教 练 卡 洛 斯 的 年 薪 高 达 360 万 元 人 民 币 , 李 娜 每 年 的 花 费 是 600 多 万 元 。 用 一 个 形 象 的 比 喻 , 娜 姐 每 天 一 睁 眼 , 将 近 2 万 元 就 出 去 了 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[3:3] --> decoded_text[5:6] '' --> ' '", + "insert text[4:4] --> decoded_text[7:8] '' --> ' '", + "insert text[5:5] --> decoded_text[9:10] '' --> ' '", + "insert text[6:6] --> decoded_text[11:12] '' --> ' '", + "insert text[7:7] --> decoded_text[13:14] '' --> ' '", + "insert text[8:8] --> decoded_text[15:16] '' --> ' '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[13:13] --> decoded_text[25:26] '' --> ' '", + "insert text[14:14] --> decoded_text[27:28] '' --> ' '", + "insert text[15:15] --> decoded_text[29:30] '' --> ' '", + "insert text[16:16] --> decoded_text[31:32] '' --> ' '", + "insert text[17:17] --> decoded_text[33:34] '' --> ' '", + "insert text[18:18] --> decoded_text[35:36] '' --> ' '", + "insert text[19:19] --> decoded_text[37:38] '' --> ' '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "insert text[21:21] --> decoded_text[41:42] '' --> ' '", + "insert text[22:22] --> decoded_text[43:44] '' --> ' '", + "insert text[23:23] --> decoded_text[45:46] '' --> ' '", + "insert text[24:24] --> decoded_text[47:48] '' --> ' '", + "insert text[25:25] --> decoded_text[49:50] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[27:27] --> decoded_text[53:54] '' --> ' '", + "insert text[28:28] --> decoded_text[55:56] '' --> ' '", + "insert text[29:29] --> decoded_text[57:58] '' --> ' '", + "insert text[30:30] --> decoded_text[59:60] '' --> ' '", + "insert text[31:31] --> decoded_text[61:62] '' --> ' '", + "insert text[32:32] --> decoded_text[63:64] '' --> ' '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "insert text[34:34] --> decoded_text[67:68] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[39:39] --> decoded_text[75:76] '' --> ' '", + "insert text[40:40] --> decoded_text[77:78] '' --> ' '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[43:43] --> decoded_text[83:84] '' --> ' '", + "insert text[44:44] --> decoded_text[85:86] '' --> ' '", + "insert text[45:45] --> decoded_text[87:88] '' --> ' '", + "insert text[46:46] --> decoded_text[89:90] '' --> ' '", + "insert text[47:47] --> decoded_text[91:92] '' --> ' '", + "insert text[48:48] --> decoded_text[93:94] '' --> ' '", + "insert text[49:49] --> decoded_text[95:96] '' --> ' '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "insert text[51:51] --> decoded_text[99:100] '' --> ' '", + "insert text[52:52] --> decoded_text[101:102] '' --> ' '", + "insert text[53:53] --> decoded_text[103:104] '' --> ' '", + "insert text[56:56] --> decoded_text[107:108] '' --> ' '", + "insert text[57:57] --> decoded_text[109:110] '' --> ' '", + "insert text[58:58] --> decoded_text[111:112] '' --> ' '", + "insert text[59:59] --> decoded_text[113:114] '' --> ' '", + "insert text[60:60] --> decoded_text[115:116] '' --> ' '", + "insert text[61:61] --> decoded_text[117:118] '' --> ' '", + "insert text[62:62] --> decoded_text[119:120] '' --> ' '", + "insert text[63:63] --> decoded_text[121:122] '' --> ' '", + "insert text[64:64] --> decoded_text[123:124] '' --> ' '", + "insert text[65:65] --> decoded_text[125:126] '' --> ' '", + "insert text[66:66] --> decoded_text[127:128] '' --> ' '", + "insert text[67:67] --> decoded_text[129:130] '' --> ' '", + "insert text[68:68] --> decoded_text[131:132] '' --> ' '", + "insert text[69:69] --> decoded_text[133:134] '' --> ' '", + "insert text[70:70] --> decoded_text[135:136] '' --> ' '", + "insert text[71:71] --> decoded_text[137:138] '' --> ' '", + "insert text[72:72] --> decoded_text[139:140] '' --> ' '", + "insert text[73:73] --> decoded_text[141:142] '' --> ' '", + "insert text[74:74] --> decoded_text[143:144] '' --> ' '", + "insert text[75:75] --> decoded_text[145:146] '' --> ' '", + "insert text[76:76] --> decoded_text[147:148] '' --> ' '", + "insert text[77:77] --> decoded_text[149:150] '' --> ' '", + "insert text[78:78] --> decoded_text[151:152] '' --> ' '", + "insert text[79:79] --> decoded_text[153:154] '' --> ' '", + "insert text[80:80] --> decoded_text[155:156] '' --> ' '", + "insert text[81:81] --> decoded_text[157:158] '' --> ' '", + "insert text[82:82] --> decoded_text[159:160] '' --> ' '", + "insert text[83:83] --> decoded_text[161:162] '' --> ' '", + "insert text[84:84] --> decoded_text[163:164] '' --> ' '", + "insert text[85:85] --> decoded_text[165:166] '' --> ' '", + "insert text[86:86] --> decoded_text[167:168] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "[UNK] 金 庸 的 小 说 《 连 城 诀 》 里 有 一 个 反 派 人 物 [UNK] 血 刀 老 祖 [UNK] , 一 般 的 坏 人 做 坏 事 都 是 心 虚 的 , 但 是 这 个 人 物 却 做 得 心 安 理 得 , 理 直 气 壮 , 我 遇 到 的 这 个 的 哥 就 是 这 样 。 [UNK] 王 先 生 向 记 者 描 述 经 过 时 第 一 句 话 便 这 样 说 。 原 来 , 昨 日 王 先 生 在 搭 出 租 车 时 , 遇 到 的 的 哥 不 仅 [UNK] 拾 金 而 昧 [UNK] , 还 [UNK] 昧 [UNK] 得 理 直 气 壮 。", + "diff": [ + "replace text[0:1] --> decoded_text[0:6] '“' --> '[UNK] '", + "insert text[2:2] --> decoded_text[7:8] '' --> ' '", + "replace text[3:4] --> decoded_text[9:12] '的' --> ' 的 '", + "insert text[5:5] --> decoded_text[13:14] '' --> ' '", + "insert text[6:6] --> decoded_text[15:16] '' --> ' '", + "insert text[7:7] --> decoded_text[17:18] '' --> ' '", + "insert text[8:8] --> decoded_text[19:20] '' --> ' '", + "insert text[9:9] --> decoded_text[21:22] '' --> ' '", + "insert text[10:10] --> decoded_text[23:24] '' --> ' '", + "insert text[11:11] --> decoded_text[25:26] '' --> ' '", + "insert text[12:12] --> decoded_text[27:28] '' --> ' '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "insert text[14:14] --> decoded_text[31:32] '' --> ' '", + "insert text[15:15] --> decoded_text[33:34] '' --> ' '", + "insert text[16:16] --> decoded_text[35:36] '' --> ' '", + "insert text[17:17] --> decoded_text[37:38] '' --> ' '", + "insert text[18:18] --> decoded_text[39:40] '' --> ' '", + "replace text[19:20] --> decoded_text[41:48] '‘' --> ' [UNK] '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "insert text[22:22] --> decoded_text[51:52] '' --> ' '", + "insert text[23:23] --> decoded_text[53:54] '' --> ' '", + "replace text[24:26] --> decoded_text[55:64] '’,' --> ' [UNK] , '", + "insert text[27:27] --> decoded_text[65:66] '' --> ' '", + "replace text[28:29] --> decoded_text[67:70] '的' --> ' 的 '", + "insert text[30:30] --> decoded_text[71:72] '' --> ' '", + "insert text[31:31] --> decoded_text[73:74] '' --> ' '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[33:33] --> decoded_text[77:78] '' --> ' '", + "insert text[34:34] --> decoded_text[79:80] '' --> ' '", + "insert text[35:35] --> decoded_text[81:82] '' --> ' '", + "insert text[36:36] --> decoded_text[83:84] '' --> ' '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:40] --> decoded_text[87:92] '的,' --> ' 的 , '", + "insert text[41:41] --> decoded_text[93:94] '' --> ' '", + "replace text[42:43] --> decoded_text[95:98] '这' --> ' 这 '", + "insert text[44:44] --> decoded_text[99:100] '' --> ' '", + "insert text[45:45] --> decoded_text[101:102] '' --> ' '", + "insert text[46:46] --> decoded_text[103:104] '' --> ' '", + "insert text[47:47] --> decoded_text[105:106] '' --> ' '", + "insert text[48:48] --> decoded_text[107:108] '' --> ' '", + "insert text[49:49] --> decoded_text[109:110] '' --> ' '", + "insert text[50:50] --> decoded_text[111:112] '' --> ' '", + "insert text[51:51] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[115:116] '' --> ' '", + "replace text[53:54] --> decoded_text[117:120] ',' --> ' , '", + "insert text[55:55] --> decoded_text[121:122] '' --> ' '", + "insert text[56:56] --> decoded_text[123:124] '' --> ' '", + "insert text[57:57] --> decoded_text[125:126] '' --> ' '", + "replace text[58:59] --> decoded_text[127:130] ',' --> ' , '", + "insert text[60:60] --> decoded_text[131:132] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:140] '的这' --> ' 的 这 '", + "replace text[65:66] --> decoded_text[141:144] '的' --> ' 的 '", + "insert text[67:67] --> decoded_text[145:146] '' --> ' '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[69:70] --> decoded_text[149:152] '这' --> ' 这 '", + "insert text[71:71] --> decoded_text[153:154] '' --> ' '", + "replace text[72:73] --> decoded_text[155:162] '”' --> ' [UNK] '", + "insert text[74:74] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[165:166] '' --> ' '", + "insert text[76:76] --> decoded_text[167:168] '' --> ' '", + "insert text[77:77] --> decoded_text[169:170] '' --> ' '", + "insert text[78:78] --> decoded_text[171:172] '' --> ' '", + "insert text[79:79] --> decoded_text[173:174] '' --> ' '", + "insert text[80:80] --> decoded_text[175:176] '' --> ' '", + "insert text[81:81] --> decoded_text[177:178] '' --> ' '", + "insert text[82:82] --> decoded_text[179:180] '' --> ' '", + "insert text[83:83] --> decoded_text[181:182] '' --> ' '", + "insert text[84:84] --> decoded_text[183:184] '' --> ' '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "insert text[87:87] --> decoded_text[189:190] '' --> ' '", + "insert text[88:88] --> decoded_text[191:192] '' --> ' '", + "replace text[89:90] --> decoded_text[193:196] '这' --> ' 这 '", + "insert text[91:91] --> decoded_text[197:198] '' --> ' '", + "insert text[92:92] --> decoded_text[199:200] '' --> ' '", + "insert text[93:93] --> decoded_text[201:202] '' --> ' '", + "insert text[94:94] --> decoded_text[203:204] '' --> ' '", + "replace text[95:96] --> decoded_text[205:208] ',' --> ' , '", + "insert text[97:97] --> decoded_text[209:210] '' --> ' '", + "insert text[98:98] --> decoded_text[211:212] '' --> ' '", + "insert text[99:99] --> decoded_text[213:214] '' --> ' '", + "insert text[100:100] --> decoded_text[215:216] '' --> ' '", + "insert text[101:101] --> decoded_text[217:218] '' --> ' '", + "insert text[102:102] --> decoded_text[219:220] '' --> ' '", + "insert text[103:103] --> decoded_text[221:222] '' --> ' '", + "insert text[104:104] --> decoded_text[223:224] '' --> ' '", + "insert text[105:105] --> decoded_text[225:226] '' --> ' '", + "insert text[106:106] --> decoded_text[227:228] '' --> ' '", + "replace text[107:108] --> decoded_text[229:232] ',' --> ' , '", + "insert text[109:109] --> decoded_text[233:234] '' --> ' '", + "replace text[110:112] --> decoded_text[235:240] '的的' --> ' 的 的 '", + "insert text[113:113] --> decoded_text[241:242] '' --> ' '", + "insert text[114:114] --> decoded_text[243:244] '' --> ' '", + "replace text[115:116] --> decoded_text[245:252] '“' --> ' [UNK] '", + "insert text[117:117] --> decoded_text[253:254] '' --> ' '", + "insert text[118:118] --> decoded_text[255:256] '' --> ' '", + "insert text[119:119] --> decoded_text[257:258] '' --> ' '", + "replace text[120:122] --> decoded_text[259:268] '”,' --> ' [UNK] , '", + "replace text[123:124] --> decoded_text[269:276] '“' --> ' [UNK] '", + "replace text[125:126] --> decoded_text[277:284] '”' --> ' [UNK] '", + "insert text[127:127] --> decoded_text[285:286] '' --> ' '", + "insert text[128:128] --> decoded_text[287:288] '' --> ' '", + "insert text[129:129] --> decoded_text[289:290] '' --> ' '", + "insert text[130:130] --> decoded_text[291:292] '' --> ' '", + "insert text[131:131] --> decoded_text[293:294] '' --> ' '" + ], + "n_oov_chars": 8, + "oov_ratio": 0.06060606060606061, + "oov_charset": "[\"“\", \"‘\", \"’\", \"”\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6c12c1388eb6aa809e6330a8e32781424dce53a1 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.en.diff.json @@ -0,0 +1,172 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a41364ca331616aa48c554033ea4b69ffc857be7 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.es.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8056b5e75dba62bb871805ce7457a17922569cbe --- /dev/null +++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,484 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "insert text[42:42] --> decoded_text[124:125] '' --> ' '", + "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[158:159] '' --> ' '", + "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[220:221] '' --> ' '", + "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[308:309] '' --> ' '", + "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", + "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[89:89] --> decoded_text[350:351] '' --> ' '", + "insert text[90:90] --> decoded_text[352:353] '' --> ' '", + "insert text[91:91] --> decoded_text[354:355] '' --> ' '", + "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[370:371] '' --> ' '", + "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[416:417] '' --> ' '", + "insert text[105:105] --> decoded_text[418:419] '' --> ' '", + "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[428:429] '' --> ' '", + "insert text[109:109] --> decoded_text[430:431] '' --> ' '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[442:443] '' --> ' '", + "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[488:489] '' --> ' '", + "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[504:505] '' --> ' '", + "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", + "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", + "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", + "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[665:666] '' --> ' '", + "insert text[163:163] --> decoded_text[670:671] '' --> ' '", + "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", + "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[772:773] '' --> ' '", + "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 121, + "oov_ratio": 0.5654205607476636, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[57:58] '' --> ' '", + "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[79:80] '' --> ' '", + "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[243:244] '' --> ' '", + "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[289:290] '' --> ' '", + "insert text[62:62] --> decoded_text[291:292] '' --> ' '", + "insert text[63:63] --> decoded_text[293:294] '' --> ' '", + "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[421:422] '' --> ' '", + "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", + "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", + "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", + "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 87, + "oov_ratio": 0.7016129032258065, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[9:9] --> decoded_text[49:50] '' --> ' '", + "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[79:80] '' --> ' '", + "insert text[17:17] --> decoded_text[81:82] '' --> ' '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[117:118] '' --> ' '", + "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[139:140] '' --> ' '", + "insert text[31:31] --> decoded_text[141:142] '' --> ' '", + "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[169:170] '' --> ' '", + "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", + "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", + "insert text[45:45] --> decoded_text[197:198] '' --> ' '", + "insert text[46:46] --> decoded_text[199:200] '' --> ' '", + "insert text[47:47] --> decoded_text[201:202] '' --> ' '", + "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[217:218] '' --> ' '", + "insert text[52:52] --> decoded_text[219:220] '' --> ' '", + "insert text[53:53] --> decoded_text[221:222] '' --> ' '", + "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[237:238] '' --> ' '", + "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", + "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 47, + "oov_ratio": 0.5875, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "insert text[32:32] --> decoded_text[163:164] '' --> ' '", + "insert text[33:33] --> decoded_text[165:166] '' --> ' '", + "insert text[34:34] --> decoded_text[167:168] '' --> ' '", + "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[183:184] '' --> ' '", + "insert text[39:39] --> decoded_text[185:186] '' --> ' '", + "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[201:202] '' --> ' '", + "insert text[47:47] --> decoded_text[206:207] '' --> ' '", + "insert text[48:48] --> decoded_text[208:209] '' --> ' '", + "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[232:233] '' --> ' '", + "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", + "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", + "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[312:313] '' --> ' '", + "insert text[73:73] --> decoded_text[314:315] '' --> ' '", + "insert text[74:74] --> decoded_text[316:317] '' --> ' '", + "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.5769230769230769, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[30:31] '' --> ' '", + "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[100:101] '' --> ' '", + "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[137:138] '' --> ' '", + "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[153:154] '' --> ' '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[207:208] '' --> ' '", + "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[247:248] '' --> ' '", + "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", + "insert text[72:72] --> decoded_text[268:269] '' --> ' '", + "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[380:381] '' --> ' '", + "insert text[95:95] --> decoded_text[382:383] '' --> ' '", + "insert text[96:96] --> decoded_text[384:385] '' --> ' '", + "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[438:439] '' --> ' '", + "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[473:474] '' --> ' '", + "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", + "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[497:498] '' --> ' '", + "insert text[131:131] --> decoded_text[499:500] '' --> ' '", + "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", + "insert text[134:134] --> decoded_text[509:510] '' --> ' '", + "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[559:560] '' --> ' '", + "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "insert text[150:150] --> decoded_text[581:582] '' --> ' '", + "insert text[151:151] --> decoded_text[583:584] '' --> ' '", + "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[596:597] '' --> ' '", + "insert text[163:163] --> decoded_text[598:599] '' --> ' '", + "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[673:674] '' --> ' '", + "insert text[186:186] --> decoded_text[675:676] '' --> ' '", + "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", + "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[717:718] '' --> ' '", + "insert text[196:196] --> decoded_text[719:720] '' --> ' '", + "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 102, + "oov_ratio": 0.5074626865671642, + "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[25:26] '' --> ' '", + "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[47:48] '' --> ' '", + "insert text[11:11] --> decoded_text[49:50] '' --> ' '", + "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", + "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[209:210] '' --> ' '", + "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[225:226] '' --> ' '", + "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", + "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" + ], + "n_oov_chars": 43, + "oov_ratio": 0.5443037974683544, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "insert text[12:12] --> decoded_text[44:45] '' --> ' '", + "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[78:79] '' --> ' '", + "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[140:141] '' --> ' '", + "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[228:229] '' --> ' '", + "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[270:271] '' --> ' '", + "insert text[60:60] --> decoded_text[272:273] '' --> ' '", + "insert text[61:61] --> decoded_text[274:275] '' --> ' '", + "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[290:291] '' --> ' '", + "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[336:337] '' --> ' '", + "insert text[75:75] --> decoded_text[338:339] '' --> ' '", + "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[348:349] '' --> ' '", + "insert text[79:79] --> decoded_text[350:351] '' --> ' '", + "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[372:373] '' --> ' '", + "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", + "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", + "insert text[91:91] --> decoded_text[402:403] '' --> ' '", + "insert text[92:92] --> decoded_text[404:405] '' --> ' '", + "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[474:475] '' --> ' '", + "insert text[106:106] --> decoded_text[476:477] '' --> ' '", + "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[492:493] '' --> ' '", + "insert text[111:111] --> decoded_text[494:495] '' --> ' '", + "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[504:505] '' --> ' '" + ], + "n_oov_chars": 70, + "oov_ratio": 0.6086956521739131, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", + "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", + "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", + "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", + "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", + "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", + "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", + "insert text[66:66] --> decoded_text[299:300] '' --> ' '", + "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[315:316] '' --> ' '", + "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[517:518] '' --> ' '", + "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", + "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[541:542] '' --> ' '", + "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "insert text[130:130] --> decoded_text[607:608] '' --> ' '", + "insert text[131:131] --> decoded_text[609:610] '' --> ' '", + "insert text[132:132] --> decoded_text[611:612] '' --> ' '", + "insert text[133:133] --> decoded_text[613:614] '' --> ' '", + "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.6496350364963503, + "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[83:84] '' --> ' '", + "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[99:100] '' --> ' '", + "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[155:156] '' --> ' '", + "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[183:184] '' --> ' '", + "insert text[42:42] --> decoded_text[185:186] '' --> ' '", + "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", + "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[211:212] '' --> ' '", + "insert text[50:50] --> decoded_text[213:214] '' --> ' '", + "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", + "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[245:246] '' --> ' '", + "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", + "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[275:276] '' --> ' '", + "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[305:306] '' --> ' '", + "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", + "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.5632183908045977, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "insert text[13:13] --> decoded_text[41:42] '' --> ' '", + "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", + "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[131:132] '' --> ' '", + "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", + "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[203:204] '' --> ' '", + "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", + "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[307:308] '' --> ' '", + "insert text[73:73] --> decoded_text[309:310] '' --> ' '", + "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[413:414] '' --> ' '", + "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", + "insert text[98:98] --> decoded_text[431:432] '' --> ' '", + "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", + "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", + "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 79, + "oov_ratio": 0.5984848484848485, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f94df4d41c4051709613f43568a36983d6e9d31e --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.en.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Hope you are OK and have got over the stress of your trip now <3", + "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", + "diff": [ + "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015625, + "oov_charset": "[\"<\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..66d9e4ead49926f6fd30f916d2ed8bc3d27125cf --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.es.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", + "diff": [ + "replace text[190:191] --> decoded_text[190:195] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004464285714285714, + "oov_charset": "[\"í\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[133:134] --> decoded_text[133:138] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''", + "replace text[19:20] --> decoded_text[23:28] 'í' --> ''", + "replace text[56:57] --> decoded_text[64:66] 'ú' --> ' decoded_text[67:70] '' --> 'k>n'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05172413793103448, + "oov_charset": "[\"í\", \"ú\"]" + }, + { + "text": "determinados artículos del Estatuto de los Trabajadores,", + "decoded_text": "determinados artculos del Estatuto de los Trabajadores,", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017857142857142856, + "oov_charset": "[\"í\"]" + }, + { + "text": "Cuando el período de vacaciones fijado en el calendario de", + "decoded_text": "Cuando el perodo de vacaciones fijado en el calendario de", + "diff": [ + "replace text[13:14] --> decoded_text[13:18] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"í\"]" + }, + { + "text": "del embarazo, el parto o la lactancia natural o con el período de", + "decoded_text": "del embarazo, el parto o la lactancia natural o con el perodo de", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"í\"]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artculo 48.4", + "diff": [ + "replace text[53:54] --> decoded_text[53:58] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "al finalizar el período de suspensión, aunque haya terminado", + "decoded_text": "al finalizar el perodo de suspensión, aunque haya terminado", + "diff": [ + "replace text[19:20] --> decoded_text[19:24] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"í\"]" + }, + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8e063bbe0b425a09019eda226c84d7531ab86503 --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.fr.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", + "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", + "diff": [ + "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"^\"]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", + "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", + "diff": [ + "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0136986301369863, + "oov_charset": "[\"^\"]" + }, + { + "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", + "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", + "diff": [ + "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"^\"]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", + "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"^\"]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Peut-on poser de la mosaïque de verre au sol?", + "decoded_text": "Peut-on poser de la mosaque de verre au sol?", + "diff": [ + "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"ï\"]" + }, + { + "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", + "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", + "diff": [ + "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"ï\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..61325e98b576ba2d47fffdc15aa2819c85874f60 --- /dev/null +++ b/stats/compression_rate/google-t5.t5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,138 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", + "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", + "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", + "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", + "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", + "replace text[206:207] --> decoded_text[108:113] '转' --> ''", + "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",,3,5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ",1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", + "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] '月' --> ''", + "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", + "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", + "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", + "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", + "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", + "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", + "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ",14,21,,7,1,6,14", + "diff": [ + "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", + "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", + "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", + "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", + "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", + "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", + "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "2012,,,()", + "diff": [ + "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", + "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", + "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,,:“,,2,1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", + "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", + "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", + "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",,360,600,,2", + "diff": [ + "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", + "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", + "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", + "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“’,,,,,,”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", + "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", + "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", + "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", + "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", + "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", + "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", + "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.en.diff.json b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.es.diff.json b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/google.byt5-small @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6c12c1388eb6aa809e6330a8e32781424dce53a1 --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.en.diff.json @@ -0,0 +1,172 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "belmont estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. listed on thursday, the home is being sold by high - end real estate firm sotheby ’ s international realty canada.", + "diff": [ + "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'", + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "replace text[150:161] --> decoded_text[153:164] 'Listed on T' --> 'listed on t'", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "replace text[201:229] --> decoded_text[205:235] 'end real estate firm Sotheby' --> ' end real estate firm sotheby '", + "replace text[230:254] --> decoded_text[236:261] 's International Realty C' --> ' s international realty c'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.03076923076923077, + "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price, ” listing agent christa frosch of sotheby ’ s tells buzzbuzznews.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[140:140] --> decoded_text[146:147] '' --> ' '", + "replace text[156:175] --> decoded_text[163:182] 'Christa Frosch of S' --> 'christa frosch of s'", + "insert text[181:181] --> decoded_text[188:189] '' --> ' '", + "replace text[182:191] --> decoded_text[190:200] 's tells B' --> ' s tells b'", + "replace text[194:195] --> decoded_text[203:204] 'B' --> 'b'", + "replace text[198:199] --> decoded_text[207:208] 'N' --> 'n'" + ], + "n_oov_chars": 7, + "oov_ratio": 0.034482758620689655, + "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "the three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "replace text[0:9] --> decoded_text[0:10] 'The three' --> 'the three '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "replace text[92:93] --> decoded_text[94:95] 'B' --> 'b'", + "replace text[162:173] --> decoded_text[164:176] 'The Italian' --> 'the italian '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "replace text[283:284] --> decoded_text[287:288] 'L' --> 'l'", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.012853470437017995, + "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "surrounding the property is a versailles - inspired garden with a variety of trees, plants and an orchard. in the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'", + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "replace text[105:106] --> decoded_text[107:108] 'I' --> 'i'", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 3, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"S\", \"V\", \"I\"]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.013245033112582781, + "oov_charset": "[\"A\", \"F\"]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ we just went to the market yesterday, it ’ s private through sotheby ’ s and we ’ ve already started to get calls, ” says frosch.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'W' --> ' w'", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "replace text[60:61] --> decoded_text[63:64] 'S' --> 's'", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '", + "insert text[109:109] --> decoded_text[116:117] '' --> ' '", + "replace text[116:117] --> decoded_text[124:125] 'F' --> 'f'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.024390243902439025, + "oov_charset": "[\"W\", \"S\", \"F\"]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. you will be drinking small amounts ( “ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'", + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "replace text[103:104] --> decoded_text[110:111] 'Y' --> 'y'", + "insert text[139:139] --> decoded_text[146:147] '' --> ' '", + "insert text[140:140] --> decoded_text[148:149] '' --> ' '", + "insert text[144:144] --> decoded_text[153:154] '' --> ' '", + "insert text[145:145] --> decoded_text[155:156] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008438818565400843, + "oov_charset": "[\"S\", \"Y\"]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase ( 20 to 30 grams per day ). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend :", + "diff": [ + "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '", + "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'", + "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'", + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "replace text[104:105] --> decoded_text[106:107] 'T' --> 't'", + "replace text[193:194] --> decoded_text[195:196] 'W' --> 'w'", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 6, + "oov_ratio": 0.02912621359223301, + "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "unjury ( 20grams of whey protein isolate per packet ) once a day ( available at our office or www. unjury. com or 800 - 517 - 5111", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'", + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "insert text[64:64] --> decoded_text[66:67] '' --> ' '", + "replace text[95:101] --> decoded_text[98:105] 'UNJURY' --> ' unjury'", + "insert text[102:102] --> decoded_text[106:107] '' --> ' '", + "insert text[112:112] --> decoded_text[117:118] '' --> ' '", + "insert text[113:113] --> decoded_text[119:120] '' --> ' '", + "insert text[116:116] --> decoded_text[123:124] '' --> ' '", + "insert text[117:117] --> decoded_text[125:126] '' --> ' '" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05785123966942149, + "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "watch for signs of dehydration!", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"W\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..a41364ca331616aa48c554033ea4b69ffc857be7 --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.es.diff.json @@ -0,0 +1,131 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organizacion criminal \" los sanguinarios del norte chico \" dedicados a la extorsion, robo, sicariato, trafico ilicito de drogas. \", explico medina.", + "diff": [ + "replace text[1:2] --> decoded_text[1:3] 'S' --> ' s'", + "replace text[90:91] --> decoded_text[91:92] 'ó' --> 'o'", + "replace text[103:108] --> decoded_text[104:110] 'Los S' --> ' los s'", + "replace text[124:131] --> decoded_text[126:133] 'Norte C' --> 'norte c'", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '", + "replace text[159:160] --> decoded_text[162:163] 'ó' --> 'o'", + "replace text[182:183] --> decoded_text[185:186] 'á' --> 'a'", + "replace text[190:191] --> decoded_text[193:194] 'í' --> 'i'", + "insert text[206:206] --> decoded_text[209:210] '' --> ' '", + "replace text[215:218] --> decoded_text[219:222] 'ó M' --> 'o m'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.049107142857142856, + "oov_charset": "[\"S\", \"ó\", \"L\", \"N\", \"C\", \"á\", \"í\", \"M\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organizacion criminal.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'", + "replace text[66:67] --> decoded_text[66:67] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02564102564102564, + "oov_charset": "[\"H\", \"ó\"]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "a \" los sanguinarios del norte chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'", + "replace text[3:8] --> decoded_text[3:9] 'Los S' --> ' los s'", + "replace text[24:31] --> decoded_text[25:32] 'Norte C' --> 'norte c'", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 5, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehiculos. asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'", + "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'", + "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'", + "replace text[133:134] --> decoded_text[133:134] 'í' --> 'i'", + "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03225806451612903, + "oov_charset": "[\"E\", \"P\", \"N\", \"í\", \"A\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. el periodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.031746031746031744, + "oov_charset": "[\"E\", \"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– art. 2, ley 4 / 1983, de 29 de junio, de fijacion de la jornada", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'", + "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'", + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '", + "replace text[47:48] --> decoded_text[49:50] 'ó' --> 'o'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.047619047619047616, + "oov_charset": "[\"A\", \"L\", \"ó\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. el periodo o periodos de su disfrute se fijara de comun", + "diff": [ + "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'", + "replace text[9:10] --> decoded_text[9:10] 'í' --> 'i'", + "replace text[19:20] --> decoded_text[19:20] 'í' --> 'i'", + "replace text[48:49] --> decoded_text[48:49] 'á' --> 'a'", + "replace text[56:57] --> decoded_text[56:57] 'ú' --> 'u'" + ], + "n_oov_chars": 5, + "oov_ratio": 0.08620689655172414, + "oov_charset": "[\"E\", \"í\", \"á\", \"ú\"]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los convenios colectivos", + "diff": [ + "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'", + "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03508771929824561, + "oov_charset": "[\"C\"]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificacion anual de las vacaciones.", + "diff": [ + "replace text[17:18] --> decoded_text[17:18] 'ó' --> 'o'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022727272727272728, + "oov_charset": "[\"ó\"]" + }, + { + "text": "En caso de desacuerdo entre las partes, la jurisdicción competente", + "decoded_text": "en caso de desacuerdo entre las partes, la jurisdiccion competente", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[53:54] --> decoded_text[53:54] 'ó' --> 'o'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.030303030303030304, + "oov_charset": "[\"E\", \"ó\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b44040e06ba5381c55cc0e10f3a199cd1cbaacd8 --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.fr.diff.json @@ -0,0 +1,143 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "bon, comme je ne suis pas le seul a avoir envisage de creer ce sujet, je me suis dis qu'il etait peut etre temps de le commencer.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'", + "replace text[34:35] --> decoded_text[34:35] 'à' --> 'a'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[56:57] --> decoded_text[56:57] 'é' --> 'e'", + "replace text[91:92] --> decoded_text[91:92] 'é' --> 'e'", + "replace text[102:103] --> decoded_text[102:103] 'ê' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.046511627906976744, + "oov_charset": "[\"B\", \"à\", \"é\", \"ê\"]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on reflechira.", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'", + "replace text[75:76] --> decoded_text[75:76] 'é' --> 'e'", + "replace text[78:79] --> decoded_text[78:79] 'é' --> 'e'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.03529411764705882, + "oov_charset": "[\"V\", \"é\"]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "encore une fois, vous n'etes pas oblige de vous devoilez entierement", + "diff": [ + "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'", + "replace text[38:39] --> decoded_text[38:39] 'é' --> 'e'", + "replace text[49:50] --> decoded_text[49:50] 'é' --> 'e'", + "replace text[61:62] --> decoded_text[61:62] 'è' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.058823529411764705, + "oov_charset": "[\"E\", \"é\", \"è\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de memoire, par exemple si quelqu'un me dit \" tu pourras faire ca dans la soiree? \" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[118:119] --> decoded_text[118:119] 'é' --> 'e'", + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:194] --> decoded_text[177:194] 'ça dans la soirée ' --> 'ca dans la soiree'", + "insert text[195:195] --> decoded_text[195:196] '' --> ' '" + ], + "n_oov_chars": 4, + "oov_ratio": 0.01639344262295082, + "oov_charset": "[\"J\", \"é\", \"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mere dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien a branler.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'", + "replace text[68:69] --> decoded_text[68:69] 'è' --> 'e'", + "replace text[224:225] --> decoded_text[224:225] 'à' --> 'a'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.017094017094017096, + "oov_charset": "[\"J\", \"P\", \"è\", \"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- je penses et reflechit tout seul sur des sujets n'ayant rien a voir avec une situation. exemple, quand j'attends mes soeurs et ma mere devant un magasin, je reflechit a la creation du monde.", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'é' --> 'e'", + "replace text[19:20] --> decoded_text[19:20] 'é' --> 'e'", + "replace text[63:64] --> decoded_text[63:64] 'à' --> 'a'", + "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'", + "replace text[133:134] --> decoded_text[133:134] 'è' --> 'e'", + "replace text[160:161] --> decoded_text[160:161] 'é' --> 'e'", + "replace text[163:164] --> decoded_text[163:164] 'é' --> 'e'", + "replace text[169:170] --> decoded_text[169:170] 'à' --> 'a'", + "replace text[176:177] --> decoded_text[176:177] 'é' --> 'e'" + ], + "n_oov_chars": 10, + "oov_ratio": 0.052083333333333336, + "oov_charset": "[\"J\", \"é\", \"à\", \"E\", \"è\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycee, et ait tendance a preferer ceux que je connais par internet ou ailleurs qu'au lycee", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[70:71] --> decoded_text[72:73] 'é' --> 'e'", + "replace text[90:91] --> decoded_text[92:93] 'à' --> 'a'", + "replace text[96:97] --> decoded_text[98:99] 'é' --> 'e'", + "replace text[125:126] --> decoded_text[127:128] 'I' --> 'i'", + "delete text[155:156] --> decoded_text[157:157] 'é' --> ''", + "insert text[157:157] --> decoded_text[158:159] '' --> 'e'" + ], + "n_oov_chars": 6, + "oov_ratio": 0.03821656050955414, + "oov_charset": "[\"J\", \"é\", \"à\", \"I\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- je dois etre mentalement instable, par moments", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[10:11] --> decoded_text[10:11] 'ê' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.041666666666666664, + "oov_charset": "[\"J\", \"ê\"]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- je n'envoie que tres peu de sms et n'appelle personne", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[20:21] --> decoded_text[20:21] 'è' --> 'e'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.03636363636363636, + "oov_charset": "[\"J\", \"è\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- j'ai tendance a voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacites de reflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'", + "replace text[16:17] --> decoded_text[16:17] 'à' --> 'a'", + "insert text[43:43] --> decoded_text[43:44] '' --> ' '", + "insert text[50:50] --> decoded_text[51:52] '' --> ' '", + "replace text[102:103] --> decoded_text[104:105] 'é' --> 'e'", + "replace text[109:110] --> decoded_text[111:112] 'é' --> 'e'" + ], + "n_oov_chars": 4, + "oov_ratio": 0.026845637583892617, + "oov_charset": "[\"J\", \"à\", \"é\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8056b5e75dba62bb871805ce7457a17922569cbe --- /dev/null +++ b/stats/compression_rate/google.mobilebert-uncased @ cc100.zh-Hans.diff.json @@ -0,0 +1,484 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( www. suzastampin. com ) [UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 。 [UNK] 日 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 山 西 [UNK] [UNK] 北 京 [UNK] 代 [UNK] [UNK] 4s [UNK] [UNK] [UNK] , [UNK] 内 [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 6000 元 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 下 [UNK] , 同 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] [UNK] :", + "diff": [ + "replace text[0:9] --> decoded_text[0:54] '卍招财带什么佛牌卍' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[55:56] '' --> ' '", + "insert text[14:14] --> decoded_text[60:61] '' --> ' '", + "insert text[26:26] --> decoded_text[73:74] '' --> ' '", + "insert text[29:29] --> decoded_text[77:78] '' --> ' '", + "replace text[30:32] --> decoded_text[79:92] '卡尔' --> ' [UNK] [UNK] '", + "replace text[33:37] --> decoded_text[93:118] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[41:41] --> decoded_text[122:123] '' --> ' '", + "insert text[42:42] --> decoded_text[124:125] '' --> ' '", + "replace text[43:48] --> decoded_text[126:157] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[158:159] '' --> ' '", + "replace text[50:55] --> decoded_text[160:191] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[56:57] --> decoded_text[192:199] '职' --> ' [UNK] '", + "replace text[58:61] --> decoded_text[200:219] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[220:221] '' --> ' '", + "replace text[63:67] --> decoded_text[222:247] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[248:267] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[72:75] --> decoded_text[268:287] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[76:79] --> decoded_text[288:307] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[308:309] '' --> ' '", + "replace text[81:83] --> decoded_text[310:323] '业务' --> ' [UNK] [UNK] '", + "replace text[84:88] --> decoded_text[324:349] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[89:89] --> decoded_text[350:351] '' --> ' '", + "insert text[90:90] --> decoded_text[352:353] '' --> ' '", + "insert text[91:91] --> decoded_text[354:355] '' --> ' '", + "replace text[92:94] --> decoded_text[356:369] '毕业' --> ' [UNK] [UNK] '", + "insert text[95:95] --> decoded_text[370:371] '' --> ' '", + "replace text[96:103] --> decoded_text[372:415] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[104:104] --> decoded_text[416:417] '' --> ' '", + "insert text[105:105] --> decoded_text[418:419] '' --> ' '", + "replace text[106:107] --> decoded_text[420:427] '资' --> ' [UNK] '", + "insert text[108:108] --> decoded_text[428:429] '' --> ' '", + "insert text[109:109] --> decoded_text[430:431] '' --> ' '", + "insert text[110:110] --> decoded_text[432:433] '' --> ' '", + "replace text[111:112] --> decoded_text[434:441] '近' --> ' [UNK] '", + "insert text[113:113] --> decoded_text[442:443] '' --> ' '", + "replace text[114:121] --> decoded_text[444:487] '编辑专门联系到' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[122:122] --> decoded_text[488:489] '' --> ' '", + "replace text[123:125] --> decoded_text[490:503] '传奇' --> ' [UNK] [UNK] '", + "insert text[126:126] --> decoded_text[504:505] '' --> ' '", + "replace text[127:128] --> decoded_text[506:513] '现' --> ' [UNK] '", + "replace text[129:131] --> decoded_text[514:527] '汽车' --> ' [UNK] [UNK] '", + "replace text[132:136] --> decoded_text[528:548] 'S店得知' --> 's [UNK] [UNK] [UNK] '", + "replace text[137:138] --> decoded_text[549:556] '店' --> ' [UNK] '", + "replace text[139:143] --> decoded_text[557:582] '朗动车型' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[144:148] --> decoded_text[583:608] '现车供应' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[149:158] --> decoded_text[609:664] '现阶段购车可享受最' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[159:159] --> decoded_text[665:666] '' --> ' '", + "insert text[163:163] --> decoded_text[670:671] '' --> ' '", + "replace text[164:168] --> decoded_text[672:697] '优惠幅度' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[169:171] --> decoded_text[698:711] '具体' --> ' [UNK] [UNK] '", + "replace text[172:174] --> decoded_text[712:725] '车型' --> ' [UNK] [UNK] '", + "replace text[175:181] --> decoded_text[726:763] '价格情况请见' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[182:183] --> decoded_text[764:771] '表' --> ' [UNK] '", + "insert text[184:184] --> decoded_text[772:773] '' --> ' '", + "replace text[185:189] --> decoded_text[774:799] '时感兴趣' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[190:196] --> decoded_text[800:837] '朋友还可致电' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[847:854] '转' --> ' [UNK] '", + "replace text[211:213] --> decoded_text[858:871] '详询' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 121, + "oov_ratio": 0.5654205607476636, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"近\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"传\", \"奇\", \"现\", \"S\", \"店\", \"得\", \"知\", \"朗\", \"动\", \"型\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"表\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一 [UNK] [UNK] [UNK] 美 国 大 [UNK] 《 幸 福 [UNK] [UNK] [UNK] 》 的 [UNK] [UNK] [UNK] 中 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 事 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] 行 前 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 有 [UNK] [UNK] , 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 的 中 国 夫 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 下 , [UNK] [UNK] 夫 [UNK] [UNK] [UNK] [UNK] [UNK] 心 [UNK] [UNK] 的 [UNK] 小 [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 前 [UNK] 分 [UNK] , [UNK] 上 [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '个类似' --> ' [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[21:22] '' --> ' '", + "insert text[6:6] --> decoded_text[23:24] '' --> ' '", + "replace text[7:8] --> decoded_text[25:32] '片' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[33:34] '' --> ' '", + "insert text[10:10] --> decoded_text[35:36] '' --> ' '", + "replace text[11:14] --> decoded_text[37:56] '终点站' --> ' [UNK] [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[57:58] '' --> ' '", + "replace text[16:19] --> decoded_text[59:78] '案例令' --> ' [UNK] [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[79:80] '' --> ' '", + "replace text[21:27] --> decoded_text[81:118] '驻圣彼得堡领' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[28:35] --> decoded_text[119:162] '官胡滨印象深刻' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[36:38] --> decoded_text[163:176] '由于' --> ' [UNK] [UNK] '", + "insert text[39:39] --> decoded_text[177:178] '' --> ' '", + "replace text[40:48] --> decoded_text[179:228] '未能仔细核对签证' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[229:242] '效期' --> ' [UNK] [UNK] '", + "insert text[52:52] --> decoded_text[243:244] '' --> ' '", + "replace text[53:60] --> decoded_text[245:288] '对赴俄罗斯旅游' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[61:61] --> decoded_text[289:290] '' --> ' '", + "insert text[62:62] --> decoded_text[291:292] '' --> ' '", + "insert text[63:63] --> decoded_text[293:294] '' --> ' '", + "replace text[64:79] --> decoded_text[295:386] '妇因为签证过期差点被困在俄罗斯' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[80:83] --> decoded_text[387:406] '在胡滨' --> ' [UNK] [UNK] [UNK] '", + "replace text[84:86] --> decoded_text[407:420] '协助' --> ' [UNK] [UNK] '", + "insert text[87:87] --> decoded_text[421:422] '' --> ' '", + "replace text[88:90] --> decoded_text[423:436] '这对' --> ' [UNK] [UNK] '", + "replace text[91:96] --> decoded_text[437:468] '妇经历了惊' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:99] --> decoded_text[469:482] '动魄' --> ' [UNK] [UNK] '", + "replace text[100:101] --> decoded_text[483:490] '3' --> ' [UNK] '", + "replace text[102:103] --> decoded_text[491:498] '时' --> ' [UNK] '", + "replace text[104:111] --> decoded_text[499:542] '终于在飞机起飞' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[543:550] '5' --> ' [UNK] '", + "replace text[114:115] --> decoded_text[551:558] '钟' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[559:566] '登' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[567:580] '返程' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[581:594] '航班' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 87, + "oov_ratio": 0.7016129032258065, + "oov_charset": "[\"个\", \"类\", \"似\", \"片\", \"终\", \"点\", \"站\", \"案\", \"例\", \"令\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"由\", \"于\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"效\", \"期\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"钟\", \"登\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 德 江 [UNK] [UNK] [UNK] 中 [UNK] 示 , 中 法 [UNK] [UNK] [UNK] [UNK] [UNK] 中 法 [UNK] [UNK] [UNK] 大 国 家 [UNK] [UNK] [UNK] [UNK] 的 新 [UNK] 元 , [UNK] 立 [UNK] 不 同 社 会 [UNK] [UNK] 国 家 和 平 [UNK] [UNK] 的 新 [UNK] [UNK] , [UNK] 国 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 生 [UNK] [UNK] 大 [UNK] [UNK] [UNK] 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:48] '招财带什么佛牌张' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[9:9] --> decoded_text[49:50] '' --> ' '", + "replace text[10:13] --> decoded_text[51:70] '在致辞' --> ' [UNK] [UNK] [UNK] '", + "replace text[14:15] --> decoded_text[71:78] '表' --> ' [UNK] '", + "insert text[16:16] --> decoded_text[79:80] '' --> ' '", + "insert text[17:17] --> decoded_text[81:82] '' --> ' '", + "insert text[18:18] --> decoded_text[83:84] '' --> ' '", + "replace text[19:24] --> decoded_text[85:116] '建交开启了' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[117:118] '' --> ' '", + "replace text[26:29] --> decoded_text[119:138] '两个伟' --> ' [UNK] [UNK] [UNK] '", + "insert text[30:30] --> decoded_text[139:140] '' --> ' '", + "insert text[31:31] --> decoded_text[141:142] '' --> ' '", + "replace text[32:36] --> decoded_text[143:168] '友好关系' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[37:37] --> decoded_text[169:170] '' --> ' '", + "replace text[38:39] --> decoded_text[171:178] '纪' --> ' [UNK] '", + "insert text[40:40] --> decoded_text[179:180] '' --> ' '", + "replace text[41:42] --> decoded_text[181:188] '树' --> ' [UNK] '", + "replace text[43:44] --> decoded_text[189:196] '了' --> ' [UNK] '", + "insert text[45:45] --> decoded_text[197:198] '' --> ' '", + "insert text[46:46] --> decoded_text[199:200] '' --> ' '", + "insert text[47:47] --> decoded_text[201:202] '' --> ' '", + "replace text[48:50] --> decoded_text[203:216] '制度' --> ' [UNK] [UNK] '", + "insert text[51:51] --> decoded_text[217:218] '' --> ' '", + "insert text[52:52] --> decoded_text[219:220] '' --> ' '", + "insert text[53:53] --> decoded_text[221:222] '' --> ' '", + "replace text[54:56] --> decoded_text[223:236] '共处' --> ' [UNK] [UNK] '", + "insert text[57:57] --> decoded_text[237:238] '' --> ' '", + "replace text[58:60] --> decoded_text[239:252] '典范' --> ' [UNK] [UNK] '", + "replace text[61:62] --> decoded_text[253:260] '对' --> ' [UNK] '", + "replace text[63:69] --> decoded_text[261:298] '际战略格局产' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:72] --> decoded_text[299:312] '了重' --> ' [UNK] [UNK] '", + "replace text[73:76] --> decoded_text[313:332] '而深远' --> ' [UNK] [UNK] [UNK] '", + "replace text[77:79] --> decoded_text[333:346] '影响' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 47, + "oov_ratio": 0.5875, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"在\", \"致\", \"辞\", \"表\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"友\", \"好\", \"关\", \"系\", \"纪\", \"树\", \"制\", \"度\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 夫 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 西 [UNK] 、 [UNK] 南 、 英 国 、 [UNK] [UNK] 、 美 国 [UNK] [UNK] 。 1999 年 , [UNK] 成 [UNK] [UNK] 合 国 [UNK] [UNK] 帝 [UNK] 部 [UNK] 司 [UNK] , [UNK] [UNK] [UNK] 帝 [UNK] [UNK] [UNK] 立 国 家 的 [UNK] [UNK] 。", + "diff": [ + "replace text[0:11] --> decoded_text[0:66] '招财带什么佛牌科斯格罗' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[12:12] --> decoded_text[67:68] '' --> ' '", + "replace text[13:19] --> decoded_text[69:106] '直供职于军队' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[20:26] --> decoded_text[107:144] '曾被派往马来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[27:28] --> decoded_text[145:152] '亚' --> ' [UNK] '", + "replace text[29:30] --> decoded_text[153:160] '越' --> ' [UNK] '", + "insert text[31:31] --> decoded_text[161:162] '' --> ' '", + "insert text[32:32] --> decoded_text[163:164] '' --> ' '", + "insert text[33:33] --> decoded_text[165:166] '' --> ' '", + "insert text[34:34] --> decoded_text[167:168] '' --> ' '", + "replace text[35:37] --> decoded_text[169:182] '印度' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[183:184] '' --> ' '", + "insert text[39:39] --> decoded_text[185:186] '' --> ' '", + "replace text[40:42] --> decoded_text[187:200] '工作' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[201:202] '' --> ' '", + "insert text[47:47] --> decoded_text[206:207] '' --> ' '", + "insert text[48:48] --> decoded_text[208:209] '' --> ' '", + "replace text[49:50] --> decoded_text[210:217] '他' --> ' [UNK] '", + "replace text[51:53] --> decoded_text[218:231] '为联' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[232:233] '' --> ' '", + "replace text[55:57] --> decoded_text[234:247] '驻东' --> ' [UNK] [UNK] '", + "replace text[58:59] --> decoded_text[248:255] '汶' --> ' [UNK] '", + "replace text[60:61] --> decoded_text[256:263] '队' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[264:271] '令' --> ' [UNK] '", + "replace text[64:67] --> decoded_text[272:291] '监督东' --> ' [UNK] [UNK] [UNK] '", + "replace text[68:71] --> decoded_text[292:311] '汶向独' --> ' [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[312:313] '' --> ' '", + "insert text[73:73] --> decoded_text[314:315] '' --> ' '", + "insert text[74:74] --> decoded_text[316:317] '' --> ' '", + "replace text[75:77] --> decoded_text[318:331] '过渡' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.5769230769230769, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"亚\", \"越\", \"印\", \"度\", \"工\", \"作\", \"他\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"令\", \"监\", \"督\", \"向\", \"独\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] [UNK] 香 [UNK] 《 明 [UNK] 》 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 士 [UNK] [UNK] 美 国 [UNK] [UNK] [UNK] [UNK] 50 [UNK] 年 的 [UNK] [UNK] 日 子 , [UNK] [UNK] 美 [UNK] [UNK] 名 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 高 史 [UNK] ( ringostarr ) [UNK] [UNK] [UNK] [UNK] 成 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 事 , 大 会 [UNK] [UNK] 金 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] • • [UNK] [UNK] [UNK] ( juliaroberts ) [UNK] [UNK] 介 [UNK] 二 人 出 [UNK] , 保 [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] 和 [UNK] 下 , [UNK] [UNK] [UNK] 新 歌 《 queenieeye 》 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 《 photograph 》 , [UNK] [UNK] 歌 [UNK] [UNK] [UNK] [UNK] 日 的 美 [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:21] '电据' --> ' [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[22:29] '港' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[30:31] '' --> ' '", + "replace text[11:12] --> decoded_text[32:39] '报' --> ' [UNK] '", + "replace text[13:15] --> decoded_text[40:53] '消息' --> ' [UNK] [UNK] '", + "replace text[16:21] --> decoded_text[54:85] '在庆祝披头' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[86:99] '进军' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[100:101] '' --> ' '", + "replace text[26:30] --> decoded_text[102:127] '音乐市场' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[32:33] --> decoded_text[129:136] '周' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[137:138] '' --> ' '", + "replace text[35:37] --> decoded_text[139:152] '纪念' --> ' [UNK] [UNK] '", + "insert text[38:38] --> decoded_text[153:154] '' --> ' '", + "insert text[39:39] --> decoded_text[155:156] '' --> ' '", + "replace text[40:42] --> decoded_text[157:170] '格莱' --> ' [UNK] [UNK] '", + "replace text[43:45] --> decoded_text[171:184] '向两' --> ' [UNK] [UNK] '", + "replace text[46:48] --> decoded_text[185:198] '仅存' --> ' [UNK] [UNK] '", + "replace text[49:50] --> decoded_text[199:206] '员' --> ' [UNK] '", + "insert text[51:51] --> decoded_text[207:208] '' --> ' '", + "replace text[52:58] --> decoded_text[209:246] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[247:248] '' --> ' '", + "replace text[60:61] --> decoded_text[249:256] '达' --> ' [UNK] '", + "replace text[62:63] --> decoded_text[257:259] 'R' --> ' r'", + "replace text[67:68] --> decoded_text[263:264] 'S' --> 's'", + "insert text[72:72] --> decoded_text[268:269] '' --> ' '", + "replace text[73:77] --> decoded_text[270:295] '颁发终身' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[78:80] --> decoded_text[296:309] '就奖' --> ' [UNK] [UNK] '", + "replace text[81:87] --> decoded_text[310:347] '显得别具意义' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[88:93] --> decoded_text[348:379] '为了隆重其' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[94:94] --> decoded_text[380:381] '' --> ' '", + "insert text[95:95] --> decoded_text[382:383] '' --> ' '", + "insert text[96:96] --> decoded_text[384:385] '' --> ' '", + "replace text[97:99] --> decoded_text[386:399] '请来' --> ' [UNK] [UNK] '", + "replace text[100:106] --> decoded_text[400:437] '像影后茱莉亚' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[107:107] --> decoded_text[438:439] '' --> ' '", + "replace text[108:111] --> decoded_text[440:459] '罗伯茨' --> ' [UNK] [UNK] [UNK] '", + "replace text[112:113] --> decoded_text[460:462] 'J' --> ' j'", + "replace text[117:118] --> decoded_text[466:467] 'R' --> 'r'", + "insert text[124:124] --> decoded_text[473:474] '' --> ' '", + "replace text[125:127] --> decoded_text[475:488] '负责' --> ' [UNK] [UNK] '", + "replace text[128:129] --> decoded_text[489:496] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[497:498] '' --> ' '", + "insert text[131:131] --> decoded_text[499:500] '' --> ' '", + "replace text[132:133] --> decoded_text[501:508] '场' --> ' [UNK] '", + "insert text[134:134] --> decoded_text[509:510] '' --> ' '", + "replace text[135:139] --> decoded_text[511:536] '罗在拍档' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[140:142] --> decoded_text[537:550] '鼓声' --> ' [UNK] [UNK] '", + "replace text[143:144] --> decoded_text[551:558] '应' --> ' [UNK] '", + "insert text[145:145] --> decoded_text[559:560] '' --> ' '", + "replace text[146:149] --> decoded_text[561:580] '先献唱' --> ' [UNK] [UNK] [UNK] '", + "insert text[150:150] --> decoded_text[581:582] '' --> ' '", + "insert text[151:151] --> decoded_text[583:584] '' --> ' '", + "replace text[152:153] --> decoded_text[585:587] 'Q' --> ' q'", + "replace text[159:160] --> decoded_text[593:594] 'E' --> 'e'", + "insert text[162:162] --> decoded_text[596:597] '' --> ' '", + "insert text[163:163] --> decoded_text[598:599] '' --> ' '", + "replace text[164:174] --> decoded_text[600:661] '然后轮到后者演绎旧作' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[175:176] --> decoded_text[662:664] 'P' --> ' p'", + "insert text[185:185] --> decoded_text[673:674] '' --> ' '", + "insert text[186:186] --> decoded_text[675:676] '' --> ' '", + "replace text[187:189] --> decoded_text[677:690] '带领' --> ' [UNK] [UNK] '", + "replace text[190:194] --> decoded_text[691:716] '迷重温昔' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[195:195] --> decoded_text[717:718] '' --> ' '", + "insert text[196:196] --> decoded_text[719:720] '' --> ' '", + "replace text[197:200] --> decoded_text[721:740] '好情怀' --> ' [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 102, + "oov_ratio": 0.5074626865671642, + "oov_charset": "[\"电\", \"据\", \"港\", \"报\", \"消\", \"息\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"进\", \"军\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"纪\", \"念\", \"格\", \"莱\", \"向\", \"两\", \"仅\", \"存\", \"员\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"达\", \"R\", \"S\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"请\", \"来\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"J\", \"负\", \"责\", \"绍\", \"拍\", \"档\", \"鼓\", \"声\", \"应\", \"先\", \"献\", \"唱\", \"Q\", \"E\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"P\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 里 有 [UNK] [UNK] [UNK] 目 的 地 [UNK] , [UNK] [UNK] [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] 14 元 , [UNK] 司 [UNK] [UNK] [UNK] 21 元 , [UNK] [UNK] , 司 [UNK] [UNK] [UNK] [UNK] 7 元 , [UNK] [UNK] 之 前 [UNK] [UNK] 的 1 元 , [UNK] [UNK] [UNK] [UNK] 6 元 , [UNK] [UNK] [UNK] [UNK] [UNK] 本 [UNK] [UNK] [UNK] 14 元 的 [UNK] 。", + "diff": [ + "replace text[0:4] --> decoded_text[0:24] '佛牌绳哪' --> '[UNK] [UNK] [UNK] [UNK] '", + "insert text[5:5] --> decoded_text[25:26] '' --> ' '", + "replace text[6:9] --> decoded_text[27:46] '卖到达' --> ' [UNK] [UNK] [UNK] '", + "insert text[10:10] --> decoded_text[47:48] '' --> ' '", + "insert text[11:11] --> decoded_text[49:50] '' --> ' '", + "replace text[12:18] --> decoded_text[51:84] '后,记者全程' --> ' [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[19:23] --> decoded_text[85:110] '总车费是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:28] --> decoded_text[112:123] '元,但' --> ' 元 , [UNK] '", + "replace text[29:32] --> decoded_text[124:143] '机到账' --> ' [UNK] [UNK] [UNK] '", + "replace text[34:39] --> decoded_text[145:164] '元,因此,' --> ' 元 , [UNK] [UNK] , '", + "replace text[40:44] --> decoded_text[165:190] '机给记者' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[191:208] '元,除去' --> ' 元 , [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[209:210] '' --> ' '", + "replace text[51:53] --> decoded_text[211:224] '支付' --> ' [UNK] [UNK] '", + "insert text[54:54] --> decoded_text[225:226] '' --> ' '", + "replace text[55:61] --> decoded_text[227:256] '元,记者净赚' --> ' 元 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:69] --> decoded_text[257:292] '元,还免费乘了' --> ' 元 , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[70:73] --> decoded_text[293:312] '应支付' --> ' [UNK] [UNK] [UNK] '", + "replace text[75:76] --> decoded_text[314:317] '元' --> ' 元 '", + "replace text[77:78] --> decoded_text[318:325] '车' --> ' [UNK] '" + ], + "n_oov_chars": 43, + "oov_ratio": 0.5443037974683544, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"卖\", \"到\", \"达\", \"后\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"但\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] [UNK] ・ [UNK] [UNK] [UNK] [UNK] 2012 年 加 [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] , [UNK] [UNK] [UNK] 公 司 [UNK] [UNK] [UNK] [UNK] 国 [UNK] [UNK] [UNK] 上 [UNK] [UNK] [UNK] 和 [UNK] [UNK] [UNK] 外 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] 福 大 学 的 [UNK] [UNK] 生 , [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 中 国 合 [UNK] 公 司 的 [UNK] [UNK] [UNK] , 上 [UNK] [UNK] [UNK] 五 [UNK] 公 司 的 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 公 司 的 [UNK] [UNK] 。 ( 方 [UNK] 春 )", + "diff": [ + "replace text[0:2] --> decoded_text[0:12] '卡尔' --> '[UNK] [UNK] '", + "replace text[3:7] --> decoded_text[13:38] '斯利姆于' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[42:43] '' --> ' '", + "insert text[12:12] --> decoded_text[44:45] '' --> ' '", + "replace text[13:18] --> decoded_text[46:77] '入塔塔汽车' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[19:19] --> decoded_text[78:79] '' --> ' '", + "replace text[20:25] --> decoded_text[80:111] '担任总经理' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[26:27] --> decoded_text[112:119] '职' --> ' [UNK] '", + "replace text[28:31] --> decoded_text[120:139] '并负责' --> ' [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[140:141] '' --> ' '", + "replace text[33:37] --> decoded_text[142:167] '在印度及' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:41] --> decoded_text[168:187] '际市场' --> ' [UNK] [UNK] [UNK] '", + "replace text[42:45] --> decoded_text[188:207] '除捷豹' --> ' [UNK] [UNK] [UNK] '", + "replace text[46:49] --> decoded_text[208:227] '路虎以' --> ' [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[228:229] '' --> ' '", + "replace text[51:53] --> decoded_text[230:243] '业务' --> ' [UNK] [UNK] '", + "replace text[54:58] --> decoded_text[244:269] '这位斯坦' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[270:271] '' --> ' '", + "insert text[60:60] --> decoded_text[272:273] '' --> ' '", + "insert text[61:61] --> decoded_text[274:275] '' --> ' '", + "replace text[62:64] --> decoded_text[276:289] '毕业' --> ' [UNK] [UNK] '", + "insert text[65:65] --> decoded_text[290:291] '' --> ' '", + "replace text[66:73] --> decoded_text[292:335] '曾任通用汽车在' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[74:74] --> decoded_text[336:337] '' --> ' '", + "insert text[75:75] --> decoded_text[338:339] '' --> ' '", + "replace text[76:77] --> decoded_text[340:347] '资' --> ' [UNK] '", + "insert text[78:78] --> decoded_text[348:349] '' --> ' '", + "insert text[79:79] --> decoded_text[350:351] '' --> ' '", + "replace text[80:83] --> decoded_text[352:371] '副总裁' --> ' [UNK] [UNK] [UNK] '", + "insert text[84:84] --> decoded_text[372:373] '' --> ' '", + "replace text[85:88] --> decoded_text[374:393] '汽通用' --> ' [UNK] [UNK] [UNK] '", + "replace text[89:90] --> decoded_text[394:401] '菱' --> ' [UNK] '", + "insert text[91:91] --> decoded_text[402:403] '' --> ' '", + "insert text[92:92] --> decoded_text[404:405] '' --> ' '", + "replace text[93:104] --> decoded_text[406:473] '副总裁以及通用汽车印度' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[105:105] --> decoded_text[474:475] '' --> ' '", + "insert text[106:106] --> decoded_text[476:477] '' --> ' '", + "replace text[107:109] --> decoded_text[478:491] '总裁' --> ' [UNK] [UNK] '", + "insert text[110:110] --> decoded_text[492:493] '' --> ' '", + "insert text[111:111] --> decoded_text[494:495] '' --> ' '", + "replace text[112:113] --> decoded_text[496:503] '赵' --> ' [UNK] '", + "insert text[114:114] --> decoded_text[504:505] '' --> ' '" + ], + "n_oov_chars": 70, + "oov_ratio": 0.6086956521739131, + "oov_charset": "[\"卡\", \"尔\", \"斯\", \"利\", \"姆\", \"于\", \"入\", \"塔\", \"汽\", \"车\", \"担\", \"任\", \"总\", \"经\", \"理\", \"职\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"际\", \"市\", \"场\", \"除\", \"捷\", \"豹\", \"路\", \"虎\", \"以\", \"业\", \"务\", \"这\", \"位\", \"坦\", \"毕\", \"曾\", \"通\", \"用\", \"资\", \"副\", \"裁\", \"菱\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] 部 [UNK] [UNK] 都 [UNK] [UNK] [UNK] [UNK] 的 [UNK] 西 , [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] 。 [UNK] 也 [UNK] 人 , 不 [UNK] 神 , 人 [UNK] 有 [UNK] [UNK] 的 [UNK] [UNK] 。 [UNK] [UNK] [UNK] [UNK] [UNK] 春 [UNK] , [UNK] 我 也 [UNK] [UNK] : “ [UNK] [UNK] , 我 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] 2 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] 1 [UNK] [UNK] , [UNK] [UNK] [UNK] 我 [UNK] [UNK] [UNK] [UNK] 不 [UNK] ? ” [UNK] 也 [UNK] [UNK] 人 。 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] 也 不 一 定 有 [UNK] [UNK] 。", + "diff": [ + "replace text[1:4] --> decoded_text[1:20] '腕导演' --> ' [UNK] [UNK] [UNK] '", + "replace text[5:8] --> decoded_text[21:40] '可能每' --> ' [UNK] [UNK] [UNK] '", + "replace text[9:11] --> decoded_text[41:54] '作品' --> ' [UNK] [UNK] '", + "replace text[12:16] --> decoded_text[55:80] '是你喜欢' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[17:18] --> decoded_text[81:88] '东' --> ' [UNK] '", + "replace text[19:23] --> decoded_text[89:110] ',如果他' --> ' , [UNK] [UNK] [UNK] '", + "replace text[24:27] --> decoded_text[111:130] '时控制' --> ' [UNK] [UNK] [UNK] '", + "replace text[28:37] --> decoded_text[131:182] '住情绪,就让他骂吧' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[38:39] --> decoded_text[183:190] '他' --> ' [UNK] '", + "replace text[40:41] --> decoded_text[191:198] '是' --> ' [UNK] '", + "replace text[42:43] --> decoded_text[199:202] ',' --> ' , '", + "replace text[44:45] --> decoded_text[203:210] '是' --> ' [UNK] '", + "replace text[46:47] --> decoded_text[211:214] ',' --> ' , '", + "replace text[48:49] --> decoded_text[215:222] '就' --> ' [UNK] '", + "replace text[50:52] --> decoded_text[223:236] '自己' --> ' [UNK] [UNK] '", + "replace text[53:55] --> decoded_text[237:250] '脾气' --> ' [UNK] [UNK] '", + "replace text[56:61] --> decoded_text[251:282] '他这次执导' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[283:298] '晚,对' --> ' [UNK] , [UNK] '", + "insert text[66:66] --> decoded_text[299:300] '' --> ' '", + "replace text[67:69] --> decoded_text[301:314] '开骂' --> ' [UNK] [UNK] '", + "insert text[70:70] --> decoded_text[315:316] '' --> ' '", + "replace text[71:74] --> decoded_text[317:332] '老毕,' --> ' [UNK] [UNK] , '", + "replace text[75:88] --> decoded_text[333:408] '跟你说了这么长时间,让你走' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[89:96] --> decoded_text[409:448] '号位,你非要走' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] '", + "replace text[97:103] --> decoded_text[449:482] '号位,你想跟' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] '", + "replace text[104:108] --> decoded_text[483:508] '较死劲是' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:110] --> decoded_text[509:516] '是' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[517:518] '' --> ' '", + "replace text[112:113] --> decoded_text[519:526] '这' --> ' [UNK] '", + "replace text[114:116] --> decoded_text[527:540] '是骂' --> ' [UNK] [UNK] '", + "insert text[117:117] --> decoded_text[541:542] '' --> ' '", + "replace text[118:129] --> decoded_text[543:606] '但因为你非常了解他,他' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] , [UNK] '", + "insert text[130:130] --> decoded_text[607:608] '' --> ' '", + "insert text[131:131] --> decoded_text[609:610] '' --> ' '", + "insert text[132:132] --> decoded_text[611:612] '' --> ' '", + "insert text[133:133] --> decoded_text[613:614] '' --> ' '", + "replace text[134:136] --> decoded_text[615:628] '恶意' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 89, + "oov_ratio": 0.6496350364963503, + "oov_charset": "[\"腕\", \"导\", \"演\", \"可\", \"能\", \"每\", \"作\", \"品\", \"是\", \"你\", \"喜\", \"欢\", \"东\", \"如\", \"果\", \"他\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"晚\", \"对\", \"开\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"但\", \"因\", \"为\", \"常\", \"解\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 不 [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] 也 花 [UNK] [UNK] 。 有 [UNK] [UNK] [UNK] 道 , [UNK] [UNK] [UNK] [UNK] [UNK] 的 年 [UNK] 高 [UNK] 360 [UNK] 元 人 民 [UNK] , 李 [UNK] [UNK] 年 的 花 [UNK] [UNK] 600 [UNK] [UNK] 元 。 [UNK] 一 [UNK] [UNK] [UNK] 的 比 [UNK] , [UNK] [UNK] [UNK] 天 一 [UNK] [UNK] , [UNK] [UNK] 2 [UNK] 元 [UNK] 出 [UNK] [UNK] 。", + "diff": [ + "replace text[0:7] --> decoded_text[0:42] '招财带什么佛牌' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[8:15] --> decoded_text[43:82] '过挣得多,娜姐' --> ' [UNK] [UNK] [UNK] [UNK] , [UNK] [UNK] '", + "insert text[16:16] --> decoded_text[83:84] '' --> ' '", + "replace text[17:19] --> decoded_text[85:98] '得多' --> ' [UNK] [UNK] '", + "insert text[20:20] --> decoded_text[99:100] '' --> ' '", + "replace text[21:24] --> decoded_text[101:120] '媒体报' --> ' [UNK] [UNK] [UNK] '", + "replace text[25:31] --> decoded_text[121:154] ',教练卡洛斯' --> ' , [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[155:156] '' --> ' '", + "replace text[33:34] --> decoded_text[157:164] '薪' --> ' [UNK] '", + "replace text[35:36] --> decoded_text[165:172] '达' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[175:182] '万' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[183:184] '' --> ' '", + "insert text[42:42] --> decoded_text[185:186] '' --> ' '", + "replace text[43:45] --> decoded_text[187:196] '币,' --> ' [UNK] , '", + "replace text[46:48] --> decoded_text[197:210] '娜每' --> ' [UNK] [UNK] '", + "insert text[49:49] --> decoded_text[211:212] '' --> ' '", + "insert text[50:50] --> decoded_text[213:214] '' --> ' '", + "replace text[51:53] --> decoded_text[215:228] '费是' --> ' [UNK] [UNK] '", + "replace text[56:58] --> decoded_text[231:244] '多万' --> ' [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[245:246] '' --> ' '", + "replace text[60:61] --> decoded_text[247:254] '用' --> ' [UNK] '", + "replace text[62:65] --> decoded_text[255:274] '个形象' --> ' [UNK] [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[275:276] '' --> ' '", + "replace text[67:72] --> decoded_text[277:304] '喻,娜姐每' --> ' [UNK] , [UNK] [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[305:306] '' --> ' '", + "replace text[74:79] --> decoded_text[307:334] '睁眼,将近' --> ' [UNK] [UNK] , [UNK] [UNK] '", + "replace text[80:81] --> decoded_text[335:342] '万' --> ' [UNK] '", + "replace text[82:83] --> decoded_text[343:350] '就' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[351:364] '去了' --> ' [UNK] [UNK] '" + ], + "n_oov_chars": 49, + "oov_ratio": 0.5632183908045977, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"过\", \"挣\", \"得\", \"多\", \"娜\", \"姐\", \"媒\", \"体\", \"报\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"薪\", \"达\", \"万\", \"币\", \"每\", \"费\", \"是\", \"用\", \"个\", \"形\", \"象\", \"喻\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 [UNK] 的 小 [UNK] 《 [UNK] 城 [UNK] 》 里 有 一 [UNK] [UNK] [UNK] 人 [UNK] ‘ [UNK] [UNK] [UNK] [UNK] ’ , 一 [UNK] 的 [UNK] 人 [UNK] [UNK] 事 都 [UNK] 心 [UNK] 的 , [UNK] [UNK] [UNK] [UNK] 人 [UNK] [UNK] [UNK] [UNK] 心 安 [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , 我 [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] 。 ” 王 [UNK] 生 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 一 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 。 原 [UNK] , [UNK] 日 王 [UNK] 生 [UNK] [UNK] 出 [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] 不 [UNK] “ [UNK] 金 [UNK] [UNK] ” , [UNK] “ [UNK] ” [UNK] [UNK] [UNK] [UNK] [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:12] '庸的' --> ' [UNK] 的 '", + "replace text[5:6] --> decoded_text[13:20] '说' --> ' [UNK] '", + "replace text[7:8] --> decoded_text[21:28] '连' --> ' [UNK] '", + "replace text[9:10] --> decoded_text[29:36] '诀' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[37:38] '' --> ' '", + "insert text[12:12] --> decoded_text[39:40] '' --> ' '", + "insert text[13:13] --> decoded_text[41:42] '' --> ' '", + "replace text[14:17] --> decoded_text[43:62] '个反派' --> ' [UNK] [UNK] [UNK] '", + "replace text[18:19] --> decoded_text[63:70] '物' --> ' [UNK] '", + "replace text[20:24] --> decoded_text[71:96] '血刀老祖' --> ' [UNK] [UNK] [UNK] [UNK] '", + "replace text[25:26] --> decoded_text[97:100] ',' --> ' , '", + "replace text[27:30] --> decoded_text[101:116] '般的坏' --> ' [UNK] 的 [UNK] '", + "replace text[31:33] --> decoded_text[117:130] '做坏' --> ' [UNK] [UNK] '", + "insert text[34:34] --> decoded_text[131:132] '' --> ' '", + "replace text[35:36] --> decoded_text[133:140] '是' --> ' [UNK] '", + "replace text[37:44] --> decoded_text[141:176] '虚的,但是这个' --> ' [UNK] 的 , [UNK] [UNK] [UNK] [UNK] '", + "replace text[45:49] --> decoded_text[177:202] '物却做得' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[50:50] --> decoded_text[203:204] '' --> ' '", + "replace text[51:59] --> decoded_text[205:246] '理得,理直气壮,' --> ' [UNK] [UNK] , [UNK] [UNK] [UNK] [UNK] , '", + "replace text[60:71] --> decoded_text[247:306] '遇到的这个的哥就是这样' --> ' [UNK] [UNK] 的 [UNK] [UNK] 的 [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[307:308] '' --> ' '", + "insert text[73:73] --> decoded_text[309:310] '' --> ' '", + "replace text[74:75] --> decoded_text[311:318] '先' --> ' [UNK] '", + "replace text[76:85] --> decoded_text[319:374] '向记者描述经过时第' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "replace text[86:92] --> decoded_text[375:412] '句话便这样说' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[413:414] '' --> ' '", + "replace text[94:97] --> decoded_text[415:430] '来,昨' --> ' [UNK] , [UNK] '", + "insert text[98:98] --> decoded_text[431:432] '' --> ' '", + "replace text[99:100] --> decoded_text[433:440] '先' --> ' [UNK] '", + "replace text[101:103] --> decoded_text[441:454] '在搭' --> ' [UNK] [UNK] '", + "replace text[104:113] --> decoded_text[455:498] '租车时,遇到的的哥' --> ' [UNK] [UNK] [UNK] , [UNK] [UNK] 的 的 [UNK] '", + "replace text[114:115] --> decoded_text[499:506] '仅' --> ' [UNK] '", + "replace text[116:117] --> decoded_text[507:514] '拾' --> ' [UNK] '", + "replace text[118:120] --> decoded_text[515:528] '而昧' --> ' [UNK] [UNK] '", + "replace text[121:123] --> decoded_text[529:538] ',还' --> ' , [UNK] '", + "replace text[124:125] --> decoded_text[539:546] '昧' --> ' [UNK] '", + "replace text[126:131] --> decoded_text[547:578] '得理直气壮' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '" + ], + "n_oov_chars": 79, + "oov_ratio": 0.5984848484848485, + "oov_charset": "[\"庸\", \"说\", \"连\", \"诀\", \"个\", \"反\", \"派\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \"般\", \"坏\", \"做\", \"是\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"理\", \"直\", \"气\", \"壮\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"先\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"来\", \"昨\", \"在\", \"搭\", \"租\", \"车\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.en.diff.json b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..72eec86c45285f3c45ecfe33de13e00128260ad0 --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.es.diff.json b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/google.mt5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f94df4d41c4051709613f43568a36983d6e9d31e --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.en.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "Hope you are OK and have got over the stress of your trip now <3", + "decoded_text": "Hope you are OK and have got over the stress of your trip now 3", + "diff": [ + "insert text[63:63] --> decoded_text[63:67] '' --> 'unk>'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015625, + "oov_charset": "[\"<\"]" + }, + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! ", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..66d9e4ead49926f6fd30f916d2ed8bc3d27125cf --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.es.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", + "diff": [ + "replace text[190:191] --> decoded_text[190:195] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004464285714285714, + "oov_charset": "[\"í\"]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[133:134] --> decoded_text[133:138] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] 'í' --> ''", + "replace text[19:20] --> decoded_text[23:28] 'í' --> ''", + "replace text[56:57] --> decoded_text[64:66] 'ú' --> ' decoded_text[67:70] '' --> 'k>n'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05172413793103448, + "oov_charset": "[\"í\", \"ú\"]" + }, + { + "text": "determinados artículos del Estatuto de los Trabajadores,", + "decoded_text": "determinados artculos del Estatuto de los Trabajadores,", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017857142857142856, + "oov_charset": "[\"í\"]" + }, + { + "text": "Cuando el período de vacaciones fijado en el calendario de", + "decoded_text": "Cuando el perodo de vacaciones fijado en el calendario de", + "diff": [ + "replace text[13:14] --> decoded_text[13:18] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.017241379310344827, + "oov_charset": "[\"í\"]" + }, + { + "text": "del embarazo, el parto o la lactancia natural o con el período de", + "decoded_text": "del embarazo, el parto o la lactancia natural o con el perodo de", + "diff": [ + "replace text[58:59] --> decoded_text[58:63] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015384615384615385, + "oov_charset": "[\"í\"]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artculo 48.4", + "diff": [ + "replace text[53:54] --> decoded_text[53:58] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "al finalizar el período de suspensión, aunque haya terminado", + "decoded_text": "al finalizar el perodo de suspensión, aunque haya terminado", + "diff": [ + "replace text[19:20] --> decoded_text[19:24] 'í' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"í\"]" + }, + { + "text": "el año natural a que correspondan.", + "decoded_text": "el ao natural a que correspondan.", + "diff": [ + "replace text[4:5] --> decoded_text[4:9] 'ñ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"ñ\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8e063bbe0b425a09019eda226c84d7531ab86503 --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.fr.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ^^", + "decoded_text": "- quand je fais un plan, je m'y tiens, mais quand je n'en fais pas j'improvise aussi assez bien ", + "diff": [ + "replace text[96:98] --> decoded_text[96:101] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"^\"]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ^^", + "decoded_text": "Mdrr j'ai mis plein de trucs, mes potes m'ont un peu aidé parce que c'est dur de se décrire soi-même... En tout cas merci d'avoir créé ce sujet ", + "diff": [ + "replace text[144:146] --> decoded_text[144:149] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0136986301369863, + "oov_charset": "[\"^\"]" + }, + { + "text": "haha merci pour ta réponse ^^ (je me demande si on devrait compter les jolies filles comme contact physique)", + "decoded_text": "haha merci pour ta réponse (je me demande si on devrait compter les jolies filles comme contact physique)", + "diff": [ + "replace text[27:29] --> decoded_text[27:32] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.018518518518518517, + "oov_charset": "[\"^\"]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''", + "replace text[66:68] --> decoded_text[65:70] '^^' --> ''" + ], + "n_oov_chars": 2, + "oov_ratio": 0.029411764705882353, + "oov_charset": "[\"^\"]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Peut-on poser de la mosaïque de verre au sol?", + "decoded_text": "Peut-on poser de la mosaque de verre au sol?", + "diff": [ + "replace text[24:25] --> decoded_text[24:29] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.022222222222222223, + "oov_charset": "[\"ï\"]" + }, + { + "text": "Comment pose-t-on de la mosaïque de pâte de verre montée sur papier?", + "decoded_text": "Comment pose-t-on de la mosaque de pâte de verre montée sur papier?", + "diff": [ + "replace text[28:29] --> decoded_text[28:33] 'ï' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.014705882352941176, + "oov_charset": "[\"ï\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..61325e98b576ba2d47fffdc15aa2819c85874f60 --- /dev/null +++ b/stats/compression_rate/google.switch-c-2048 @ cc100.zh-Hans.diff.json @@ -0,0 +1,138 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "(www.suzastampin.com)2012,,,4S,,6000,,40081122333456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:5] '卍招财带什么佛牌卍' --> ''", + "replace text[30:37] --> decoded_text[26:31] '卡尔・斯利姆于' --> ''", + "replace text[41:131] --> decoded_text[35:58] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,,'", + "replace text[133:159] --> decoded_text[60:77] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',,'", + "replace text[163:196] --> decoded_text[81:98] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',,'", + "replace text[206:207] --> decoded_text[108:113] '转' --> ''", + "replace text[211:214] --> decoded_text[117:123] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",,3,5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:41] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',,3,5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ",1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:11] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ','", + "replace text[47:78] --> decoded_text[15:32] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "128,50,:(RingoStarr),,••(JuliaRoberts),,QueenieEye,Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:6] '月' --> ''", + "replace text[4:30] --> decoded_text[8:19] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ','", + "replace text[32:61] --> decoded_text[21:38] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ',:'", + "replace text[73:106] --> decoded_text[50:67] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',,'", + "replace text[108:111] --> decoded_text[69:74] '罗伯茨' --> ''", + "replace text[125:152] --> decoded_text[88:105] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',,'", + "replace text[162:175] --> decoded_text[115:126] '》,然后轮到后者演绎旧作《' --> ','", + "replace text[185:201] --> decoded_text[136:147] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ",14,21,,7,1,6,14", + "diff": [ + "replace text[0:23] --> decoded_text[0:11] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ','", + "replace text[25:32] --> decoded_text[13:24] '元,但司机到账' --> ','", + "replace text[34:44] --> decoded_text[26:43] '元,因此,司机给记者' --> ',,'", + "replace text[45:54] --> decoded_text[44:55] '元,除去之前支付的' --> ','", + "replace text[55:61] --> decoded_text[56:67] '元,记者净赚' --> ','", + "replace text[62:73] --> decoded_text[68:79] '元,还免费乘了本应支付' --> ','", + "replace text[75:79] --> decoded_text[81:86] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "2012,,,()", + "diff": [ + "replace text[0:7] --> decoded_text[0:5] '卡尔・斯利姆于' --> ''", + "replace text[11:110] --> decoded_text[9:32] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,,'", + "replace text[111:114] --> decoded_text[33:38] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,,:“,,2,1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:36] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,,:'", + "replace text[71:88] --> decoded_text[37:54] '老毕,我跟你说了这么长时间,让你走' --> ',,'", + "replace text[89:96] --> decoded_text[55:66] '号位,你非要走' --> ','", + "replace text[97:111] --> decoded_text[67:79] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[80:91] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",,360,600,,2", + "diff": [ + "replace text[0:36] --> decoded_text[0:17] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',,'", + "replace text[39:53] --> decoded_text[20:31] '万元人民币,李娜每年的花费是' --> ','", + "replace text[56:79] --> decoded_text[34:51] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',,'", + "replace text[80:87] --> decoded_text[52:57] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“’,,,,,,”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:6] '金庸的小说《连城诀》里有一个反派人物' --> ''", + "replace text[20:24] --> decoded_text[7:12] '血刀老祖' --> ''", + "replace text[25:72] --> decoded_text[13:37] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,,'", + "replace text[73:115] --> decoded_text[38:55] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',,'", + "replace text[116:120] --> decoded_text[56:61] '拾金而昧' --> ''", + "replace text[121:123] --> decoded_text[62:68] ',还' --> ','", + "replace text[124:125] --> decoded_text[69:74] '昧' --> ''", + "replace text[126:132] --> decoded_text[75:80] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/gradientai.Llama-3-8B-Instruct-Gradient-1048k @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/hfl.llama-3-chinese-8b @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-chat-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/internlm.internlm-xcomposer-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..2052c272f33e755947e689792b84ec62ed7ccd94 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.en.diff.json @@ -0,0 +1,281 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "diff": [ + "insert text[8:8] --> decoded_text[8:10] '' --> ' '", + "replace text[15:24] --> decoded_text[17:34] 'is on the' --> ' is on the '", + "replace text[32:35] --> decoded_text[42:49] 'for' --> ' for '", + "replace text[40:58] --> decoded_text[54:80] 'million and boasts' --> ' million and boasts '", + "insert text[66:66] --> decoded_text[88:90] '' --> ' '", + "insert text[74:74] --> decoded_text[98:100] '' --> ' '", + "replace text[81:88] --> decoded_text[107:120] 'feet of' --> ' feet of '", + "replace text[99:121] --> decoded_text[131:161] 'finishes and elaborate' --> ' finishes and elaborate '", + "replace text[135:137] --> decoded_text[175:181] 'on' --> ' on '", + "insert text[143:143] --> decoded_text[187:189] '' --> ' '", + "insert text[150:150] --> decoded_text[196:198] '' --> ' '", + "replace text[157:159] --> decoded_text[205:211] 'on' --> ' on '", + "replace text[170:181] --> decoded_text[222:241] 'the home is' --> ' the home is '", + "replace text[188:195] --> decoded_text[248:261] 'sold by' --> ' sold by '", + "replace text[205:221] --> decoded_text[271:295] 'real estate firm' --> ' real estate firm '", + "insert text[232:232] --> decoded_text[306:308] '' --> ' '", + "insert text[246:246] --> decoded_text[322:324] '' --> ' '", + "insert text[253:253] --> decoded_text[331:333] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "diff": [ + "replace text[8:11] --> decoded_text[8:15] 'the' --> ' the '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[23:23] --> decoded_text[29:31] '' --> ' '", + "replace text[27:37] --> decoded_text[35:51] 'homes that' --> ' homes that '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "replace text[48:51] --> decoded_text[64:71] 'for' --> ' for '", + "insert text[56:56] --> decoded_text[76:78] '' --> ' '", + "insert text[64:64] --> decoded_text[86:88] '' --> ' '", + "insert text[69:69] --> decoded_text[93:95] '' --> ' '", + "insert text[77:77] --> decoded_text[103:105] '' --> ' '", + "replace text[82:89] --> decoded_text[110:121] 'million' --> ' million '", + "replace text[94:98] --> decoded_text[126:134] 'this' --> ' this '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[107:110] --> decoded_text[145:152] 'the' --> ' the '", + "replace text[118:124] --> decoded_text[160:172] 'of the' --> ' of the '", + "insert text[133:133] --> decoded_text[181:183] '' --> ' '", + "insert text[142:142] --> decoded_text[192:194] '' --> ' '", + "insert text[150:150] --> decoded_text[202:204] '' --> ' '", + "insert text[156:156] --> decoded_text[210:212] '' --> ' '", + "insert text[164:164] --> decoded_text[220:222] '' --> ' '", + "replace text[171:173] --> decoded_text[229:235] 'of' --> ' of '", + "replace text[184:189] --> decoded_text[246:255] 'tells' --> ' tells '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "replace text[17:25] --> decoded_text[19:33] 'home has' --> ' home has '", + "insert text[31:31] --> decoded_text[39:41] '' --> ' '", + "insert text[41:41] --> decoded_text[51:53] '' --> ' '", + "insert text[48:48] --> decoded_text[60:62] '' --> ' '", + "replace text[58:64] --> decoded_text[72:84] 'and an' --> ' and an '", + "replace text[74:85] --> decoded_text[94:113] 'in the west' --> ' in the west '", + "insert text[92:92] --> decoded_text[120:122] '' --> ' '", + "replace text[98:100] --> decoded_text[128:134] 'to' --> ' to '", + "replace text[112:120] --> decoded_text[146:160] 'two main' --> ' two main '", + "replace text[129:143] --> decoded_text[169:191] 'halls can seat' --> ' halls can seat '", + "replace text[147:149] --> decoded_text[195:201] 'to' --> ' to '", + "insert text[154:154] --> decoded_text[206:208] '' --> ' '", + "insert text[162:162] --> decoded_text[216:218] '' --> ' '", + "insert text[166:166] --> decoded_text[222:224] '' --> ' '", + "insert text[183:183] --> decoded_text[241:243] '' --> ' '", + "replace text[191:201] --> decoded_text[251:267] 'includes a' --> ' includes a '", + "replace text[212:254] --> decoded_text[278:336] 'and walls and ceilings throughout the home' --> ' and walls and ceilings throughout the home '", + "replace text[263:273] --> decoded_text[345:361] 'murals and' --> ' murals and '", + "insert text[283:283] --> decoded_text[371:373] '' --> ' '", + "replace text[290:317] --> decoded_text[380:417] 'amenities include an indoor' --> ' amenities include an indoor '", + "replace text[323:326] --> decoded_text[423:430] 'and' --> ' and '", + "replace text[334:335] --> decoded_text[438:443] 'a' --> ' a '", + "replace text[344:356] --> decoded_text[452:472] 'garage and a' --> ' garage and a '", + "replace text[365:373] --> decoded_text[481:493] 'entrance' --> ' entrance '", + "insert text[383:383] --> decoded_text[503:505] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "diff": [ + "replace text[12:15] --> decoded_text[12:19] 'the' --> ' the '", + "replace text[25:29] --> decoded_text[29:39] 'is a' --> ' is a '", + "replace text[50:56] --> decoded_text[60:70] 'garden' --> ' garden '", + "replace text[62:63] --> decoded_text[76:81] 'a' --> ' a '", + "insert text[72:72] --> decoded_text[90:92] '' --> ' '", + "replace text[75:95] --> decoded_text[95:125] 'trees, plants and an' --> ' trees, plants and an '", + "insert text[105:105] --> decoded_text[135:137] '' --> ' '", + "replace text[108:119] --> decoded_text[140:157] 'the spring,' --> ' the spring, '", + "insert text[124:124] --> decoded_text[162:164] '' --> ' '", + "insert text[132:132] --> decoded_text[172:174] '' --> ' '", + "insert text[140:140] --> decoded_text[182:184] '' --> ' '", + "replace text[146:160] --> decoded_text[190:212] 'in the tiered,' --> ' in the tiered, '", + "insert text[173:173] --> decoded_text[225:227] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "decoded_text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.", + "diff": [ + "insert text[10:10] --> decoded_text[10:12] '' --> ' '", + "insert text[12:12] --> decoded_text[14:16] '' --> ' '", + "insert text[21:21] --> decoded_text[25:27] '' --> ' '", + "insert text[24:24] --> decoded_text[30:32] '' --> ' '", + "insert text[33:33] --> decoded_text[41:43] '' --> ' '", + "insert text[36:36] --> decoded_text[46:48] '' --> ' '", + "insert text[46:46] --> decoded_text[58:60] '' --> ' '", + "insert text[52:52] --> decoded_text[66:68] '' --> ' '", + "insert text[63:63] --> decoded_text[79:81] '' --> ' '", + "insert text[67:67] --> decoded_text[85:87] '' --> ' '", + "insert text[76:76] --> decoded_text[96:98] '' --> ' '", + "insert text[82:82] --> decoded_text[104:106] '' --> ' '", + "insert text[84:84] --> decoded_text[108:110] '' --> ' '", + "insert text[88:88] --> decoded_text[114:116] '' --> ' '", + "insert text[96:96] --> decoded_text[124:126] '' --> ' '", + "insert text[99:99] --> decoded_text[129:131] '' --> ' '", + "insert text[105:105] --> decoded_text[137:139] '' --> ' '", + "insert text[107:107] --> decoded_text[141:143] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '", + "insert text[122:122] --> decoded_text[160:162] '' --> ' '", + "insert text[125:125] --> decoded_text[165:167] '' --> ' '", + "insert text[134:134] --> decoded_text[176:178] '' --> ' '", + "insert text[141:141] --> decoded_text[185:187] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "diff": [ + "insert text[3:3] --> decoded_text[3:5] '' --> ' '", + "insert text[9:9] --> decoded_text[11:13] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[16:16] --> decoded_text[22:24] '' --> ' '", + "insert text[20:20] --> decoded_text[28:30] '' --> ' '", + "insert text[27:27] --> decoded_text[37:39] '' --> ' '", + "insert text[39:39] --> decoded_text[51:53] '' --> ' '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "insert text[52:52] --> decoded_text[68:70] '' --> ' '", + "insert text[59:59] --> decoded_text[77:79] '' --> ' '", + "insert text[70:70] --> decoded_text[90:92] '' --> ' '", + "insert text[73:73] --> decoded_text[95:97] '' --> ' '", + "insert text[79:79] --> decoded_text[103:105] '' --> ' '", + "insert text[88:88] --> decoded_text[114:116] '' --> ' '", + "insert text[96:96] --> decoded_text[124:126] '' --> ' '", + "insert text[98:98] --> decoded_text[128:130] '' --> ' '", + "insert text[102:102] --> decoded_text[134:136] '' --> ' '", + "insert text[111:111] --> decoded_text[145:147] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "insert text[5:5] --> decoded_text[5:7] '' --> ' '", + "insert text[10:10] --> decoded_text[12:14] '' --> ' '", + "insert text[24:24] --> decoded_text[28:30] '' --> ' '", + "replace text[30:48] --> decoded_text[36:62] 'you should include' --> ' you should include '", + "insert text[54:54] --> decoded_text[68:70] '' --> ' '", + "insert text[59:59] --> decoded_text[75:77] '' --> ' '", + "replace text[62:68] --> decoded_text[80:90] 'ounces' --> ' ounces '", + "insert text[72:72] --> decoded_text[94:96] '' --> ' '", + "insert text[79:79] --> decoded_text[103:105] '' --> ' '", + "replace text[93:97] --> decoded_text[119:127] 'each' --> ' each '", + "insert text[103:103] --> decoded_text[133:135] '' --> ' '", + "insert text[107:107] --> decoded_text[139:141] '' --> ' '", + "insert text[112:112] --> decoded_text[146:148] '' --> ' '", + "insert text[115:115] --> decoded_text[151:153] '' --> ' '", + "insert text[124:124] --> decoded_text[162:164] '' --> ' '", + "insert text[130:130] --> decoded_text[170:172] '' --> ' '", + "insert text[137:137] --> decoded_text[179:181] '' --> ' '", + "insert text[147:147] --> decoded_text[191:193] '' --> ' '", + "replace text[153:157] --> decoded_text[199:207] 'hour' --> ' hour '", + "replace text[166:183] --> decoded_text[216:243] 'the day since you' --> ' the day since you '", + "replace text[189:192] --> decoded_text[249:256] 'not' --> ' not '", + "insert text[196:196] --> decoded_text[260:262] '' --> ' '", + "replace text[201:203] --> decoded_text[267:273] 'to' --> ' to '", + "replace text[210:211] --> decoded_text[280:285] 'a' --> ' a '", + "insert text[218:218] --> decoded_text[292:294] '' --> ' '", + "replace text[225:231] --> decoded_text[301:313] 'all at' --> ' all at '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "diff": [ + "insert text[3:3] --> decoded_text[3:5] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "insert text[12:12] --> decoded_text[16:18] '' --> ' '", + "replace text[18:22] --> decoded_text[24:32] 'your' --> ' your '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "replace text[38:44] --> decoded_text[50:60] 'adding' --> ' adding '", + "replace text[52:71] --> decoded_text[68:95] 'protein during this' --> ' protein during this '", + "insert text[77:77] --> decoded_text[101:103] '' --> ' '", + "replace text[82:84] --> decoded_text[108:114] 'to' --> ' to '", + "replace text[88:97] --> decoded_text[118:133] 'grams per' --> ' grams per '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[109:118] --> decoded_text[147:162] 'means you' --> ' means you '", + "insert text[126:126] --> decoded_text[170:172] '' --> ' '", + "replace text[130:139] --> decoded_text[176:191] 'a protein' --> ' a protein '", + "replace text[147:156] --> decoded_text[199:212] 'suggested' --> ' suggested '", + "replace text[160:164] --> decoded_text[216:224] 'your' --> ' your '", + "insert text[176:176] --> decoded_text[236:238] '' --> ' '", + "replace text[183:185] --> decoded_text[245:251] 'or' --> ' or '", + "insert text[193:193] --> decoded_text[259:261] '' --> ' '", + "insert text[196:196] --> decoded_text[264:266] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[16:16] --> decoded_text[18:20] '' --> ' '", + "insert text[18:18] --> decoded_text[22:24] '' --> ' '", + "insert text[23:23] --> decoded_text[29:31] '' --> ' '", + "insert text[32:32] --> decoded_text[40:42] '' --> ' '", + "insert text[40:40] --> decoded_text[50:52] '' --> ' '", + "insert text[43:43] --> decoded_text[55:57] '' --> ' '", + "insert text[52:52] --> decoded_text[66:68] '' --> ' '", + "insert text[57:57] --> decoded_text[73:75] '' --> ' '", + "insert text[58:58] --> decoded_text[76:78] '' --> ' '", + "insert text[62:62] --> decoded_text[82:84] '' --> ' '", + "insert text[74:74] --> decoded_text[96:98] '' --> ' '", + "insert text[76:76] --> decoded_text[100:102] '' --> ' '", + "insert text[80:80] --> decoded_text[106:108] '' --> ' '", + "insert text[88:88] --> decoded_text[116:118] '' --> ' '", + "insert text[90:90] --> decoded_text[120:122] '' --> ' '", + "insert text[106:106] --> decoded_text[138:140] '' --> ' '", + "insert text[108:108] --> decoded_text[142:144] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Watch for signs of dehydration!", + "decoded_text": "Watch for signs of dehydration!", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[9:9] --> decoded_text[11:13] '' --> ' '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..c0cd62949aa7c5cc8f3e3cdd4d25a45faf056d6d --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.es.diff.json @@ -0,0 +1,216 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilcito de drogas.\", explicó Medina.", + "diff": [ + "replace text[4:15] --> decoded_text[4:23] 'trata de un' --> ' trata de un '", + "replace text[24:40] --> decoded_text[32:58] 'de cerca de seis' --> ' de cerca de seis '", + "insert text[48:48] --> decoded_text[66:68] '' --> ' '", + "replace text[58:79] --> decoded_text[78:107] 'articulado, contra la' --> ' articulado, contra la '", + "insert text[93:93] --> decoded_text[121:123] '' --> ' '", + "insert text[102:102] --> decoded_text[132:134] '' --> ' '", + "insert text[107:107] --> decoded_text[139:141] '' --> ' '", + "replace text[120:123] --> decoded_text[154:161] 'del' --> ' del '", + "insert text[129:129] --> decoded_text[167:169] '' --> ' '", + "replace text[137:151] --> decoded_text[177:199] 'dedicados a la' --> ' dedicados a la '", + "insert text[163:163] --> decoded_text[211:213] '' --> ' '", + "replace text[169:179] --> decoded_text[219:233] 'sicariato,' --> ' sicariato, '", + "replace text[188:198] --> decoded_text[242:262] 'ilícito de' --> ' ilcito de '", + "insert text[208:208] --> decoded_text[272:274] '' --> ' '", + "insert text[217:217] --> decoded_text[283:285] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004464285714285714, + "oov_charset": "[\"í\"]" + }, + { + "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "decoded_text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.", + "diff": [ + "insert text[6:6] --> decoded_text[6:8] '' --> ' '", + "insert text[8:8] --> decoded_text[10:12] '' --> ' '", + "insert text[17:17] --> decoded_text[21:23] '' --> ' '", + "insert text[19:19] --> decoded_text[25:27] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "insert text[33:33] --> decoded_text[43:45] '' --> ' '", + "insert text[34:34] --> decoded_text[46:48] '' --> ' '", + "insert text[37:37] --> decoded_text[51:53] '' --> ' '", + "insert text[50:50] --> decoded_text[66:68] '' --> ' '", + "insert text[53:53] --> decoded_text[71:73] '' --> ' '", + "insert text[55:55] --> decoded_text[75:77] '' --> ' '", + "insert text[69:69] --> decoded_text[91:93] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "replace text[20:23] --> decoded_text[24:31] 'del' --> ' del '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "replace text[37:43] --> decoded_text[47:59] 'se les' --> ' se les '", + "replace text[47:59] --> decoded_text[63:81] 'atribuido al' --> ' atribuido al '", + "insert text[65:65] --> decoded_text[87:89] '' --> ' '", + "insert text[69:69] --> decoded_text[93:95] '' --> ' '", + "insert text[80:80] --> decoded_text[106:108] '' --> ' '", + "insert text[90:90] --> decoded_text[118:120] '' --> ' '", + "replace text[94:111] --> decoded_text[124:149] 'sicarios debido a' --> ' sicarios debido a '", + "replace text[120:130] --> decoded_text[158:174] 'de cuentas' --> ' de cuentas '", + "replace text[136:159] --> decoded_text[180:215] 'el control del cobro de' --> ' el control del cobro de '", + "replace text[166:174] --> decoded_text[222:236] 'o contra' --> ' o contra '", + "insert text[185:185] --> decoded_text[247:249] '' --> ' '", + "replace text[189:191] --> decoded_text[253:259] 'se' --> ' se '", + "replace text[200:212] --> decoded_text[268:288] 'a acatar sus' --> ' a acatar sus '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "decoded_text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehculos. Asimismo, e los 47 detenidos, 10 son mujeres.", + "diff": [ + "replace text[3:7] --> decoded_text[3:11] 'este' --> ' este '", + "insert text[22:22] --> decoded_text[26:28] '' --> ' '", + "replace text[26:37] --> decoded_text[32:47] 'participado' --> ' participado '", + "insert text[42:42] --> decoded_text[52:54] '' --> ' '", + "replace text[50:55] --> decoded_text[62:73] 'de la' --> ' de la '", + "insert text[64:64] --> decoded_text[82:84] '' --> ' '", + "replace text[73:76] --> decoded_text[93:100] 'del' --> ' del '", + "insert text[82:82] --> decoded_text[106:108] '' --> ' '", + "insert text[83:83] --> decoded_text[109:111] '' --> ' '", + "insert text[87:87] --> decoded_text[115:117] '' --> ' '", + "insert text[97:97] --> decoded_text[127:129] '' --> ' '", + "replace text[105:107] --> decoded_text[137:143] 'se' --> ' se '", + "insert text[112:112] --> decoded_text[148:150] '' --> ' '", + "replace text[123:125] --> decoded_text[161:167] 'en' --> ' en '", + "insert text[130:130] --> decoded_text[172:174] '' --> ' '", + "replace text[133:134] --> decoded_text[177:182] 'í' --> ''", + "insert text[141:141] --> decoded_text[189:191] '' --> ' '", + "replace text[151:156] --> decoded_text[201:212] 'e los' --> ' e los '", + "insert text[160:160] --> decoded_text[216:218] '' --> ' '", + "insert text[171:171] --> decoded_text[229:231] '' --> ' '", + "replace text[174:177] --> decoded_text[234:241] 'son' --> ' son '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005376344086021506, + "oov_charset": "[\"í\"]" + }, + { + "text": "1. El período de vacaciones anuales retribuidas, no sustituible", + "decoded_text": "1. El perodo de vacaciones anuales retribuidas, no sustituible", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", + "insert text[14:14] --> decoded_text[22:24] '' --> ' '", + "insert text[16:16] --> decoded_text[26:28] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[35:35] --> decoded_text[49:51] '' --> ' '", + "insert text[49:49] --> decoded_text[65:67] '' --> ' '", + "insert text[51:51] --> decoded_text[69:71] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"í\"]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[7:7] --> decoded_text[9:11] '' --> ' '", + "insert text[9:9] --> decoded_text[13:15] '' --> ' '", + "insert text[13:13] --> decoded_text[19:21] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[24:24] --> decoded_text[34:36] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[30:30] --> decoded_text[44:46] '' --> ' '", + "insert text[38:38] --> decoded_text[54:56] '' --> ' '", + "insert text[40:40] --> decoded_text[58:60] '' --> ' '", + "insert text[50:50] --> decoded_text[70:72] '' --> ' '", + "insert text[53:53] --> decoded_text[75:77] '' --> ' '", + "insert text[55:55] --> decoded_text[79:81] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "2. El período o períodos de su disfrute se fijará de común", + "decoded_text": "2. El perodo o perodos de su disfrute se fijará de comn", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "replace text[9:10] --> decoded_text[13:18] 'í' --> ''", + "insert text[14:14] --> decoded_text[22:24] '' --> ' '", + "insert text[15:15] --> decoded_text[25:27] '' --> ' '", + "replace text[19:20] --> decoded_text[31:36] 'í' --> ''", + "insert text[25:25] --> decoded_text[41:43] '' --> ' '", + "insert text[28:28] --> decoded_text[46:48] '' --> ' '", + "insert text[30:30] --> decoded_text[50:52] '' --> ' '", + "insert text[40:40] --> decoded_text[62:64] '' --> ' '", + "insert text[42:42] --> decoded_text[66:68] '' --> ' '", + "insert text[50:50] --> decoded_text[76:78] '' --> ' '", + "insert text[52:52] --> decoded_text[80:82] '' --> ' '", + "replace text[56:57] --> decoded_text[86:88] 'ú' --> ' decoded_text[89:92] '' --> 'k>n'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.05172413793103448, + "oov_charset": "[\"í\", \"ú\"]" + }, + { + "text": "acuerdo entre el empresario y el trabajador, de conformidad", + "decoded_text": "acuerdo entre el empresario y el trabajador, de conformidad", + "diff": [ + "insert text[8:8] --> decoded_text[8:10] '' --> ' '", + "insert text[14:14] --> decoded_text[16:18] '' --> ' '", + "insert text[16:16] --> decoded_text[20:22] '' --> ' '", + "insert text[28:28] --> decoded_text[34:36] '' --> ' '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "insert text[45:45] --> decoded_text[57:59] '' --> ' '", + "insert text[47:47] --> decoded_text[61:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "con lo establecido en su caso en los Convenios Colectivos", + "decoded_text": "con lo establecido en su caso en los Convenios Colectivos", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[6:6] --> decoded_text[8:10] '' --> ' '", + "insert text[19:19] --> decoded_text[23:25] '' --> ' '", + "insert text[22:22] --> decoded_text[28:30] '' --> ' '", + "insert text[24:24] --> decoded_text[32:34] '' --> ' '", + "insert text[30:30] --> decoded_text[40:42] '' --> ' '", + "insert text[32:32] --> decoded_text[44:46] '' --> ' '", + "insert text[36:36] --> decoded_text[50:52] '' --> ' '", + "insert text[47:47] --> decoded_text[63:65] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "sobre planificación anual de las vacaciones.", + "decoded_text": "sobre planificación anual de las vacaciones.", + "diff": [ + "insert text[5:5] --> decoded_text[5:7] '' --> ' '", + "insert text[20:20] --> decoded_text[22:24] '' --> ' '", + "insert text[26:26] --> decoded_text[30:32] '' --> ' '", + "insert text[28:28] --> decoded_text[34:36] '' --> ' '", + "insert text[32:32] --> decoded_text[40:42] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..eb6d266b658ef9dd95fbeb18592f80be1b014f39 --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.fr.diff.json @@ -0,0 +1,261 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[11:11] --> decoded_text[13:15] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[16:16] --> decoded_text[22:24] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[26:26] --> decoded_text[36:38] '' --> ' '", + "insert text[28:28] --> decoded_text[40:42] '' --> ' '", + "insert text[34:34] --> decoded_text[48:50] '' --> ' '", + "insert text[35:35] --> decoded_text[51:53] '' --> ' '", + "insert text[41:41] --> decoded_text[59:61] '' --> ' '", + "insert text[51:51] --> decoded_text[71:73] '' --> ' '", + "insert text[53:53] --> decoded_text[75:77] '' --> ' '", + "insert text[60:60] --> decoded_text[84:86] '' --> ' '", + "insert text[62:62] --> decoded_text[88:90] '' --> ' '", + "insert text[70:70] --> decoded_text[98:100] '' --> ' '", + "insert text[73:73] --> decoded_text[103:105] '' --> ' '", + "insert text[75:75] --> decoded_text[107:109] '' --> ' '", + "insert text[81:81] --> decoded_text[115:117] '' --> ' '", + "insert text[84:84] --> decoded_text[120:122] '' --> ' '", + "insert text[91:91] --> decoded_text[129:131] '' --> ' '", + "insert text[97:97] --> decoded_text[137:139] '' --> ' '", + "insert text[102:102] --> decoded_text[144:146] '' --> ' '", + "insert text[106:106] --> decoded_text[150:152] '' --> ' '", + "insert text[113:113] --> decoded_text[159:161] '' --> ' '", + "insert text[116:116] --> decoded_text[164:166] '' --> ' '", + "insert text[118:118] --> decoded_text[168:170] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "decoded_text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.", + "diff": [ + "insert text[4:4] --> decoded_text[4:6] '' --> ' '", + "insert text[11:11] --> decoded_text[13:15] '' --> ' '", + "insert text[13:13] --> decoded_text[17:19] '' --> ' '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '", + "insert text[22:22] --> decoded_text[30:32] '' --> ' '", + "insert text[31:31] --> decoded_text[41:43] '' --> ' '", + "insert text[35:35] --> decoded_text[47:49] '' --> ' '", + "insert text[43:43] --> decoded_text[57:59] '' --> ' '", + "insert text[46:46] --> decoded_text[62:64] '' --> ' '", + "insert text[53:53] --> decoded_text[71:73] '' --> ' '", + "insert text[59:59] --> decoded_text[79:81] '' --> ' '", + "insert text[71:71] --> decoded_text[93:95] '' --> ' '", + "insert text[73:73] --> decoded_text[97:99] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "decoded_text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement", + "diff": [ + "insert text[7:7] --> decoded_text[7:9] '' --> ' '", + "insert text[10:10] --> decoded_text[12:14] '' --> ' '", + "insert text[17:17] --> decoded_text[21:23] '' --> ' '", + "insert text[21:21] --> decoded_text[27:29] '' --> ' '", + "insert text[29:29] --> decoded_text[37:39] '' --> ' '", + "insert text[32:32] --> decoded_text[42:44] '' --> ' '", + "insert text[40:40] --> decoded_text[52:54] '' --> ' '", + "insert text[42:42] --> decoded_text[56:58] '' --> ' '", + "insert text[47:47] --> decoded_text[63:65] '' --> ' '", + "insert text[56:56] --> decoded_text[74:76] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[10:17] --> decoded_text[14:25] 'retenir' --> ' retenir '", + "insert text[24:24] --> decoded_text[32:34] '' --> ' '", + "replace text[35:38] --> decoded_text[45:52] 'des' --> ' des '", + "replace text[45:64] --> decoded_text[59:88] 'inutiles ou sur des' --> ' inutiles ou sur des '", + "insert text[72:72] --> decoded_text[96:98] '' --> ' '", + "insert text[76:76] --> decoded_text[102:104] '' --> ' '", + "replace text[91:101] --> decoded_text[119:135] 'mais sinon' --> ' mais sinon '", + "insert text[105:105] --> decoded_text[139:141] '' --> ' '", + "replace text[110:116] --> decoded_text[146:158] 'pas de' --> ' pas de '", + "replace text[126:129] --> decoded_text[168:175] 'par' --> ' par '", + "replace text[138:140] --> decoded_text[184:190] 'si' --> ' si '", + "replace text[151:157] --> decoded_text[201:213] 'me dit' --> ' me dit '", + "replace text[162:169] --> decoded_text[218:229] 'pourras' --> ' pourras '", + "insert text[176:176] --> decoded_text[236:238] '' --> ' '", + "replace text[179:186] --> decoded_text[241:254] 'dans la' --> ' dans la '", + "insert text[193:193] --> decoded_text[261:262] '' --> ' '", + "replace text[197:199] --> decoded_text[266:272] 'le' --> ' le '", + "replace text[207:209] --> decoded_text[280:286] 'il' --> ' il '", + "replace text[212:216] --> decoded_text[289:299] 'a de' --> ' a de '", + "insert text[223:223] --> decoded_text[306:308] '' --> ' '", + "insert text[232:232] --> decoded_text[317:319] '' --> ' '", + "insert text[235:235] --> decoded_text[322:324] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[10:20] --> decoded_text[14:30] 'penser une' --> ' penser une '", + "replace text[27:33] --> decoded_text[37:49] 'et son' --> ' et son '", + "insert text[45:45] --> decoded_text[61:63] '' --> ' '", + "insert text[49:49] --> decoded_text[67:69] '' --> ' '", + "insert text[58:58] --> decoded_text[78:80] '' --> ' '", + "replace text[64:66] --> decoded_text[86:92] 'ma' --> ' ma '", + "insert text[72:72] --> decoded_text[98:100] '' --> ' '", + "insert text[76:76] --> decoded_text[104:106] '' --> ' '", + "replace text[80:83] --> decoded_text[110:117] 'les' --> ' les '", + "replace text[96:98] --> decoded_text[130:136] 'ne' --> ' ne '", + "replace text[107:120] --> decoded_text[145:166] 'rien pour les' --> ' rien pour les '", + "insert text[132:132] --> decoded_text[178:180] '' --> ' '", + "replace text[135:137] --> decoded_text[183:189] 'me' --> ' me '", + "insert text[142:142] --> decoded_text[194:196] '' --> ' '", + "insert text[146:146] --> decoded_text[200:202] '' --> ' '", + "replace text[150:162] --> decoded_text[206:224] 'ils essaient' --> ' ils essaient '", + "insert text[167:167] --> decoded_text[229:231] '' --> ' '", + "replace text[174:187] --> decoded_text[238:257] 'mais pourtant' --> ' mais pourtant '", + "replace text[191:202] --> decoded_text[261:278] 'pense aussi' --> ' pense aussi '", + "insert text[210:210] --> decoded_text[286:288] '' --> ' '", + "replace text[215:223] --> decoded_text[293:307] 'ont rien' --> ' ont rien '", + "insert text[226:226] --> decoded_text[310:312] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "insert text[5:5] --> decoded_text[7:9] '' --> ' '", + "replace text[12:14] --> decoded_text[16:22] 'et' --> ' et '", + "replace text[25:42] --> decoded_text[33:60] 'tout seul sur des' --> ' tout seul sur des '", + "insert text[50:50] --> decoded_text[68:70] '' --> ' '", + "replace text[58:62] --> decoded_text[78:86] 'rien' --> ' rien '", + "insert text[65:65] --> decoded_text[89:91] '' --> ' '", + "insert text[70:70] --> decoded_text[96:98] '' --> ' '", + "replace text[75:78] --> decoded_text[103:110] 'une' --> ' une '", + "insert text[89:89] --> decoded_text[121:123] '' --> ' '", + "insert text[99:99] --> decoded_text[133:135] '' --> ' '", + "insert text[104:104] --> decoded_text[140:142] '' --> ' '", + "replace text[115:131] --> decoded_text[153:179] 'mes soeurs et ma' --> ' mes soeurs et ma '", + "insert text[137:137] --> decoded_text[185:187] '' --> ' '", + "replace text[144:146] --> decoded_text[194:200] 'un' --> ' un '", + "insert text[156:156] --> decoded_text[210:212] '' --> ' '", + "insert text[159:159] --> decoded_text[215:217] '' --> ' '", + "insert text[169:169] --> decoded_text[227:229] '' --> ' '", + "replace text[171:185] --> decoded_text[231:253] 'la création du' --> ' la création du '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[2:2] --> decoded_text[2:4] '' --> ' '", + "replace text[5:9] --> decoded_text[7:15] 'suis' --> ' suis '", + "insert text[19:19] --> decoded_text[25:27] '' --> ' '", + "replace text[24:26] --> decoded_text[32:38] 'ma' --> ' ma '", + "replace text[36:40] --> decoded_text[48:56] 'mais' --> ' mais '", + "insert text[48:48] --> decoded_text[64:66] '' --> ' '", + "replace text[53:56] --> decoded_text[71:78] 'mes' --> ' mes '", + "insert text[64:64] --> decoded_text[86:88] '' --> ' '", + "insert text[67:67] --> decoded_text[91:93] '' --> ' '", + "replace text[74:80] --> decoded_text[100:112] 'et ait' --> ' et ait '", + "insert text[90:90] --> decoded_text[122:124] '' --> ' '", + "insert text[91:91] --> decoded_text[125:127] '' --> ' '", + "insert text[101:101] --> decoded_text[137:139] '' --> ' '", + "insert text[106:106] --> decoded_text[144:146] '' --> ' '", + "insert text[110:110] --> decoded_text[150:152] '' --> ' '", + "insert text[113:113] --> decoded_text[155:157] '' --> ' '", + "insert text[121:121] --> decoded_text[165:167] '' --> ' '", + "insert text[125:125] --> decoded_text[171:173] '' --> ' '", + "insert text[134:134] --> decoded_text[182:184] '' --> ' '", + "replace text[137:145] --> decoded_text[187:199] 'ailleurs' --> ' ailleurs '", + "insert text[152:152] --> decoded_text[206:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois être mentalement instable, par moments", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[4:4] --> decoded_text[6:8] '' --> ' '", + "insert text[10:10] --> decoded_text[14:16] '' --> ' '", + "insert text[14:14] --> decoded_text[20:22] '' --> ' '", + "insert text[27:27] --> decoded_text[35:37] '' --> ' '", + "insert text[37:37] --> decoded_text[47:49] '' --> ' '", + "insert text[40:40] --> decoded_text[52:54] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Je n'envoie que très peu de sms et n'appelle personne", + "decoded_text": "- Je n'envoie que très peu de sms et n'appelle personne", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "insert text[4:4] --> decoded_text[6:8] '' --> ' '", + "insert text[14:14] --> decoded_text[18:20] '' --> ' '", + "insert text[17:17] --> decoded_text[23:25] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "insert text[27:27] --> decoded_text[37:39] '' --> ' '", + "insert text[29:29] --> decoded_text[41:43] '' --> ' '", + "insert text[34:34] --> decoded_text[48:50] '' --> ' '", + "insert text[36:36] --> decoded_text[52:54] '' --> ' '", + "insert text[47:47] --> decoded_text[65:67] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "insert text[1:1] --> decoded_text[1:3] '' --> ' '", + "replace text[7:15] --> decoded_text[9:21] 'tendance' --> ' tendance '", + "insert text[18:18] --> decoded_text[24:26] '' --> ' '", + "insert text[23:23] --> decoded_text[31:33] '' --> ' '", + "replace text[27:33] --> decoded_text[37:47] 'autres' --> ' autres '", + "insert text[41:41] --> decoded_text[55:57] '' --> ' '", + "replace text[52:61] --> decoded_text[68:83] 'comme des' --> ' comme des '", + "insert text[70:70] --> decoded_text[92:94] '' --> ' '", + "replace text[78:87] --> decoded_text[102:117] 'aucune ou' --> ' aucune ou '", + "replace text[92:94] --> decoded_text[122:128] 'de' --> ' de '", + "replace text[105:107] --> decoded_text[139:145] 'de' --> ' de '", + "replace text[120:122] --> decoded_text[158:164] 'et' --> ' et '", + "replace text[126:130] --> decoded_text[168:176] 'sais' --> ' sais '", + "insert text[135:135] --> decoded_text[181:183] '' --> ' '", + "replace text[138:145] --> decoded_text[186:199] 'ne dois' --> ' ne dois '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6ab0989b5c6cee40aba47da9a8be2d3d5b9957fa --- /dev/null +++ b/stats/compression_rate/lmsys.fastchat-t5-3b-v1.0 @ cc100.zh-Hans.diff.json @@ -0,0 +1,138 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": " (www.suzastampin.com) 2012,,, 4S,, 6000,, 4008112233 3456:", + "diff": [ + "replace text[0:9] --> decoded_text[0:6] '卍招财带什么佛牌卍' --> ' '", + "replace text[30:37] --> decoded_text[27:33] '卡尔・斯利姆于' --> ' '", + "replace text[41:131] --> decoded_text[37:61] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车' --> ',,, '", + "replace text[133:159] --> decoded_text[63:81] '店得知,店内朗动车型有现车供应,现阶段购车可享受最高' --> ',, '", + "replace text[163:196] --> decoded_text[85:103] '元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电' --> ',, '", + "replace text[206:207] --> decoded_text[113:119] '转' --> ' '", + "replace text[211:214] --> decoded_text[123:129] '详询:' --> ':'" + ], + "n_oov_chars": 169, + "oov_ratio": 0.7897196261682243, + "oov_charset": "[\"卍\", \"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"近\", \"日\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"系\", \"到\", \"山\", \"西\", \"传\", \"奇\", \"北\", \"京\", \"现\", \"代\", \"店\", \"得\", \"知\", \"内\", \"朗\", \"动\", \"型\", \"有\", \"供\", \"应\", \"阶\", \"段\", \"购\", \"可\", \"享\", \"受\", \"最\", \"高\", \"元\", \"优\", \"惠\", \"幅\", \"具\", \"体\", \"价\", \"格\", \"情\", \"况\", \"请\", \"见\", \"下\", \"表\", \"同\", \"时\", \"感\", \"兴\", \"趣\", \"朋\", \"友\", \"还\", \"致\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": ",, 3, 5,", + "diff": [ + "replace text[0:124] --> decoded_text[0:43] '一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。' --> ',, 3, 5,'" + ], + "n_oov_chars": 124, + "oov_ratio": 1.0, + "oov_charset": "[\"一\", \"个\", \"类\", \"似\", \"美\", \"国\", \"大\", \"片\", \"《\", \"幸\", \"福\", \"终\", \"点\", \"站\", \"》\", \"的\", \"案\", \"例\", \"令\", \"中\", \"驻\", \"圣\", \"彼\", \"得\", \"堡\", \"领\", \"事\", \"官\", \"胡\", \"滨\", \"印\", \"象\", \"深\", \"刻\", \"。\", \"由\", \"于\", \"行\", \"前\", \"未\", \"能\", \"仔\", \"细\", \"核\", \"对\", \"签\", \"证\", \"有\", \"效\", \"期\", \",\", \"赴\", \"俄\", \"罗\", \"斯\", \"旅\", \"游\", \"夫\", \"妇\", \"因\", \"为\", \"过\", \"差\", \"被\", \"困\", \"在\", \"协\", \"助\", \"下\", \"这\", \"经\", \"历\", \"了\", \"惊\", \"心\", \"动\", \"魄\", \"3\", \"小\", \"时\", \"飞\", \"机\", \"起\", \"5\", \"分\", \"钟\", \"登\", \"上\", \"返\", \"程\", \"航\", \"班\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": ",,,", + "diff": [ + "replace text[0:80] --> decoded_text[0:23] '招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。' --> ',,,'" + ], + "n_oov_chars": 80, + "oov_ratio": 1.0, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"张\", \"德\", \"江\", \"在\", \"致\", \"辞\", \"中\", \"表\", \"示\", \",\", \"法\", \"建\", \"交\", \"开\", \"启\", \"了\", \"两\", \"个\", \"伟\", \"大\", \"国\", \"家\", \"友\", \"好\", \"关\", \"系\", \"的\", \"新\", \"纪\", \"元\", \"树\", \"立\", \"不\", \"同\", \"社\", \"会\", \"制\", \"度\", \"和\", \"平\", \"共\", \"处\", \"典\", \"范\", \"对\", \"际\", \"战\", \"略\", \"格\", \"局\", \"产\", \"生\", \"重\", \"而\", \"深\", \"远\", \"影\", \"响\", \"。\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": ", 1999,,", + "diff": [ + "replace text[0:43] --> decoded_text[0:12] '招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。' --> ', '", + "replace text[47:78] --> decoded_text[16:33] '年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。' --> ',,'" + ], + "n_oov_chars": 74, + "oov_ratio": 0.9487179487179487, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"科\", \"斯\", \"格\", \"罗\", \"夫\", \"一\", \"直\", \"供\", \"职\", \"于\", \"军\", \"队\", \",\", \"曾\", \"被\", \"派\", \"往\", \"马\", \"来\", \"西\", \"亚\", \"、\", \"越\", \"南\", \"英\", \"国\", \"印\", \"度\", \"美\", \"工\", \"作\", \"。\", \"年\", \"他\", \"成\", \"为\", \"联\", \"合\", \"驻\", \"东\", \"帝\", \"汶\", \"部\", \"司\", \"令\", \"监\", \"督\", \"向\", \"独\", \"立\", \"家\", \"的\", \"过\", \"渡\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 28, 50, : (RingoStarr),, •• (JuliaRoberts),, QueenieEye, Photograph,", + "diff": [ + "replace text[1:2] --> decoded_text[1:7] '月' --> ' '", + "replace text[4:30] --> decoded_text[9:21] '日电据香港《明报》消息,在庆祝披头士进军美国音乐市场' --> ', '", + "replace text[32:61] --> decoded_text[23:42] '周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达' --> ', : '", + "replace text[73:106] --> decoded_text[54:72] '颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚' --> ',, '", + "replace text[108:111] --> decoded_text[74:80] '罗伯茨' --> ' '", + "replace text[125:152] --> decoded_text[94:112] '负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《' --> ',, '", + "replace text[162:175] --> decoded_text[122:134] '》,然后轮到后者演绎旧作《' --> ', '", + "replace text[185:201] --> decoded_text[144:155] '》,带领歌迷重温昔日的美好情怀。' --> ','" + ], + "n_oov_chars": 148, + "oov_ratio": 0.736318407960199, + "oov_charset": "[\"月\", \"日\", \"电\", \"据\", \"香\", \"港\", \"《\", \"明\", \"报\", \"》\", \"消\", \"息\", \",\", \"在\", \"庆\", \"祝\", \"披\", \"头\", \"士\", \"进\", \"军\", \"美\", \"国\", \"音\", \"乐\", \"市\", \"场\", \"周\", \"年\", \"的\", \"纪\", \"念\", \"子\", \"格\", \"莱\", \"向\", \"两\", \"名\", \"仅\", \"存\", \"成\", \"员\", \":\", \"保\", \"罗\", \"麦\", \"卡\", \"尼\", \"及\", \"灵\", \"高\", \"史\", \"达\", \"颁\", \"发\", \"终\", \"身\", \"就\", \"奖\", \"显\", \"得\", \"别\", \"具\", \"意\", \"义\", \"。\", \"为\", \"了\", \"隆\", \"重\", \"其\", \"事\", \"大\", \"会\", \"请\", \"来\", \"金\", \"像\", \"影\", \"后\", \"茱\", \"莉\", \"亚\", \"伯\", \"茨\", \"负\", \"责\", \"介\", \"绍\", \"二\", \"人\", \"出\", \"拍\", \"档\", \"鼓\", \"声\", \"和\", \"应\", \"下\", \"先\", \"献\", \"唱\", \"新\", \"歌\", \"然\", \"轮\", \"到\", \"者\", \"演\", \"绎\", \"旧\", \"作\", \"带\", \"领\", \"迷\", \"温\", \"昔\", \"好\", \"情\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": ", 14, 21,, 7, 1, 6, 14", + "diff": [ + "replace text[0:23] --> decoded_text[0:12] '佛牌绳哪里有卖到达目的地后,记者全程的总车费是' --> ', '", + "replace text[25:32] --> decoded_text[14:26] '元,但司机到账' --> ', '", + "replace text[34:44] --> decoded_text[28:46] '元,因此,司机给记者' --> ',, '", + "replace text[45:54] --> decoded_text[47:59] '元,除去之前支付的' --> ', '", + "replace text[55:61] --> decoded_text[60:72] '元,记者净赚' --> ', '", + "replace text[62:73] --> decoded_text[73:85] '元,还免费乘了本应支付' --> ', '", + "replace text[75:79] --> decoded_text[87:92] '元的车。' --> ''" + ], + "n_oov_chars": 70, + "oov_ratio": 0.8860759493670886, + "oov_charset": "[\"佛\", \"牌\", \"绳\", \"哪\", \"里\", \"有\", \"卖\", \"到\", \"达\", \"目\", \"的\", \"地\", \"后\", \",\", \"记\", \"者\", \"全\", \"程\", \"总\", \"车\", \"费\", \"是\", \"元\", \"但\", \"司\", \"机\", \"账\", \"因\", \"此\", \"给\", \"除\", \"去\", \"之\", \"前\", \"支\", \"付\", \"净\", \"赚\", \"还\", \"免\", \"乘\", \"了\", \"本\", \"应\", \"。\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": " 2012,,, ()", + "diff": [ + "replace text[0:7] --> decoded_text[0:6] '卡尔・斯利姆于' --> ' '", + "replace text[11:110] --> decoded_text[10:34] '年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。' --> ',,, '", + "replace text[111:114] --> decoded_text[35:40] '方赵春' --> ''" + ], + "n_oov_chars": 109, + "oov_ratio": 0.9478260869565217, + "oov_charset": "[\"卡\", \"尔\", \"・\", \"斯\", \"利\", \"姆\", \"于\", \"年\", \"加\", \"入\", \"塔\", \"汽\", \"车\", \"公\", \"司\", \"担\", \"任\", \"总\", \"经\", \"理\", \"一\", \"职\", \",\", \"并\", \"负\", \"责\", \"在\", \"印\", \"度\", \"及\", \"国\", \"际\", \"市\", \"场\", \"上\", \"除\", \"捷\", \"豹\", \"和\", \"路\", \"虎\", \"以\", \"外\", \"的\", \"业\", \"务\", \"。\", \"这\", \"位\", \"坦\", \"福\", \"大\", \"学\", \"毕\", \"生\", \"曾\", \"通\", \"用\", \"中\", \"合\", \"资\", \"副\", \"裁\", \"五\", \"菱\", \"方\", \"赵\", \"春\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": ",,,,, :“,, 2, 1,?”,", + "diff": [ + "replace text[0:70] --> decoded_text[0:37] '大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:' --> ',,,,, :'", + "replace text[71:88] --> decoded_text[38:56] '老毕,我跟你说了这么长时间,让你走' --> ',, '", + "replace text[89:96] --> decoded_text[57:69] '号位,你非要走' --> ', '", + "replace text[97:111] --> decoded_text[70:82] '号位,你想跟我较死劲是不是?' --> ',?'", + "replace text[112:137] --> decoded_text[83:94] '这也是骂人。但因为你非常了解他,他也不一定有恶意。' --> ','" + ], + "n_oov_chars": 133, + "oov_ratio": 0.9708029197080292, + "oov_charset": "[\"大\", \"腕\", \"导\", \"演\", \"不\", \"可\", \"能\", \"每\", \"部\", \"作\", \"品\", \"都\", \"是\", \"你\", \"喜\", \"欢\", \"的\", \"东\", \"西\", \",\", \"如\", \"果\", \"他\", \"一\", \"时\", \"控\", \"制\", \"住\", \"情\", \"绪\", \"就\", \"让\", \"骂\", \"吧\", \"。\", \"也\", \"人\", \"神\", \"有\", \"自\", \"己\", \"脾\", \"气\", \"这\", \"次\", \"执\", \"春\", \"晚\", \"对\", \"我\", \"开\", \":\", \"老\", \"毕\", \"跟\", \"说\", \"了\", \"么\", \"长\", \"间\", \"走\", \"号\", \"位\", \"非\", \"要\", \"想\", \"较\", \"死\", \"劲\", \"?\", \"但\", \"因\", \"为\", \"常\", \"解\", \"定\", \"恶\", \"意\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": ",, 360, 600,, 2", + "diff": [ + "replace text[0:36] --> decoded_text[0:18] '招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达' --> ',, '", + "replace text[39:53] --> decoded_text[21:33] '万元人民币,李娜每年的花费是' --> ', '", + "replace text[56:79] --> decoded_text[36:54] '多万元。用一个形象的比喻,娜姐每天一睁眼,将近' --> ',, '", + "replace text[80:87] --> decoded_text[55:60] '万元就出去了。' --> ''" + ], + "n_oov_chars": 80, + "oov_ratio": 0.9195402298850575, + "oov_charset": "[\"招\", \"财\", \"带\", \"什\", \"么\", \"佛\", \"牌\", \"不\", \"过\", \"挣\", \"得\", \"多\", \",\", \"娜\", \"姐\", \"也\", \"花\", \"。\", \"有\", \"媒\", \"体\", \"报\", \"道\", \"教\", \"练\", \"卡\", \"洛\", \"斯\", \"的\", \"年\", \"薪\", \"高\", \"达\", \"万\", \"元\", \"人\", \"民\", \"币\", \"李\", \"每\", \"费\", \"是\", \"用\", \"一\", \"个\", \"形\", \"象\", \"比\", \"喻\", \"天\", \"睁\", \"眼\", \"将\", \"近\", \"就\", \"出\", \"去\", \"了\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ ’,,,,,, ”,", + "diff": [ + "replace text[1:19] --> decoded_text[1:7] '金庸的小说《连城诀》里有一个反派人物' --> ' '", + "replace text[20:24] --> decoded_text[8:14] '血刀老祖' --> ' '", + "replace text[25:72] --> decoded_text[15:40] ',一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。' --> ',,,, '", + "replace text[73:115] --> decoded_text[41:59] '王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅' --> ',, '", + "replace text[116:120] --> decoded_text[60:66] '拾金而昧' --> ' '", + "replace text[121:123] --> decoded_text[67:74] ',还' --> ', '", + "replace text[124:125] --> decoded_text[75:81] '昧' --> ' '", + "replace text[126:132] --> decoded_text[82:87] '得理直气壮。' --> ''" + ], + "n_oov_chars": 124, + "oov_ratio": 0.9393939393939394, + "oov_charset": "[\"金\", \"庸\", \"的\", \"小\", \"说\", \"《\", \"连\", \"城\", \"诀\", \"》\", \"里\", \"有\", \"一\", \"个\", \"反\", \"派\", \"人\", \"物\", \"血\", \"刀\", \"老\", \"祖\", \",\", \"般\", \"坏\", \"做\", \"事\", \"都\", \"是\", \"心\", \"虚\", \"但\", \"这\", \"却\", \"得\", \"安\", \"理\", \"直\", \"气\", \"壮\", \"我\", \"遇\", \"到\", \"哥\", \"就\", \"样\", \"。\", \"王\", \"先\", \"生\", \"向\", \"记\", \"者\", \"描\", \"述\", \"经\", \"过\", \"时\", \"第\", \"句\", \"话\", \"便\", \"原\", \"来\", \"昨\", \"日\", \"在\", \"搭\", \"出\", \"租\", \"车\", \"不\", \"仅\", \"拾\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-1 @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/microsoft.phi-2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/openai-community.gpt2 @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..ea704b00b050672bf084a1d2fa27862b13ea7605 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS…", + "decoded_text": "HERE IS A SELECTION OF OUR RECENT PRESS CUTTINGS...", + "diff": [ + "replace text[48:49] --> decoded_text[48:51] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.02040816326530612, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..6755d9364dbcd5976c6bf0e7b19fdafa0e303465 --- /dev/null +++ b/stats/compression_rate/paust.pko-t5-large @ cc100.zh-Hans.diff.json @@ -0,0 +1,155 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[113:114] --> decoded_text[113:114] ',' --> ','", + "replace text[136:137] --> decoded_text[136:137] ',' --> ','", + "replace text[148:149] --> decoded_text[148:149] ',' --> ','", + "replace text[168:169] --> decoded_text[168:169] ',' --> ','", + "replace text[183:184] --> decoded_text[183:184] ',' --> ','", + "replace text[213:214] --> decoded_text[213:214] ':' --> ':'" + ], + "n_oov_chars": 8, + "oov_ratio": 0.037383177570093455, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[51:52] --> decoded_text[51:52] ',' --> ','", + "replace text[87:88] --> decoded_text[87:88] ',' --> ','", + "replace text[100:101] --> decoded_text[100:101] '3' --> '3'", + "replace text[103:104] --> decoded_text[103:104] ',' --> ','", + "replace text[112:113] --> decoded_text[112:113] '5' --> '5'", + "replace text[115:116] --> decoded_text[115:116] ',' --> ','" + ], + "n_oov_chars": 6, + "oov_ratio": 0.04838709677419355, + "oov_charset": "[\",\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.038461538461538464, + "oov_charset": "[\",\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[50:51] --> decoded_text[50:51] ':' --> ':'", + "replace text[80:81] --> decoded_text[80:81] ',' --> ','", + "replace text[94:95] --> decoded_text[94:95] ',' --> ','", + "replace text[133:134] --> decoded_text[133:134] ',' --> ','", + "replace text[145:146] --> decoded_text[145:146] ',' --> ','", + "replace text[163:164] --> decoded_text[163:164] ',' --> ','", + "replace text[186:187] --> decoded_text[186:187] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.04477611940298507, + "oov_charset": "[\",\", \":\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[13:14] --> decoded_text[13:14] ',' --> ','", + "replace text[26:27] --> decoded_text[26:27] ',' --> ','", + "replace text[35:36] --> decoded_text[35:36] ',' --> ','", + "replace text[38:39] --> decoded_text[38:39] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[56:57] --> decoded_text[56:57] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.08860759493670886, + "oov_charset": "[\",\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[65:66] --> decoded_text[65:66] ',' --> ','", + "replace text[83:84] --> decoded_text[83:84] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.02608695652173913, + "oov_charset": "[\",\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[31:32] --> decoded_text[31:32] ',' --> ','", + "replace text[42:43] --> decoded_text[42:43] ',' --> ','", + "replace text[46:47] --> decoded_text[46:47] ',' --> ','", + "replace text[63:64] --> decoded_text[63:64] ',' --> ','", + "replace text[69:70] --> decoded_text[69:70] ':' --> ':'", + "replace text[73:74] --> decoded_text[73:74] ',' --> ','", + "replace text[84:85] --> decoded_text[84:85] ',' --> ','", + "replace text[91:92] --> decoded_text[91:92] ',' --> ','", + "replace text[99:100] --> decoded_text[99:100] ',' --> ','", + "replace text[110:111] --> decoded_text[110:111] '?' --> '?'", + "replace text[127:128] --> decoded_text[127:128] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.08759124087591241, + "oov_charset": "[\",\", \":\", \"?\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "diff": [ + "replace text[12:13] --> decoded_text[12:13] ',' --> ','", + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[44:45] --> decoded_text[44:45] ',' --> ','", + "replace text[68:69] --> decoded_text[68:69] ',' --> ','", + "replace text[76:77] --> decoded_text[76:77] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.05747126436781609, + "oov_charset": "[\",\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[25:26] --> decoded_text[25:26] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[53:54] --> decoded_text[53:54] ',' --> ','", + "replace text[58:59] --> decoded_text[58:59] ',' --> ','", + "replace text[95:96] --> decoded_text[95:96] ',' --> ','", + "replace text[107:108] --> decoded_text[107:108] ',' --> ','", + "replace text[121:122] --> decoded_text[121:122] ',' --> ','" + ], + "n_oov_chars": 7, + "oov_ratio": 0.05303030303030303, + "oov_charset": "[\",\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8b5e785d18e55696bbd13ba03bad7e4f21020980 --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.en.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "decoded_text": "[UNK]EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005813953488372093, + "oov_charset": "[\"​\"]" + }, + { + "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "decoded_text": "[UNK]Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.", + "diff": [ + "replace text[0:1] --> decoded_text[0:5] '\\u200b' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.005405405405405406, + "oov_charset": "[\"​\"]" + }, + { + "text": "Would love some tatts, but too much of a wimp to get them! 😥", + "decoded_text": "Would love some tatts, but too much of a wimp to get them! [UNK]", + "diff": [ + "replace text[59:60] --> decoded_text[59:64] '😥' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016666666666666666, + "oov_charset": "[\"😥\"]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..535c72e89317c26e14dfe81e03304bfcd85239ec --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.es.diff.json @@ -0,0 +1,106 @@ +[ + { + "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.", + "diff": [ + "replace text[77:78] --> decoded_text[77:80] '…' --> '...'", + "replace text[91:92] --> decoded_text[93:96] '…' --> '...'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.01098901098901099, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.", + "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.", + "diff": [ + "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0033444816053511705, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.", + "diff": [ + "replace text[206:207] --> decoded_text[206:209] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0014492753623188406, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[80:81] --> decoded_text[80:83] '…' --> '...'", + "replace text[233:235] --> decoded_text[235:241] '……' --> '......'" + ], + "n_oov_chars": 3, + "oov_ratio": 0.010526315789473684, + "oov_charset": "[\"…\"]" + }, + { + "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.", + "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.", + "diff": [ + "replace text[167:168] --> decoded_text[167:170] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.0049261083743842365, + "oov_charset": "[\"…\"]" + }, + { + "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.", + "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.", + "diff": [ + "replace text[66:67] --> decoded_text[66:69] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"…\"]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..70c1c0795c35a30bf3faa61e7f45b03db2b05262 --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[36:37] --> decoded_text[36:39] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.015873015873015872, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + }, + { + "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici", + "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici", + "diff": [ + "replace text[35:36] --> decoded_text[35:38] '…' --> '...'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.016129032258064516, + "oov_charset": "[\"…\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..35767ffe421caf150842be47401da511eed79f6d --- /dev/null +++ b/stats/compression_rate/rinna.bilingual-gpt-neox-4b @ cc100.zh-Hans.diff.json @@ -0,0 +1,184 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现[UNK]段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "diff": [ + "replace text[57:58] --> decoded_text[57:58] ',' --> ','", + "replace text[59:60] --> decoded_text[59:64] '负' --> '[UNK]'", + "replace text[92:93] --> decoded_text[96:101] '毕' --> '[UNK]'", + "replace text[95:96] --> decoded_text[103:104] ',' --> ','", + "replace text[113:114] --> decoded_text[121:122] ',' --> ','", + "replace text[136:137] --> decoded_text[144:145] ',' --> ','", + "replace text[148:149] --> decoded_text[156:157] ',' --> ','", + "replace text[150:151] --> decoded_text[158:163] '阶' --> '[UNK]'", + "replace text[168:169] --> decoded_text[180:181] ',' --> ','", + "replace text[183:184] --> decoded_text[195:196] ',' --> ','", + "replace text[213:214] --> decoded_text[225:226] ':' --> ':'" + ], + "n_oov_chars": 11, + "oov_ratio": 0.0514018691588785, + "oov_charset": "[\",\", \"负\", \"毕\", \"阶\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国[UNK]圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫[UNK]因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫[UNK]经历了[UNK]心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "diff": [ + "replace text[21:22] --> decoded_text[21:26] '驻' --> '[UNK]'", + "replace text[51:52] --> decoded_text[55:56] ',' --> ','", + "replace text[64:65] --> decoded_text[68:73] '妇' --> '[UNK]'", + "replace text[87:88] --> decoded_text[95:96] ',' --> ','", + "replace text[91:92] --> decoded_text[99:104] '妇' --> '[UNK]'", + "replace text[95:96] --> decoded_text[107:112] '惊' --> '[UNK]'", + "replace text[100:101] --> decoded_text[116:117] '3' --> '3'", + "replace text[103:104] --> decoded_text[119:120] ',' --> ','", + "replace text[112:113] --> decoded_text[128:129] '5' --> '5'", + "replace text[115:116] --> decoded_text[131:132] ',' --> ','" + ], + "n_oov_chars": 10, + "oov_ratio": 0.08064516129032258, + "oov_charset": "[\"驻\", \",\", \"妇\", \"惊\", \"3\", \"5\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "diff": [ + "replace text[16:17] --> decoded_text[16:17] ',' --> ','", + "replace text[40:41] --> decoded_text[40:41] ',' --> ','", + "replace text[60:61] --> decoded_text[60:61] ',' --> ','" + ], + "n_oov_chars": 3, + "oov_ratio": 0.0375, + "oov_charset": "[\",\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国[UNK]东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[48:49] --> decoded_text[48:49] ',' --> ','", + "replace text[55:56] --> decoded_text[55:60] '驻' --> '[UNK]'", + "replace text[63:64] --> decoded_text[67:68] ',' --> ','" + ], + "n_oov_chars": 4, + "oov_ratio": 0.05128205128205128, + "oov_charset": "[\",\", \"驻\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名[UNK]存成员:保罗麦卡尼及灵高史达(RingoStarr)[UNK]发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)[UNK]责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演[UNK]旧作《Photograph》,带领歌迷重温昔日的美好情[UNK]。", + "diff": [ + "replace text[15:16] --> decoded_text[15:16] ',' --> ','", + "replace text[39:40] --> decoded_text[39:40] ',' --> ','", + "replace text[46:47] --> decoded_text[46:51] '仅' --> '[UNK]'", + "replace text[50:51] --> decoded_text[54:55] ':' --> ':'", + "replace text[73:74] --> decoded_text[77:82] '颁' --> '[UNK]'", + "replace text[80:81] --> decoded_text[88:89] ',' --> ','", + "replace text[94:95] --> decoded_text[102:103] ',' --> ','", + "replace text[125:126] --> decoded_text[133:138] '负' --> '[UNK]'", + "replace text[133:134] --> decoded_text[145:146] ',' --> ','", + "replace text[145:146] --> decoded_text[157:158] ',' --> ','", + "replace text[163:164] --> decoded_text[175:176] ',' --> ','", + "replace text[171:172] --> decoded_text[183:188] '绎' --> '[UNK]'", + "replace text[186:187] --> decoded_text[202:203] ',' --> ','", + "replace text[199:200] --> decoded_text[215:220] '怀' --> '[UNK]'" + ], + "n_oov_chars": 14, + "oov_ratio": 0.06965174129353234, + "oov_charset": "[\",\", \"仅\", \":\", \"颁\", \"负\", \"绎\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛牌[UNK]哪里有[UNK]到达目的地后,记者全程的总车费是14元,但司机到[UNK]21元,因此,司机给记者7元,除去之前支付的1元,记者[UNK]6元,还免费乘了本应支付14元的车。", + "diff": [ + "replace text[2:3] --> decoded_text[2:7] '绳' --> '[UNK]'", + "replace text[6:7] --> decoded_text[10:15] '卖' --> '[UNK]'", + "replace text[13:14] --> decoded_text[21:22] ',' --> ','", + "replace text[26:27] --> decoded_text[34:35] ',' --> ','", + "replace text[31:32] --> decoded_text[39:44] '账' --> '[UNK]'", + "replace text[35:36] --> decoded_text[47:48] ',' --> ','", + "replace text[38:39] --> decoded_text[50:51] ',' --> ','", + "replace text[46:47] --> decoded_text[58:59] ',' --> ','", + "replace text[56:57] --> decoded_text[68:69] ',' --> ','", + "replace text[59:61] --> decoded_text[71:76] '净赚' --> '[UNK]'", + "replace text[63:64] --> decoded_text[78:79] ',' --> ','" + ], + "n_oov_chars": 12, + "oov_ratio": 0.1518987341772152, + "oov_charset": "[\"绳\", \"卖\", \",\", \"账\", \"净\", \"赚\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并[UNK]责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的[UNK]业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "diff": [ + "replace text[27:28] --> decoded_text[27:28] ',' --> ','", + "replace text[29:30] --> decoded_text[29:34] '负' --> '[UNK]'", + "replace text[62:63] --> decoded_text[66:71] '毕' --> '[UNK]'", + "replace text[65:66] --> decoded_text[73:74] ',' --> ','", + "replace text[83:84] --> decoded_text[91:92] ',' --> ','" + ], + "n_oov_chars": 5, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\",\", \"负\", \"毕\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情[UNK],就让他[UNK]吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开[UNK]:“老[UNK],我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我[UNK]死[UNK]是不是?”这也是[UNK]人。但因为你非常了解他,他也不一定有[UNK]意。", + "diff": [ + "replace text[19:20] --> decoded_text[19:20] ',' --> ','", + "replace text[30:32] --> decoded_text[30:36] '绪,' --> '[UNK],'", + "replace text[35:36] --> decoded_text[39:44] '骂' --> '[UNK]'", + "replace text[42:43] --> decoded_text[50:51] ',' --> ','", + "replace text[46:47] --> decoded_text[54:55] ',' --> ','", + "replace text[63:64] --> decoded_text[71:72] ',' --> ','", + "replace text[68:70] --> decoded_text[76:82] '骂:' --> '[UNK]:'", + "replace text[72:74] --> decoded_text[84:90] '毕,' --> '[UNK],'", + "replace text[84:85] --> decoded_text[100:101] ',' --> ','", + "replace text[91:92] --> decoded_text[107:108] ',' --> ','", + "replace text[99:100] --> decoded_text[115:116] ',' --> ','", + "replace text[104:105] --> decoded_text[120:125] '较' --> '[UNK]'", + "replace text[106:107] --> decoded_text[126:131] '劲' --> '[UNK]'", + "replace text[110:111] --> decoded_text[134:135] '?' --> '?'", + "replace text[115:116] --> decoded_text[139:144] '骂' --> '[UNK]'", + "replace text[127:128] --> decoded_text[155:156] ',' --> ','", + "replace text[134:135] --> decoded_text[162:167] '恶' --> '[UNK]'" + ], + "n_oov_chars": 20, + "oov_ratio": 0.145985401459854, + "oov_charset": "[\",\", \"绪\", \"骂\", \":\", \"毕\", \"较\", \"劲\", \"?\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "招财带什么佛牌不过[UNK]得多,娜姐也花得多。有媒体报道,教[UNK]卡洛斯的年薪高达360万元人民[UNK],李娜每年的花费是600多万元。用一个形象的比[UNK],娜姐每天一[UNK]眼,将近2万元就出去了。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '挣' --> '[UNK]'", + "replace text[12:13] --> decoded_text[16:17] ',' --> ','", + "replace text[25:26] --> decoded_text[29:30] ',' --> ','", + "replace text[27:28] --> decoded_text[31:36] '练' --> '[UNK]'", + "replace text[43:45] --> decoded_text[51:57] '币,' --> '[UNK],'", + "replace text[67:69] --> decoded_text[79:85] '喻,' --> '[UNK],'", + "replace text[74:75] --> decoded_text[90:95] '睁' --> '[UNK]'", + "replace text[76:77] --> decoded_text[96:97] ',' --> ','" + ], + "n_oov_chars": 10, + "oov_ratio": 0.11494252873563218, + "oov_charset": "[\"挣\", \",\", \"练\", \"币\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“金庸的小说《连城[UNK]》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不[UNK]“拾金而昧”,还“昧”得理直气壮。", + "diff": [ + "replace text[9:10] --> decoded_text[9:14] '诀' --> '[UNK]'", + "replace text[25:26] --> decoded_text[29:30] ',' --> ','", + "replace text[39:40] --> decoded_text[43:44] ',' --> ','", + "replace text[53:54] --> decoded_text[57:58] ',' --> ','", + "replace text[58:59] --> decoded_text[62:63] ',' --> ','", + "replace text[95:96] --> decoded_text[99:100] ',' --> ','", + "replace text[107:108] --> decoded_text[111:112] ',' --> ','", + "replace text[114:115] --> decoded_text[118:123] '仅' --> '[UNK]'", + "replace text[121:122] --> decoded_text[129:130] ',' --> ','" + ], + "n_oov_chars": 9, + "oov_ratio": 0.06818181818181818, + "oov_charset": "[\"诀\", \",\", \"仅\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/sample.py b/stats/compression_rate/sample.py new file mode 100644 index 0000000000000000000000000000000000000000..ae82f08ac20ddfed50b09444905b20b0e465c5fd --- /dev/null +++ b/stats/compression_rate/sample.py @@ -0,0 +1,12 @@ +import os +import glob +import json + +for file_path in glob.glob("../compression_rate_all/*.json"): + file_name = os.path.basename(file_path) + print(file_name) + data = json.load(open(file_path, "r", encoding="utf-8")) + + + with open(file_name, "w", encoding="utf-8") as f_out: + f_out.write(json.dumps(data[:10], ensure_ascii=False, indent=2)) diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..58027010f1a4d85bc18db4e7ab32f47e1b567df6 --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.es.diff.json @@ -0,0 +1,105 @@ +[ + { + "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "decoded_text": "- Escribe, no importa el sop orte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.", + "diff": [ + "replace text[25:28] --> decoded_text[25:30] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A) siempre me quedaría la opción de ir a Talasoponiente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "decoded_text": "A) siempre me quedaría la opción de ir a Tala sop oniente, el moderno centro de talasoterapia de Gijón que ofrece la posibilidad de disfrutar de los efectos del medio marino para relajar tanto el cuerpo como la mente, disfrutando de los tratamientos más avanzados. Su método terapéutico natural y respetuoso con el organismo humano consiste en la utilización del medio marino (agua, arena, algas, lodos, etcétera).", + "diff": [ + "replace text[45:48] --> decoded_text[45:50] 'sop' --> ' sop '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Habrá soporte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "decoded_text": "Habrá sop orte material de acuerdo con el nivel que se tenga y se quiera alcanzar, pero, en un principio, la metodología es...", + "diff": [ + "insert text[6:6] --> decoded_text[6:7] '' --> ' '", + "insert text[9:9] --> decoded_text[10:11] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..cfb38f11c0b73321ac681574d920016118f70c15 --- /dev/null +++ b/stats/compression_rate/thu-coai.CharacterGLM-6B @ cc100.zh-Hans.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v", + "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v", + "diff": [ + "delete text[54:55] --> decoded_text[54:54] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _", + "diff": [ + "delete text[80:81] --> decoded_text[80:80] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M", + "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?", + "diff": [ + "delete text[1:2] --> decoded_text[1:1] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。", + "diff": [ + "delete text[24:25] --> decoded_text[24:24] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8bd59d1606c76909e6921989e7a7840db10e7aac --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-180b @ cc100.zh-Hans.diff.json @@ -0,0 +1,141 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", + "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", + "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", + "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", + "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", + "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", + "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", + "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", + "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", + "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", + "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", + "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", + "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", + "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", + "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" + ], + "n_oov_chars": 20, + "oov_ratio": 0.04866180048661801, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", + "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" + ], + "n_oov_chars": 4, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "diff": [ + "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", + "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", + "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", + "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", + "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", + "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", + "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" + ], + "n_oov_chars": 9, + "oov_ratio": 0.09375, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", + "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", + "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", + "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.056818181818181816, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", + "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", + "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", + "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", + "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", + "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", + "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", + "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", + "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", + "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" + ], + "n_oov_chars": 15, + "oov_ratio": 0.11450381679389313, + "oov_charset": "[\"\\u0005\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..1deacdda4b32c4e34735e6d6ccc8fe6959a80f52 --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.en.diff.json @@ -0,0 +1,103 @@ +[ + { + "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.", + "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.", + "diff": [ + "delete text[86:87] --> decoded_text[86:86] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .", + "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.", + "diff": [ + "delete text[318:319] --> decoded_text[318:318] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.", + "diff": [ + "delete text[51:52] --> decoded_text[51:51] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "We're not so rough and over the top these days, so they miiiiight survive ._.", + "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.", + "diff": [ + "delete text[73:74] --> decoded_text[73:73] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...", + "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...", + "diff": [ + "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...", + "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...", + "diff": [ + "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.", + "diff": [ + "delete text[26:27] --> decoded_text[26:26] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.", + "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.", + "diff": [ + "delete text[114:115] --> decoded_text[114:114] ' ' --> ''", + "delete text[217:218] --> decoded_text[216:216] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.", + "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.", + "diff": [ + "delete text[328:329] --> decoded_text[328:328] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..", + "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..", + "diff": [ + "delete text[99:100] --> decoded_text[99:99] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..b9cec9a8b3fcf170bb95866eee6cedb7702e251e --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.es.diff.json @@ -0,0 +1,104 @@ +[ + { + "text": "Actividad física , Deporte , Salud", + "decoded_text": "Actividad física, Deporte, Salud", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''", + "delete text[26:27] --> decoded_text[25:25] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!", + "diff": [ + "delete text[6:7] --> decoded_text[6:6] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?", + "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?", + "diff": [ + "delete text[58:59] --> decoded_text[58:58] ' ' --> ''", + "delete text[155:156] --> decoded_text[154:154] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Si , podría hacerte un precio. La medida va desde el exterior.", + "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.", + "diff": [ + "delete text[2:3] --> decoded_text[2:2] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".", + "diff": [ + "delete text[415:416] --> decoded_text[415:415] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .", + "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.", + "diff": [ + "delete text[138:139] --> decoded_text[138:138] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .", + "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.", + "diff": [ + "delete text[220:221] --> decoded_text[220:220] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .", + "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.", + "diff": [ + "delete text[122:123] --> decoded_text[122:122] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...", + "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...", + "diff": [ + "delete text[69:70] --> decoded_text[69:69] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!", + "diff": [ + "delete text[105:106] --> decoded_text[105:105] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..107153a2926c24d9125689509690e50c617c755b --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.fr.diff.json @@ -0,0 +1,102 @@ +[ + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "delete text[193:194] --> decoded_text[193:193] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort", + "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort", + "diff": [ + "delete text[150:151] --> decoded_text[150:150] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)", + "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)", + "diff": [ + "delete text[100:101] --> decoded_text[100:100] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^", + "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^", + "diff": [ + "delete text[23:24] --> decoded_text[23:23] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")", + "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")", + "diff": [ + "delete text[277:278] --> decoded_text[277:277] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Quand les élus se réunissent-ils ?", + "decoded_text": "Quand les élus se réunissent-ils?", + "diff": [ + "delete text[32:33] --> decoded_text[32:32] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici", + "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici", + "diff": [ + "delete text[34:35] --> decoded_text[34:34] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!", + "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!", + "diff": [ + "delete text[81:82] --> decoded_text[81:81] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé", + "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé", + "diff": [ + "delete text[35:36] --> decoded_text[35:35] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!", + "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!", + "diff": [ + "delete text[53:54] --> decoded_text[53:53] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..8bd59d1606c76909e6921989e7a7840db10e7aac --- /dev/null +++ b/stats/compression_rate/tiiuae.falcon-7b @ cc100.zh-Hans.diff.json @@ -0,0 +1,141 @@ +[ + { + "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。", + "diff": [ + "delete text[56:57] --> decoded_text[56:56] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。", + "diff": [ + "delete text[12:13] --> decoded_text[12:12] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。", + "diff": [ + "delete text[94:95] --> decoded_text[94:94] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...", + "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...", + "diff": [ + "delete text[103:104] --> decoded_text[103:103] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱", + "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱", + "diff": [ + "delete text[16:17] --> decoded_text[16:16] ' ' --> ''" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0005\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006\u0005。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0005\u0006\u0005\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0005\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0005\u0006\u0007\u0007\u0006。几天后\u0006\u0005\b\u0007\b,孙某找到了宋某\b\b\u0007\u0005,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006\u0005,只要他给30万“封口费”\u0005\u0005\u0006\u0005\u0006,她就不会将他们的关系公之于众\u0007\u0005\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\u0005\b\u0007,双方在讨价还价后\b\u0005\b\b,张某决定给孙某10万元了事\b\b\b\u0005。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007\u0005,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\u0005\u0005\b、张某和何某\u0005\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "decoded_text": "今年35岁的男子宋某是本市和平区某高级娱乐场所的副总\u0007\u0007\b,平时忙于工作的他在业余时间迷上了网络聊天\u0006。今年年初\b\b\u0006\u0007,他在网上结识了一名本市的24岁的女子孙某\u0006\u0007\u0007\u0006,2人聊得十分投机\u0006\b\u0006\u0006,并相约见面\u0006\b。有妻室的宋某背着家人开始和孙某频繁交往起来\u0006\u0007\u0006\b,2人的关系突飞猛进\u0006\u0007\b\u0007,随即在酒店发生了关系\u0006\u0007\u0007\u0006。几天后\u0006\b\u0007\b,孙某找到了宋某\b\b\u0007,一改往日亲密的态度\u0007\u0007\u0007,十分严肃地告诉张某\b\u0006,只要他给30万“封口费”\u0006\u0006,她就不会将他们的关系公之于众\u0007\u0007\b。考虑到目前安逸的生活\u0006\u0007\u0006\u0006,宋某不得不妥协了\b\b\u0007,双方在讨价还价后\b\b\b,张某决定给孙某10万元了事\b\b\b。原本以为孙某从此就会消失在自己的生活中\u0006\b\u0007\u0007,但令他没想到的是\b\u0007,孙某竟把这件事当成了炫耀的资本转口告诉了网友李某\b、张某和何某\u0006\u0007\b,而这3名男子也似乎从这件事中发现了生财之道\u0006\b\b\u0006。", + "diff": [ + "delete text[27:28] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[52:53] --> decoded_text[51:51] '\\x05' --> ''", + "replace text[106:109] --> decoded_text[104:105] '\\x05\\x06\\x05' --> '\\x06'", + "delete text[134:135] --> decoded_text[130:130] '\\x05' --> ''", + "delete text[162:163] --> decoded_text[157:157] '\\x05' --> ''", + "delete text[172:173] --> decoded_text[166:166] '\\x05' --> ''", + "delete text[187:188] --> decoded_text[180:180] '\\x05' --> ''", + "delete text[213:214] --> decoded_text[205:205] '\\x05' --> ''", + "replace text[227:231] --> decoded_text[218:219] '\\x05\\x05\\x06\\x05' --> '\\x06'", + "delete text[248:249] --> decoded_text[236:236] '\\x05' --> ''", + "delete text[276:277] --> decoded_text[263:263] '\\x05' --> ''", + "delete text[289:290] --> decoded_text[275:275] '\\x05' --> ''", + "delete text[309:310] --> decoded_text[294:294] '\\x05' --> ''", + "delete text[345:346] --> decoded_text[329:329] '\\x05' --> ''", + "delete text[371:373] --> decoded_text[354:354] '\\x05\\x05' --> ''", + "delete text[380:381] --> decoded_text[361:361] '\\x05' --> ''" + ], + "n_oov_chars": 20, + "oov_ratio": 0.04866180048661801, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "拿到终审判决\u0007\b\u0006\u0005\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\u0005\b\u0006\u0005,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b\u0005。", + "decoded_text": "拿到终审判决\u0007\b\u0006\u0006,郑法当即表示\u0006\u0006\u0007,“我们要申诉\b\u0006,一定要把事情弄清楚”\u0006\b\b。他仍然坚持认为医院修改了弟弟的病历说明\u0006\b\b\b,医院应为弟弟的死亡承担全部的责任\u0006\u0007\b。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[28:29] --> decoded_text[27:27] '\\x05' --> ''", + "delete text[31:32] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[90:91] --> decoded_text[87:87] '\\x05' --> ''" + ], + "n_oov_chars": 4, + "oov_ratio": 0.043478260869565216, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "本报讯为达到长期霸占弟媳的目的\u0005\u0005\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0005\u0006\u0005。日前\u0005\u0006\u0006\u0007\u0005,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\u0005\u0005\b\u0006\u0005,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "decoded_text": "本报讯为达到长期霸占弟媳的目的\u0006\u0006\b,哥哥将亲弟弟踹下60余米高的悬崖\u0006。日前\u0006\u0006\u0007,歹毒哥哥被彭水县法院以故意杀人罪一审判处有期徒刑14年\b\u0006,剥夺政治权利3年\b\u0006\u0006\u0007\u0007。", + "diff": [ + "delete text[15:17] --> decoded_text[15:15] '\\x05\\x05' --> ''", + "delete text[37:38] --> decoded_text[35:35] '\\x05' --> ''", + "delete text[39:40] --> decoded_text[36:36] '\\x05' --> ''", + "delete text[43:44] --> decoded_text[39:39] '\\x05' --> ''", + "delete text[47:48] --> decoded_text[42:42] '\\x05' --> ''", + "delete text[76:78] --> decoded_text[70:70] '\\x05\\x05' --> ''", + "delete text[80:81] --> decoded_text[72:72] '\\x05' --> ''" + ], + "n_oov_chars": 9, + "oov_ratio": 0.09375, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0005\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0005\u0006\u0005\u0006\u0005,女主角是我不认识的陌生女人\u0006\u0005。", + "decoded_text": "这个大假我过得并不好\u0007\u0007\u0007\u0006。一段我以为值得托付一生的感情\u0007\u0006\u0006\b,在一堆性爱照片前一败涂地\u0006\b。而这些性爱照片的男主角是我的男友\u0006\u0006,女主角是我不认识的陌生女人\u0006。", + "diff": [ + "delete text[29:30] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[66:67] --> decoded_text[65:65] '\\x05' --> ''", + "delete text[68:69] --> decoded_text[66:66] '\\x05' --> ''", + "delete text[70:71] --> decoded_text[67:67] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[82:82] '\\x05' --> ''" + ], + "n_oov_chars": 5, + "oov_ratio": 0.056818181818181816, + "oov_charset": "[\"\\u0005\"]" + }, + { + "text": "我和男友是一见钟情\u0005\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0005\u0007。我认识他是在学校的健身房\b\b\u0005\u0005,我扭伤了脚\u0006\b\u0006\u0005,他来帮忙\b\u0007\b\u0005\b。下午四点钟的阳光从窗户射进来时\b\u0005\u0007\u0005,他身上闪烁的光芒让我着迷\u0005\u0005\b\u0005。就这样\u0005\b\b\u0007\u0005,我无可救药地爱上了他\u0005\u0005\b\u0007。", + "decoded_text": "我和男友是一见钟情\u0006\b,他是那种在学校里十分耀眼的男生\u0007\b\u0007。我认识他是在学校的健身房\b\b,我扭伤了脚\u0006\b\u0006,他来帮忙\b\u0007\b\b。下午四点钟的阳光从窗户射进来时\b\u0007,他身上闪烁的光芒让我着迷\b。就这样\b\b\u0007,我无可救药地爱上了他\b\u0007。", + "diff": [ + "delete text[9:10] --> decoded_text[9:9] '\\x05' --> ''", + "delete text[30:31] --> decoded_text[29:29] '\\x05' --> ''", + "delete text[47:49] --> decoded_text[45:45] '\\x05\\x05' --> ''", + "delete text[58:59] --> decoded_text[54:54] '\\x05' --> ''", + "delete text[67:68] --> decoded_text[62:62] '\\x05' --> ''", + "delete text[86:87] --> decoded_text[80:80] '\\x05' --> ''", + "delete text[88:89] --> decoded_text[81:81] '\\x05' --> ''", + "delete text[102:104] --> decoded_text[94:94] '\\x05\\x05' --> ''", + "delete text[105:106] --> decoded_text[95:95] '\\x05' --> ''", + "delete text[110:111] --> decoded_text[99:99] '\\x05' --> ''", + "delete text[114:115] --> decoded_text[102:102] '\\x05' --> ''", + "delete text[126:128] --> decoded_text[113:113] '\\x05\\x05' --> ''" + ], + "n_oov_chars": 15, + "oov_ratio": 0.11450381679389313, + "oov_charset": "[\"\\u0005\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..f565638f8c0845574515d3885c439fbd810a68ee --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.en.diff.json @@ -0,0 +1,157 @@ +[ + { + "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.", + "decoded_text": "Belmont Estate is on the market for $ 63 million and boasts roughly 22, 000 square feet of luxurious finishes and elaborate architecture on 1. 28 acres. Listed on Thursday, the home is being sold by high - end real estate firm Sotheby ’ s International Realty Canada.", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[70:70] --> decoded_text[71:72] '' --> ' '", + "insert text[140:140] --> decoded_text[142:143] '' --> ' '", + "insert text[200:200] --> decoded_text[203:204] '' --> ' '", + "insert text[201:201] --> decoded_text[205:206] '' --> ' '", + "insert text[229:229] --> decoded_text[234:235] '' --> ' '", + "insert text[230:230] --> decoded_text[236:237] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.", + "decoded_text": "“ Within the city we ’ ve had homes that have sold for $ 56 million, $ 33 million, $ 31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby ’ s tells BuzzBuzzNews.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[20:20] --> decoded_text[22:23] '' --> ' '", + "insert text[53:53] --> decoded_text[56:57] '' --> ' '", + "insert text[66:66] --> decoded_text[70:71] '' --> ' '", + "insert text[79:79] --> decoded_text[84:85] '' --> ' '", + "insert text[181:181] --> decoded_text[187:188] '' --> ' '", + "insert text[182:182] --> decoded_text[189:190] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.", + "decoded_text": "The three - storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian - inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six - car garage and a private entrance in - law ’ s suite.", + "diff": [ + "insert text[9:9] --> decoded_text[9:10] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[173:173] --> decoded_text[175:176] '' --> ' '", + "insert text[174:174] --> decoded_text[177:178] '' --> ' '", + "insert text[339:339] --> decoded_text[343:344] '' --> ' '", + "replace text[340:376] --> decoded_text[345:383] 'car garage and a private entrance in' --> ' car garage and a private entrance in '", + "replace text[377:380] --> decoded_text[384:389] 'law' --> ' law '", + "insert text[381:381] --> decoded_text[390:391] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.", + "decoded_text": "Surrounding the property is a Versailles - inspired garden with a variety of trees, plants and an orchard. In the spring, over 12, 000 flowers bloom in the tiered, three - level garden.", + "diff": [ + "insert text[40:40] --> decoded_text[40:41] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[128:128] --> decoded_text[130:131] '' --> ' '", + "insert text[166:166] --> decoded_text[169:170] '' --> ' '", + "insert text[167:167] --> decoded_text[171:172] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.", + "decoded_text": "“ We just went to the market yesterday, it ’ s private through Sotheby ’ s and we ’ ve already started to get calls,” says Frosch.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[41:41] --> decoded_text[42:43] '' --> ' '", + "insert text[42:42] --> decoded_text[44:45] '' --> ' '", + "insert text[67:67] --> decoded_text[70:71] '' --> ' '", + "insert text[68:68] --> decoded_text[72:73] '' --> ' '", + "insert text[76:76] --> decoded_text[81:82] '' --> ' '", + "insert text[77:77] --> decoded_text[83:84] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.", + "decoded_text": "Stay well hydrated — that means you should include about 48 - 64 ounces of liquid ( non - calorie ) each day. You will be drinking small amounts (“ sips ” ) every hour through the day since you will not be able to drink a large amount all at once.", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '", + "insert text[19:19] --> decoded_text[20:21] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '", + "replace text[80:83] --> decoded_text[83:88] 'non' --> ' non '", + "replace text[84:91] --> decoded_text[89:98] 'calorie' --> ' calorie '", + "insert text[140:140] --> decoded_text[147:148] '' --> ' '", + "insert text[144:144] --> decoded_text[152:153] '' --> ' '", + "insert text[145:145] --> decoded_text[154:155] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:", + "decoded_text": "On Day Four after your surgery, begin adding liquid protein during this Phase ( 20 to 30 grams per day ). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend :", + "diff": [ + "insert text[79:79] --> decoded_text[79:80] '' --> ' '", + "insert text[101:101] --> decoded_text[102:103] '' --> ' '", + "insert text[205:205] --> decoded_text[207:208] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111", + "decoded_text": "Unjury ( 20 grams of whey protein isolate per packet ) once a day ( available at our office or www. UNJURY. com or 800 - 517 - 5111", + "diff": [ + "insert text[8:8] --> decoded_text[8:9] '' --> ' '", + "insert text[10:10] --> decoded_text[11:12] '' --> ' '", + "insert text[50:50] --> decoded_text[52:53] '' --> ' '", + "insert text[64:64] --> decoded_text[67:68] '' --> ' '", + "insert text[95:95] --> decoded_text[99:100] '' --> ' '", + "insert text[102:102] --> decoded_text[107:108] '' --> ' '", + "insert text[112:112] --> decoded_text[118:119] '' --> ' '", + "insert text[113:113] --> decoded_text[120:121] '' --> ' '", + "insert text[116:116] --> decoded_text[124:125] '' --> ' '", + "insert text[117:117] --> decoded_text[126:127] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Review protein sources: meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes (beans)", + "decoded_text": "Review protein sources : meats, chicken, turkey, eggs, cheese, low fat milk, yogurt, tofu, soy beans, other legumes ( beans )", + "diff": [ + "insert text[22:22] --> decoded_text[22:23] '' --> ' '", + "insert text[116:116] --> decoded_text[117:118] '' --> ' '", + "insert text[121:121] --> decoded_text[123:124] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "For extra protein add powdered milk (1/4 c) to your 1 cup of skim milk (this give about 18 grams of protein)", + "decoded_text": "For extra protein add powdered milk ( 1 / 4 c ) to your 1 cup of skim milk ( this give about 18 grams of protein )", + "diff": [ + "insert text[37:37] --> decoded_text[37:38] '' --> ' '", + "insert text[38:38] --> decoded_text[39:40] '' --> ' '", + "insert text[39:39] --> decoded_text[41:42] '' --> ' '", + "insert text[42:42] --> decoded_text[45:46] '' --> ' '", + "insert text[72:72] --> decoded_text[76:77] '' --> ' '", + "insert text[107:107] --> decoded_text[112:113] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..7909ea274af5df3ea3e3582cdbaad98c269ddd16 --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.es.diff.json @@ -0,0 +1,109 @@ +[ + { + "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "decoded_text": "\" Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \" Los Sanguinarios del Norte Chico \" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[103:103] --> decoded_text[104:105] '' --> ' '", + "insert text[135:135] --> decoded_text[137:138] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "decoded_text": "A \" Los Sanguinarios del Norte Chico \" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '", + "insert text[35:35] --> decoded_text[36:37] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada", + "decoded_text": "– Art. 2, Ley 4 / 1983, de 29 de junio, de fijación de la jornada", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican", + "decoded_text": "– Art. 4 Ley 11 / 1994, de 19 de mayo, por la que se modifican", + "diff": [ + "insert text[15:15] --> decoded_text[15:16] '' --> ' '", + "insert text[16:16] --> decoded_text[17:18] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "suspensión del contrato de trabajo previsto en el artículo 48.4", + "decoded_text": "suspensión del contrato de trabajo previsto en el artículo 48. 4", + "diff": [ + "insert text[62:62] --> decoded_text[62:63] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "El segundo párrafo de este número ha sido incorporado por:", + "decoded_text": "El segundo párrafo de este número ha sido incorporado por :", + "diff": [ + "insert text[57:57] --> decoded_text[57:58] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "15.2. El calendario de vacaciones se fijará en cada empresa,", + "decoded_text": "15. 2. El calendario de vacaciones se fijará en cada empresa,", + "diff": [ + "insert text[3:3] --> decoded_text[3:4] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "a la Empresa el 50% del periodo restante en la fecha señalada", + "decoded_text": "a la Empresa el 50 % del periodo restante en la fecha señalada", + "diff": [ + "insert text[18:18] --> decoded_text[18:19] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + }, + { + "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.", + "decoded_text": "Os deseamos muchos más [UNK] en un futuro y los mejores augurios para los años que están por venir.", + "diff": [ + "replace text[23:29] --> decoded_text[23:28] 'éxitos' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.01, + "oov_charset": "[\"é\"]" + }, + { + "text": "sábado, 28 de marzo de 2015 en 14:12 _ 0 comentarios _ By: Cristina", + "decoded_text": "sábado, 28 de marzo de 2015 en 14 : 12 _ 0 comentarios _ By : Cristina", + "diff": [ + "insert text[33:33] --> decoded_text[33:34] '' --> ' '", + "insert text[34:34] --> decoded_text[35:36] '' --> ' '", + "insert text[57:57] --> decoded_text[59:60] '' --> ' '" + ], + "n_oov_chars": 0, + "oov_ratio": 0.0, + "oov_charset": "[]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..fe1e7a01ba1f5938e538505924b1b18ee0ad62db --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.fr.diff.json @@ -0,0 +1,118 @@ +[ + { + "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.", + "decoded_text": "Bon, comme je ne suis pas le seul [UNK] avoir envisagé de créer ce sujet, je me suis dis qu'il [UNK] peut [UNK] temps de le commencer.", + "diff": [ + "replace text[34:35] --> decoded_text[34:39] 'à' --> '[UNK]'", + "replace text[91:96] --> decoded_text[95:100] 'était' --> '[UNK]'", + "replace text[102:106] --> decoded_text[106:111] 'être' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.015503875968992248, + "oov_charset": "[\"à\", \"ê\"]" + }, + { + "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie", + "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \" tu pourras faire [UNK] dans la soirée?\" le matin, il y a de fortes chances que j'oublie", + "diff": [ + "insert text[159:159] --> decoded_text[159:160] '' --> ' '", + "replace text[176:178] --> decoded_text[177:182] 'ça' --> '[UNK]'", + "delete text[193:194] --> decoded_text[197:197] ' ' --> ''" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004098360655737705, + "oov_charset": "[\"ç\"]" + }, + { + "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.", + "decoded_text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien [UNK] branler.", + "diff": [ + "replace text[224:225] --> decoded_text[224:229] 'à' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.004273504273504274, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.", + "decoded_text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien [UNK] voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit [UNK] la création du monde.", + "diff": [ + "replace text[63:64] --> decoded_text[63:68] 'à' --> '[UNK]'", + "replace text[169:170] --> decoded_text[173:178] 'à' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.010416666666666666, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "decoded_text": "- Je suis arrogant avec ma famille, mais faible avec mes \" amis \" du lycée, et ait tendance [UNK] preférer ceux que je connais par Internet ou ailleurs qu'au lycée", + "diff": [ + "insert text[58:58] --> decoded_text[58:59] '' --> ' '", + "insert text[62:62] --> decoded_text[63:64] '' --> ' '", + "replace text[90:91] --> decoded_text[92:97] 'à' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006369426751592357, + "oov_charset": "[\"à\"]" + }, + { + "text": "- Je dois être mentalement instable, par moments", + "decoded_text": "- Je dois [UNK] mentalement instable, par moments", + "diff": [ + "replace text[10:14] --> decoded_text[10:15] 'être' --> '[UNK]'" + ], + "n_oov_chars": 1, + "oov_ratio": 0.020833333333333332, + "oov_charset": "[\"ê\"]" + }, + { + "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "decoded_text": "- J'ai tendance [UNK] voir les autres humains \" normaux \" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas", + "diff": [ + "replace text[16:17] --> decoded_text[16:21] 'à' --> '[UNK]'", + "insert text[43:43] --> decoded_text[47:48] '' --> ' '", + "insert text[50:50] --> decoded_text[55:56] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.006711409395973154, + "oov_charset": "[\"à\"]" + }, + { + "text": "A la fin, on essayera de trouver des points communs à tous et de tout \"remettre au propre\"", + "decoded_text": "A la fin, on essayera de trouver des points communs [UNK] tous et de tout \" remettre au propre \"", + "diff": [ + "replace text[52:53] --> decoded_text[52:57] 'à' --> '[UNK]'", + "insert text[71:71] --> decoded_text[75:76] '' --> ' '", + "insert text[89:89] --> decoded_text[94:95] '' --> ' '" + ], + "n_oov_chars": 1, + "oov_ratio": 0.011111111111111112, + "oov_charset": "[\"à\"]" + }, + { + "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie", + "decoded_text": "- j'ai moi aussi beaucoup de mémoire [UNK] ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en [UNK] temps très [UNK]", + "diff": [ + "replace text[37:38] --> decoded_text[37:42] 'à' --> '[UNK]'", + "replace text[163:167] --> decoded_text[167:172] 'même' --> '[UNK]'", + "replace text[179:187] --> decoded_text[184:189] 'étourdie' --> '[UNK]'" + ], + "n_oov_chars": 2, + "oov_ratio": 0.0106951871657754, + "oov_charset": "[\"à\", \"ê\"]" + }, + { + "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)", + "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas ( ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, [UNK] le prof a [UNK] me garder une heure en plus pour m'expliquer des démonstrations )", + "diff": [ + "insert text[64:64] --> decoded_text[64:65] '' --> ' '", + "replace text[150:152] --> decoded_text[151:156] 'où' --> '[UNK]'", + "replace text[163:165] --> decoded_text[167:172] 'dû' --> '[UNK]'", + "insert text[229:229] --> decoded_text[236:237] '' --> ' '" + ], + "n_oov_chars": 2, + "oov_ratio": 0.008695652173913044, + "oov_charset": "[\"ù\", \"û\"]" + } +] \ No newline at end of file diff --git a/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json new file mode 100644 index 0000000000000000000000000000000000000000..23f4316633c18b8826aaff3df4764f8c5a9c4b87 --- /dev/null +++ b/stats/compression_rate/tohoku-nlp.bert-base-japanese @ cc100.zh-Hans.diff.json @@ -0,0 +1,537 @@ +[ + { + "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:", + "decoded_text": "[UNK] [UNK] [UNK] [UNK] 牌 [UNK] ( www. suzastampin. com ) [UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 。 近日, [UNK] [UNK] [UNK] 到 山西 [UNK] 北京 [UNK] [UNK] 4 S 店 得知, 店内 朗 [UNK] 型 有 [UNK] 供 [UNK], [UNK] 段 [UNK] 可 享受 最高 6000 元 [UNK] 幅 度, 具体 的 [UNK] 和 [UNK] 情 [UNK] [UNK] 表, 同 [UNK] [UNK] 的 朋友 [UNK] [UNK] 4008112233 [UNK] 3456 [UNK] :", + "diff": [ + "replace text[0:7] --> decoded_text[0:24] '卍招财带什么佛' --> '[UNK] [UNK] [UNK] [UNK] '", + "replace text[8:9] --> decoded_text[25:32] '卍' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[33:34] '' --> ' '", + "insert text[14:14] --> decoded_text[38:39] '' --> ' '", + "insert text[26:26] --> decoded_text[51:52] '' --> ' '", + "insert text[29:29] --> decoded_text[55:56] '' --> ' '", + "replace text[30:32] --> decoded_text[57:64] '卡尔' --> ' [UNK] '", + "insert text[33:33] --> decoded_text[65:66] '' --> ' '", + "replace text[35:37] --> decoded_text[68:75] '姆于' --> ' [UNK] '", + "insert text[41:41] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[81:82] '' --> ' '", + "insert text[44:44] --> decoded_text[84:85] '' --> ' '", + "insert text[45:45] --> decoded_text[86:87] '' --> ' '", + "replace text[46:48] --> decoded_text[88:95] '汽车' --> ' [UNK] '", + "insert text[50:50] --> decoded_text[97:98] '' --> ' '", + "replace text[52:54] --> decoded_text[100:107] '总经' --> ' [UNK] '", + "insert text[55:55] --> decoded_text[108:109] '' --> ' '", + "replace text[56:61] --> decoded_text[110:130] '职,并负责' --> ' [UNK], [UNK] [UNK] '", + "insert text[63:63] --> decoded_text[132:133] '' --> ' '", + "insert text[64:64] --> decoded_text[134:135] '' --> ' '", + "insert text[66:66] --> decoded_text[137:138] '' --> ' '", + "replace text[68:72] --> decoded_text[140:153] '际市场上' --> ' [UNK] [UNK] '", + "insert text[73:73] --> decoded_text[154:155] '' --> ' '", + "insert text[74:74] --> decoded_text[156:157] '' --> ' '", + "insert text[75:75] --> decoded_text[158:159] '' --> ' '", + "insert text[76:76] --> decoded_text[160:161] '' --> ' '", + "insert text[77:77] --> decoded_text[162:163] '' --> ' '", + "insert text[78:78] --> decoded_text[164:165] '' --> ' '", + "insert text[80:80] --> decoded_text[167:168] '' --> ' '", + "replace text[81:83] --> decoded_text[169:176] '业务' --> ' [UNK] '", + "replace text[84:86] --> decoded_text[177:184] '这位' --> ' [UNK] '", + "insert text[88:88] --> decoded_text[186:187] '' --> ' '", + "insert text[89:89] --> decoded_text[188:189] '' --> ' '", + "insert text[91:91] --> decoded_text[191:192] '' --> ' '", + "replace text[92:94] --> decoded_text[193:200] '毕业' --> ' [UNK] '", + "replace text[95:96] --> decoded_text[201:203] ',' --> ', '", + "insert text[98:98] --> decoded_text[205:206] '' --> ' '", + "replace text[100:102] --> decoded_text[208:215] '汽车' --> ' [UNK] '", + "insert text[103:103] --> decoded_text[216:217] '' --> ' '", + "insert text[105:105] --> decoded_text[219:220] '' --> ' '", + "replace text[106:107] --> decoded_text[221:228] '资' --> ' [UNK] '", + "insert text[109:109] --> decoded_text[230:231] '' --> ' '", + "insert text[110:110] --> decoded_text[232:233] '' --> ' '", + "insert text[111:111] --> decoded_text[234:235] '' --> ' '", + "replace text[113:120] --> decoded_text[237:257] ',编辑专门联系' --> ', [UNK] [UNK] [UNK] '", + "insert text[121:121] --> decoded_text[258:259] '' --> ' '", + "replace text[123:125] --> decoded_text[261:268] '传奇' --> ' [UNK] '", + "replace text[127:131] --> decoded_text[270:283] '现代汽车' --> ' [UNK] [UNK] '", + "insert text[132:132] --> decoded_text[284:285] '' --> ' '", + "insert text[133:133] --> decoded_text[286:287] '' --> ' '", + "insert text[134:134] --> decoded_text[288:289] '' --> ' '", + "replace text[136:137] --> decoded_text[291:293] ',' --> ', '", + "insert text[139:139] --> decoded_text[295:296] '' --> ' '", + "replace text[140:142] --> decoded_text[297:304] '动车' --> ' [UNK] '", + "insert text[143:143] --> decoded_text[305:306] '' --> ' '", + "replace text[144:146] --> decoded_text[307:314] '现车' --> ' [UNK] '", + "replace text[147:151] --> decoded_text[315:329] '应,现阶' --> ' [UNK], [UNK] '", + "replace text[152:154] --> decoded_text[330:337] '购车' --> ' [UNK] '", + "insert text[155:155] --> decoded_text[338:339] '' --> ' '", + "insert text[157:157] --> decoded_text[341:342] '' --> ' '", + "insert text[159:159] --> decoded_text[344:345] '' --> ' '", + "insert text[163:163] --> decoded_text[349:350] '' --> ' '", + "replace text[164:166] --> decoded_text[351:358] '优惠' --> ' [UNK] '", + "insert text[167:167] --> decoded_text[359:360] '' --> ' '", + "replace text[168:169] --> decoded_text[361:363] ',' --> ', '", + "insert text[171:171] --> decoded_text[365:366] '' --> ' '", + "replace text[172:174] --> decoded_text[367:374] '车型' --> ' [UNK] '", + "replace text[175:177] --> decoded_text[375:382] '价格' --> ' [UNK] '", + "replace text[178:182] --> decoded_text[383:396] '况请见下' --> ' [UNK] [UNK] '", + "replace text[183:184] --> decoded_text[397:399] ',' --> ', '", + "replace text[185:189] --> decoded_text[400:413] '时感兴趣' --> ' [UNK] [UNK] '", + "insert text[190:190] --> decoded_text[414:415] '' --> ' '", + "replace text[192:196] --> decoded_text[417:430] '还可致电' --> ' [UNK] [UNK] '", + "replace text[206:207] --> decoded_text[440:447] '转' --> ' [UNK] '", + "replace text[211:214] --> decoded_text[451:459] '详询:' --> ' [UNK] :'" + ], + "n_oov_chars": 64, + "oov_ratio": 0.29906542056074764, + "oov_charset": "[\"卍\", \"财\", \"带\", \"什\", \"么\", \"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"编\", \"辑\", \"专\", \"门\", \"联\", \"传\", \"现\", \"动\", \"应\", \"阶\", \"购\", \"优\", \"惠\", \"价\", \"况\", \"请\", \"见\", \"时\", \"兴\", \"还\", \"电\", \"转\", \"详\", \"询\", \":\"]" + }, + { + "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。", + "decoded_text": "[UNK] 《 幸福 [UNK] [UNK] 》 的 案 例 令 中国 [UNK] 彼 得 [UNK] 事 官 胡 [UNK] 印象 深刻 。 由 于行 前 未 能 [UNK] 核 [UNK] [UNK] [UNK], 一 [UNK] [UNK] [UNK] 旅 [UNK] 的中 国夫 [UNK] [UNK] [UNK] 期 差 点 被 困 在 [UNK] [UNK] 。 在 胡 [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] 的 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 的 航 班 。", + "diff": [ + "replace text[0:8] --> decoded_text[0:6] '一个类似美国大片' --> '[UNK] '", + "insert text[9:9] --> decoded_text[7:8] '' --> ' '", + "replace text[11:14] --> decoded_text[10:23] '终点站' --> ' [UNK] [UNK] '", + "insert text[15:15] --> decoded_text[24:25] '' --> ' '", + "insert text[16:16] --> decoded_text[26:27] '' --> ' '", + "insert text[17:17] --> decoded_text[28:29] '' --> ' '", + "insert text[18:18] --> decoded_text[30:31] '' --> ' '", + "insert text[19:19] --> decoded_text[32:33] '' --> ' '", + "replace text[21:23] --> decoded_text[35:42] '驻圣' --> ' [UNK] '", + "insert text[24:24] --> decoded_text[43:44] '' --> ' '", + "replace text[25:27] --> decoded_text[45:52] '堡领' --> ' [UNK] '", + "insert text[28:28] --> decoded_text[53:54] '' --> ' '", + "insert text[29:29] --> decoded_text[55:56] '' --> ' '", + "replace text[30:31] --> decoded_text[57:64] '滨' --> ' [UNK] '", + "insert text[33:33] --> decoded_text[66:67] '' --> ' '", + "insert text[35:35] --> decoded_text[69:70] '' --> ' '", + "insert text[36:36] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[73:74] '' --> ' '", + "insert text[39:39] --> decoded_text[76:77] '' --> ' '", + "insert text[40:40] --> decoded_text[78:79] '' --> ' '", + "insert text[41:41] --> decoded_text[80:81] '' --> ' '", + "replace text[42:44] --> decoded_text[82:89] '仔细' --> ' [UNK] '", + "replace text[45:52] --> decoded_text[90:110] '对签证有效期,' --> ' [UNK] [UNK] [UNK], '", + "replace text[53:58] --> decoded_text[111:130] '对赴俄罗斯' --> ' [UNK] [UNK] [UNK] '", + "replace text[59:60] --> decoded_text[131:138] '游' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[140:141] '' --> ' '", + "replace text[64:70] --> decoded_text[143:162] '妇因为签证过' --> ' [UNK] [UNK] [UNK] '", + "insert text[71:71] --> decoded_text[163:164] '' --> ' '", + "insert text[72:72] --> decoded_text[165:166] '' --> ' '", + "insert text[73:73] --> decoded_text[167:168] '' --> ' '", + "insert text[74:74] --> decoded_text[169:170] '' --> ' '", + "insert text[75:75] --> decoded_text[171:172] '' --> ' '", + "replace text[76:79] --> decoded_text[173:186] '俄罗斯' --> ' [UNK] [UNK] '", + "insert text[80:80] --> decoded_text[187:188] '' --> ' '", + "insert text[81:81] --> decoded_text[189:190] '' --> ' '", + "replace text[82:83] --> decoded_text[191:239] '滨' --> ' [UNK] [UNK] 下, [UNK] 夫 [UNK] [UNK] [UNK] [UNK] '", + "replace text[84:99] --> decoded_text[240:293] '协助下,这对夫妇经历了惊心动魄' --> ' 3 小 [UNK], [UNK] 在 [UNK] 起 [UNK] 5 分 [UNK], 登 上 返 程 '", + "replace text[100:121] --> decoded_text[294:295] '3小时,终于在飞机起飞前5分钟,登上返程的' --> ' '", + "insert text[122:122] --> decoded_text[296:297] '' --> ' '", + "insert text[123:123] --> decoded_text[298:299] '' --> ' '" + ], + "n_oov_chars": 45, + "oov_ratio": 0.3629032258064516, + "oov_charset": "[\"个\", \"类\", \"终\", \"站\", \"驻\", \"圣\", \"领\", \"滨\", \"细\", \"对\", \"签\", \"证\", \"效\", \",\", \"俄\", \"罗\", \"游\", \"妇\", \"为\", \"过\", \"协\", \"这\", \"经\", \"历\", \"惊\", \"动\", \"魄\", \"3\", \"时\", \"飞\", \"5\", \"钟\"]" + }, + { + "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 [UNK] 江 在 致辞 中 表示, 中 法 建 [UNK] [UNK] 中 法 [UNK] [UNK] 国家 友好 [UNK] 的 新 [UNK], [UNK] 了 不 同 社会 制度 国家 和平 共 [UNK] 新 典 范, [UNK] [UNK] 略 格 局 [UNK] 了 重大 [UNK] [UNK] 影 [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "replace text[7:9] --> decoded_text[19:26] '张德' --> ' [UNK] '", + "insert text[10:10] --> decoded_text[27:28] '' --> ' '", + "insert text[11:11] --> decoded_text[29:30] '' --> ' '", + "insert text[13:13] --> decoded_text[32:33] '' --> ' '", + "insert text[14:14] --> decoded_text[34:35] '' --> ' '", + "replace text[16:17] --> decoded_text[37:39] ',' --> ', '", + "insert text[18:18] --> decoded_text[40:41] '' --> ' '", + "insert text[19:19] --> decoded_text[42:43] '' --> ' '", + "replace text[20:24] --> decoded_text[44:57] '交开启了' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[58:59] '' --> ' '", + "replace text[26:30] --> decoded_text[60:73] '两个伟大' --> ' [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "replace text[34:36] --> decoded_text[78:85] '关系' --> ' [UNK] '", + "insert text[37:37] --> decoded_text[86:87] '' --> ' '", + "replace text[38:43] --> decoded_text[88:102] '纪元,树立' --> ' [UNK], [UNK] '", + "insert text[44:44] --> decoded_text[103:104] '' --> ' '", + "insert text[45:45] --> decoded_text[105:106] '' --> ' '", + "insert text[46:46] --> decoded_text[107:108] '' --> ' '", + "insert text[48:48] --> decoded_text[110:111] '' --> ' '", + "insert text[50:50] --> decoded_text[113:114] '' --> ' '", + "insert text[52:52] --> decoded_text[116:117] '' --> ' '", + "insert text[54:54] --> decoded_text[119:120] '' --> ' '", + "replace text[55:57] --> decoded_text[121:128] '处的' --> ' [UNK] '", + "insert text[58:58] --> decoded_text[129:130] '' --> ' '", + "insert text[59:59] --> decoded_text[131:132] '' --> ' '", + "replace text[60:65] --> decoded_text[133:147] ',对国际战' --> ', [UNK] [UNK] '", + "insert text[66:66] --> decoded_text[148:149] '' --> ' '", + "insert text[67:67] --> decoded_text[150:151] '' --> ' '", + "replace text[68:70] --> decoded_text[152:159] '产生' --> ' [UNK] '", + "insert text[71:71] --> decoded_text[160:161] '' --> ' '", + "replace text[73:77] --> decoded_text[163:176] '而深远的' --> ' [UNK] [UNK] '", + "replace text[78:79] --> decoded_text[177:184] '响' --> ' [UNK] '" + ], + "n_oov_chars": 25, + "oov_ratio": 0.3125, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"张\", \"德\", \",\", \"开\", \"启\", \"两\", \"个\", \"伟\", \"关\", \"纪\", \"树\", \"处\", \"对\", \"际\", \"战\", \"产\", \"而\", \"远\", \"响\"]" + }, + { + "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 科 斯格 [UNK] [UNK], 曾被 派 [UNK] 来 西 [UNK] 、 越 南 、 英国 、 印度 、 美国 工作 。 1999 年, 他 成 [UNK] 合 国 [UNK] 帝 [UNK] [UNK] 令, [UNK] [UNK] [UNK] 独立 国家 的 [UNK] 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[19:20] '' --> ' '", + "insert text[8:8] --> decoded_text[21:22] '' --> ' '", + "replace text[10:20] --> decoded_text[24:38] '罗夫一直供职于军队,' --> ' [UNK] [UNK], '", + "insert text[22:22] --> decoded_text[40:41] '' --> ' '", + "replace text[23:25] --> decoded_text[42:49] '往马' --> ' [UNK] '", + "insert text[26:26] --> decoded_text[50:51] '' --> ' '", + "replace text[27:28] --> decoded_text[52:59] '亚' --> ' [UNK] '", + "insert text[29:29] --> decoded_text[60:61] '' --> ' '", + "insert text[30:30] --> decoded_text[62:63] '' --> ' '", + "insert text[31:31] --> decoded_text[64:65] '' --> ' '", + "insert text[32:32] --> decoded_text[66:67] '' --> ' '", + "insert text[34:34] --> decoded_text[69:70] '' --> ' '", + "insert text[35:35] --> decoded_text[71:72] '' --> ' '", + "insert text[37:37] --> decoded_text[74:75] '' --> ' '", + "insert text[38:38] --> decoded_text[76:77] '' --> ' '", + "insert text[40:40] --> decoded_text[79:80] '' --> ' '", + "insert text[42:42] --> decoded_text[82:83] '' --> ' '", + "insert text[43:43] --> decoded_text[84:85] '' --> ' '", + "insert text[47:47] --> decoded_text[89:90] '' --> ' '", + "replace text[48:49] --> decoded_text[91:93] ',' --> ', '", + "insert text[50:50] --> decoded_text[94:95] '' --> ' '", + "replace text[51:53] --> decoded_text[96:103] '为联' --> ' [UNK] '", + "insert text[54:54] --> decoded_text[104:105] '' --> ' '", + "replace text[55:57] --> decoded_text[106:113] '驻东' --> ' [UNK] '", + "replace text[58:62] --> decoded_text[114:127] '汶部队司' --> ' [UNK] [UNK] '", + "replace text[63:70] --> decoded_text[128:148] ',监督东帝汶向' --> ', [UNK] [UNK] [UNK] '", + "insert text[72:72] --> decoded_text[150:151] '' --> ' '", + "insert text[74:74] --> decoded_text[153:154] '' --> ' '", + "replace text[75:77] --> decoded_text[155:162] '过渡' --> ' [UNK] '" + ], + "n_oov_chars": 23, + "oov_ratio": 0.2948717948717949, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"罗\", \"职\", \"军\", \"队\", \",\", \"马\", \"亚\", \"为\", \"联\", \"驻\", \"东\", \"汶\", \"监\", \"过\"]" + }, + { + "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。", + "decoded_text": "1 月 28 日 [UNK] 香港 《 明 [UNK] 》 消息, 在 [UNK] [UNK] 士 [UNK] 美国 音 [UNK] [UNK] 50 周年 的 [UNK] 日子, 格 [UNK] 向 [UNK] [UNK] 成 [UNK] : 保 [UNK] [UNK] [UNK] 高 史 [UNK] ( RingoStarr ) [UNK] [UNK] 成就 [UNK], [UNK] [UNK] 意 [UNK] 。 [UNK] 隆重 其事, 大会 [UNK] 金 像 影 后 [UNK] [UNK] [UNK] [UNK] 茨 ( JuliaRoberts ) [UNK] 介 [UNK] 二 人出 [UNK], 保 [UNK] 拍 [UNK] 鼓 声 和 [UNK], 先 献唱 新 歌 《 QueenieEye 》, 然 后 [UNK] 后 者 [UNK] 旧作 《 Photograph 》, [UNK] 歌 迷重 温 昔日 的 美好 情 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "insert text[4:4] --> decoded_text[6:7] '' --> ' '", + "replace text[5:7] --> decoded_text[8:15] '电据' --> ' [UNK] '", + "insert text[9:9] --> decoded_text[17:18] '' --> ' '", + "insert text[10:10] --> decoded_text[19:20] '' --> ' '", + "replace text[11:12] --> decoded_text[21:28] '报' --> ' [UNK] '", + "insert text[13:13] --> decoded_text[29:30] '' --> ' '", + "replace text[15:16] --> decoded_text[32:34] ',' --> ', '", + "replace text[17:21] --> decoded_text[35:48] '庆祝披头' --> ' [UNK] [UNK] '", + "replace text[22:24] --> decoded_text[49:56] '进军' --> ' [UNK] '", + "insert text[26:26] --> decoded_text[58:59] '' --> ' '", + "replace text[27:30] --> decoded_text[60:73] '乐市场' --> ' [UNK] [UNK] '", + "insert text[32:32] --> decoded_text[75:76] '' --> ' '", + "insert text[34:34] --> decoded_text[78:79] '' --> ' '", + "replace text[35:37] --> decoded_text[80:87] '纪念' --> ' [UNK] '", + "replace text[39:40] --> decoded_text[89:91] ',' --> ', '", + "replace text[41:43] --> decoded_text[92:99] '莱美' --> ' [UNK] '", + "replace text[44:48] --> decoded_text[100:113] '两名仅存' --> ' [UNK] [UNK] '", + "replace text[49:51] --> decoded_text[114:123] '员:' --> ' [UNK] : '", + "replace text[52:58] --> decoded_text[124:143] '罗麦卡尼及灵' --> ' [UNK] [UNK] [UNK] '", + "insert text[59:59] --> decoded_text[144:145] '' --> ' '", + "replace text[60:61] --> decoded_text[146:153] '达' --> ' [UNK] '", + "insert text[62:62] --> decoded_text[154:155] '' --> ' '", + "insert text[72:72] --> decoded_text[165:166] '' --> ' '", + "replace text[73:77] --> decoded_text[167:180] '颁发终身' --> ' [UNK] [UNK] '", + "replace text[79:85] --> decoded_text[182:202] '奖,显得别具' --> ' [UNK], [UNK] [UNK] '", + "replace text[86:87] --> decoded_text[203:210] '义' --> ' [UNK] '", + "replace text[88:90] --> decoded_text[211:218] '为了' --> ' [UNK] '", + "insert text[92:92] --> decoded_text[220:221] '' --> ' '", + "replace text[94:95] --> decoded_text[223:225] ',' --> ', '", + "replace text[97:99] --> decoded_text[227:234] '请来' --> ' [UNK] '", + "insert text[100:100] --> decoded_text[235:236] '' --> ' '", + "insert text[101:101] --> decoded_text[237:238] '' --> ' '", + "insert text[102:102] --> decoded_text[239:240] '' --> ' '", + "replace text[103:110] --> decoded_text[241:266] '茱莉亚••罗伯' --> ' [UNK] [UNK] [UNK] [UNK] '", + "insert text[111:111] --> decoded_text[267:268] '' --> ' '", + "insert text[112:112] --> decoded_text[269:270] '' --> ' '", + "insert text[124:124] --> decoded_text[282:283] '' --> ' '", + "replace text[125:127] --> decoded_text[284:291] '负责' --> ' [UNK] '", + "replace text[128:129] --> decoded_text[292:299] '绍' --> ' [UNK] '", + "insert text[130:130] --> decoded_text[300:301] '' --> ' '", + "replace text[132:134] --> decoded_text[303:311] '场,' --> ' [UNK], '", + "replace text[135:137] --> decoded_text[312:319] '罗在' --> ' [UNK] '", + "replace text[138:140] --> decoded_text[320:327] '档的' --> ' [UNK] '", + "insert text[141:141] --> decoded_text[328:329] '' --> ' '", + "insert text[142:142] --> decoded_text[330:331] '' --> ' '", + "replace text[143:146] --> decoded_text[332:340] '应下,' --> ' [UNK], '", + "insert text[147:147] --> decoded_text[341:342] '' --> ' '", + "insert text[149:149] --> decoded_text[344:345] '' --> ' '", + "insert text[150:150] --> decoded_text[346:347] '' --> ' '", + "insert text[151:151] --> decoded_text[348:349] '' --> ' '", + "insert text[152:152] --> decoded_text[350:351] '' --> ' '", + "insert text[162:162] --> decoded_text[361:362] '' --> ' '", + "replace text[163:164] --> decoded_text[363:365] ',' --> ', '", + "insert text[165:165] --> decoded_text[366:367] '' --> ' '", + "replace text[166:168] --> decoded_text[368:375] '轮到' --> ' [UNK] '", + "insert text[169:169] --> decoded_text[376:377] '' --> ' '", + "replace text[170:172] --> decoded_text[378:385] '演绎' --> ' [UNK] '", + "insert text[174:174] --> decoded_text[387:388] '' --> ' '", + "insert text[175:175] --> decoded_text[389:390] '' --> ' '", + "insert text[185:185] --> decoded_text[400:401] '' --> ' '", + "replace text[186:189] --> decoded_text[402:410] ',带领' --> ', [UNK] '", + "insert text[190:190] --> decoded_text[411:412] '' --> ' '", + "insert text[192:192] --> decoded_text[414:415] '' --> ' '", + "insert text[193:193] --> decoded_text[416:417] '' --> ' '", + "insert text[195:195] --> decoded_text[419:420] '' --> ' '", + "insert text[196:196] --> decoded_text[421:422] '' --> ' '", + "insert text[198:198] --> decoded_text[424:425] '' --> ' '", + "replace text[199:200] --> decoded_text[426:433] '怀' --> ' [UNK] '" + ], + "n_oov_chars": 53, + "oov_ratio": 0.263681592039801, + "oov_charset": "[\"电\", \"报\", \",\", \"庆\", \"披\", \"头\", \"进\", \"军\", \"乐\", \"场\", \"纪\", \"莱\", \"两\", \"仅\", \"员\", \":\", \"罗\", \"卡\", \"灵\", \"达\", \"颁\", \"发\", \"终\", \"奖\", \"显\", \"别\", \"义\", \"为\", \"请\", \"茱\", \"亚\", \"•\", \"负\", \"责\", \"绍\", \"档\", \"应\", \"轮\", \"绎\", \"带\", \"领\", \"怀\"]" + }, + { + "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。", + "decoded_text": "佛 牌 [UNK] 里 有 [UNK] [UNK] 目的 地 后, [UNK] 全 程 的 [UNK] [UNK] 14 元, 但 司 机 到 [UNK] 21 元, 因 此, 司 机 [UNK] 者 7 元, 除去 之 前 支付 的 1 元, [UNK] [UNK] 6 元, [UNK] [UNK] 了 本 [UNK] 付 14 元 的 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:10] '绳哪' --> ' [UNK] '", + "insert text[5:5] --> decoded_text[11:12] '' --> ' '", + "replace text[6:9] --> decoded_text[13:26] '卖到达' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[28:29] '' --> ' '", + "insert text[12:12] --> decoded_text[30:31] '' --> ' '", + "replace text[13:16] --> decoded_text[32:40] ',记者' --> ', [UNK] '", + "insert text[17:17] --> decoded_text[41:42] '' --> ' '", + "insert text[18:18] --> decoded_text[43:44] '' --> ' '", + "replace text[19:23] --> decoded_text[45:58] '总车费是' --> ' [UNK] [UNK] '", + "insert text[25:25] --> decoded_text[60:61] '' --> ' '", + "replace text[26:27] --> decoded_text[62:64] ',' --> ', '", + "insert text[28:28] --> decoded_text[65:66] '' --> ' '", + "insert text[29:29] --> decoded_text[67:68] '' --> ' '", + "insert text[30:30] --> decoded_text[69:70] '' --> ' '", + "replace text[31:32] --> decoded_text[71:78] '账' --> ' [UNK] '", + "insert text[34:34] --> decoded_text[80:81] '' --> ' '", + "replace text[35:36] --> decoded_text[82:84] ',' --> ', '", + "insert text[37:37] --> decoded_text[85:86] '' --> ' '", + "replace text[38:39] --> decoded_text[87:89] ',' --> ', '", + "insert text[40:40] --> decoded_text[90:91] '' --> ' '", + "replace text[41:43] --> decoded_text[92:99] '给记' --> ' [UNK] '", + "insert text[44:44] --> decoded_text[100:101] '' --> ' '", + "insert text[45:45] --> decoded_text[102:103] '' --> ' '", + "replace text[46:47] --> decoded_text[104:106] ',' --> ', '", + "insert text[49:49] --> decoded_text[108:109] '' --> ' '", + "insert text[50:50] --> decoded_text[110:111] '' --> ' '", + "insert text[51:51] --> decoded_text[112:113] '' --> ' '", + "insert text[53:53] --> decoded_text[115:116] '' --> ' '", + "insert text[54:54] --> decoded_text[117:118] '' --> ' '", + "insert text[55:55] --> decoded_text[119:120] '' --> ' '", + "replace text[56:61] --> decoded_text[121:135] ',记者净赚' --> ', [UNK] [UNK] '", + "insert text[62:62] --> decoded_text[136:137] '' --> ' '", + "replace text[63:68] --> decoded_text[138:152] ',还免费乘' --> ', [UNK] [UNK] '", + "insert text[69:69] --> decoded_text[153:154] '' --> ' '", + "replace text[70:72] --> decoded_text[155:162] '应支' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[163:164] '' --> ' '", + "insert text[75:75] --> decoded_text[166:167] '' --> ' '", + "insert text[76:76] --> decoded_text[168:169] '' --> ' '", + "replace text[77:78] --> decoded_text[170:177] '车' --> ' [UNK] '" + ], + "n_oov_chars": 26, + "oov_ratio": 0.3291139240506329, + "oov_charset": "[\"绳\", \"哪\", \"卖\", \"达\", \",\", \"记\", \"总\", \"车\", \"费\", \"账\", \"给\", \"净\", \"赚\", \"还\", \"乘\", \"应\"]" + }, + { + "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)", + "decoded_text": "[UNK] ・ 斯利 [UNK] 2012 年 加入 塔 塔 [UNK] 公司 担任 [UNK] 理 一 [UNK], [UNK] [UNK] 公司 在 印度 及国 [UNK] [UNK] 除 捷 豹 和 路 虎 以外 的 [UNK] 。 [UNK] 斯坦 福 大学 的 [UNK] 生, 曾任 通用 [UNK] 在 中国 合 [UNK] 公司 的 副 [UNK], 上 汽 通用 [UNK] 。( 方 [UNK] )", + "diff": [ + "replace text[0:2] --> decoded_text[0:6] '卡尔' --> '[UNK] '", + "insert text[3:3] --> decoded_text[7:8] '' --> ' '", + "replace text[5:7] --> decoded_text[10:17] '姆于' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[21:22] '' --> ' '", + "insert text[12:12] --> decoded_text[23:24] '' --> ' '", + "insert text[14:14] --> decoded_text[26:27] '' --> ' '", + "insert text[15:15] --> decoded_text[28:29] '' --> ' '", + "replace text[16:18] --> decoded_text[30:37] '汽车' --> ' [UNK] '", + "insert text[20:20] --> decoded_text[39:40] '' --> ' '", + "replace text[22:24] --> decoded_text[42:49] '总经' --> ' [UNK] '", + "insert text[25:25] --> decoded_text[50:51] '' --> ' '", + "replace text[26:31] --> decoded_text[52:72] '职,并负责' --> ' [UNK], [UNK] [UNK] '", + "insert text[33:33] --> decoded_text[74:75] '' --> ' '", + "insert text[34:34] --> decoded_text[76:77] '' --> ' '", + "insert text[36:36] --> decoded_text[79:80] '' --> ' '", + "replace text[38:42] --> decoded_text[82:95] '际市场上' --> ' [UNK] [UNK] '", + "insert text[43:43] --> decoded_text[96:97] '' --> ' '", + "insert text[44:44] --> decoded_text[98:99] '' --> ' '", + "insert text[45:45] --> decoded_text[100:101] '' --> ' '", + "insert text[46:46] --> decoded_text[102:103] '' --> ' '", + "insert text[47:47] --> decoded_text[104:105] '' --> ' '", + "insert text[48:48] --> decoded_text[106:107] '' --> ' '", + "insert text[50:50] --> decoded_text[109:110] '' --> ' '", + "replace text[51:53] --> decoded_text[111:118] '业务' --> ' [UNK] '", + "replace text[54:56] --> decoded_text[119:126] '这位' --> ' [UNK] '", + "insert text[58:58] --> decoded_text[128:129] '' --> ' '", + "insert text[59:59] --> decoded_text[130:131] '' --> ' '", + "insert text[61:61] --> decoded_text[133:134] '' --> ' '", + "replace text[62:64] --> decoded_text[135:142] '毕业' --> ' [UNK] '", + "replace text[65:66] --> decoded_text[143:145] ',' --> ', '", + "insert text[68:68] --> decoded_text[147:148] '' --> ' '", + "replace text[70:72] --> decoded_text[150:157] '汽车' --> ' [UNK] '", + "insert text[73:73] --> decoded_text[158:159] '' --> ' '", + "insert text[75:75] --> decoded_text[161:162] '' --> ' '", + "replace text[76:77] --> decoded_text[163:170] '资' --> ' [UNK] '", + "insert text[79:79] --> decoded_text[172:173] '' --> ' '", + "insert text[80:80] --> decoded_text[174:175] '' --> ' '", + "replace text[81:84] --> decoded_text[176:184] '总裁,' --> ' [UNK], '", + "insert text[85:85] --> decoded_text[185:186] '' --> ' '", + "insert text[86:86] --> decoded_text[187:188] '' --> ' '", + "replace text[88:109] --> decoded_text[190:197] '五菱公司的副总裁以及通用汽车印度公司的总裁' --> ' [UNK] '", + "insert text[111:111] --> decoded_text[199:200] '' --> ' '", + "replace text[112:114] --> decoded_text[201:208] '赵春' --> ' [UNK] '" + ], + "n_oov_chars": 27, + "oov_ratio": 0.23478260869565218, + "oov_charset": "[\"卡\", \"尔\", \"姆\", \"车\", \"总\", \"经\", \"职\", \",\", \"并\", \"负\", \"责\", \"际\", \"场\", \"业\", \"务\", \"这\", \"毕\", \"资\", \"赵\"]" + }, + { + "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。", + "decoded_text": "大 腕 [UNK] 不可能 [UNK] 作品 都 是 [UNK] [UNK] [UNK], 如果 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, 不 是 神, 人 就有 自己 的 [UNK] 。 他 [UNK] [UNK] 春 [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], 我 [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 走 1 号 位, [UNK] [UNK] [UNK] [UNK] 不 是?” [UNK] 是 [UNK] 。 但 因 [UNK] 非常 了解 他, 他 也不 一定 有 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "replace text[2:4] --> decoded_text[3:10] '导演' --> ' [UNK] '", + "replace text[7:9] --> decoded_text[13:20] '每部' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[22:23] '' --> ' '", + "replace text[12:20] --> decoded_text[24:46] '是你喜欢的东西,' --> ' 是 [UNK] [UNK] [UNK], '", + "replace text[22:27] --> decoded_text[48:82] '他一时控制' --> ' 他 [UNK], [UNK] 他 [UNK] 。 他 也是 人, '", + "replace text[28:41] --> decoded_text[83:89] '住情绪,就让他骂吧。他也是' --> ' 是 神, '", + "replace text[42:48] --> decoded_text[90:91] ',不是神,人' --> ' '", + "insert text[50:50] --> decoded_text[93:94] '' --> ' '", + "insert text[52:52] --> decoded_text[96:97] '' --> ' '", + "replace text[53:55] --> decoded_text[98:105] '脾气' --> ' [UNK] '", + "replace text[56:61] --> decoded_text[106:121] '他这次执导' --> ' 他 [UNK] [UNK] '", + "replace text[62:65] --> decoded_text[122:160] '晚,对' --> ' [UNK], [UNK] [UNK] [UNK] :“ 老 [UNK], '", + "replace text[66:87] --> decoded_text[161:220] '也开骂:“老毕,我跟你说了这么长时间,让你' --> ' [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] 2 号 位, [UNK] 要 '", + "replace text[88:89] --> decoded_text[221:224] '2' --> ' 1 '", + "insert text[90:90] --> decoded_text[225:226] '' --> ' '", + "replace text[91:108] --> decoded_text[227:253] ',你非要走1号位,你想跟我较死劲是' --> ', [UNK] [UNK] [UNK] [UNK] '", + "replace text[109:111] --> decoded_text[254:257] '是?' --> ' 是?'", + "replace text[112:117] --> decoded_text[258:273] '这也是骂人' --> ' [UNK] 是 [UNK] '", + "insert text[118:118] --> decoded_text[274:275] '' --> ' '", + "insert text[119:119] --> decoded_text[276:277] '' --> ' '", + "replace text[120:122] --> decoded_text[278:285] '为你' --> ' [UNK] '", + "insert text[124:124] --> decoded_text[287:288] '' --> ' '", + "replace text[126:129] --> decoded_text[290:296] '他,他' --> ' 他, 他 '", + "insert text[131:131] --> decoded_text[298:299] '' --> ' '", + "insert text[133:133] --> decoded_text[301:302] '' --> ' '", + "replace text[134:136] --> decoded_text[303:310] '恶意' --> ' [UNK] '" + ], + "n_oov_chars": 52, + "oov_ratio": 0.3795620437956204, + "oov_charset": "[\"导\", \"每\", \"你\", \"欢\", \"东\", \",\", \"时\", \"绪\", \"让\", \"骂\", \"吧\", \"脾\", \"气\", \"这\", \"执\", \"晚\", \"对\", \"开\", \":\", \"毕\", \"跟\", \"说\", \"么\", \"长\", \"间\", \"较\", \"劲\", \"?\", \"为\", \"恶\"]" + }, + { + "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。", + "decoded_text": "[UNK] [UNK] [UNK] 牌 不 [UNK] 得 多, [UNK] 也花 得 多 。 有 媒体 [UNK], 教 [UNK] 洛 斯的 年 薪 高 [UNK] 360 万 元 人民 [UNK], 李 [UNK] 年 的 花 [UNK] 600 多 万 元 。 用 [UNK], [UNK] [UNK] 一 [UNK], 将 近 2 万元就出去了 。", + "diff": [ + "replace text[0:6] --> decoded_text[0:18] '招财带什么佛' --> '[UNK] [UNK] [UNK] '", + "insert text[7:7] --> decoded_text[19:20] '' --> ' '", + "replace text[8:10] --> decoded_text[21:28] '过挣' --> ' [UNK] '", + "insert text[11:11] --> decoded_text[29:30] '' --> ' '", + "replace text[12:15] --> decoded_text[31:39] ',娜姐' --> ', [UNK] '", + "insert text[17:17] --> decoded_text[41:42] '' --> ' '", + "insert text[18:18] --> decoded_text[43:44] '' --> ' '", + "insert text[19:19] --> decoded_text[45:46] '' --> ' '", + "insert text[20:20] --> decoded_text[47:48] '' --> ' '", + "insert text[21:21] --> decoded_text[49:50] '' --> ' '", + "replace text[23:26] --> decoded_text[52:60] '报道,' --> ' [UNK], '", + "replace text[27:29] --> decoded_text[61:68] '练卡' --> ' [UNK] '", + "insert text[30:30] --> decoded_text[69:70] '' --> ' '", + "insert text[32:32] --> decoded_text[72:73] '' --> ' '", + "insert text[33:33] --> decoded_text[74:75] '' --> ' '", + "insert text[34:34] --> decoded_text[76:77] '' --> ' '", + "replace text[35:36] --> decoded_text[78:85] '达' --> ' [UNK] '", + "insert text[39:39] --> decoded_text[88:89] '' --> ' '", + "insert text[40:40] --> decoded_text[90:91] '' --> ' '", + "insert text[41:41] --> decoded_text[92:93] '' --> ' '", + "replace text[43:45] --> decoded_text[95:103] '币,' --> ' [UNK], '", + "replace text[46:48] --> decoded_text[104:111] '娜每' --> ' [UNK] '", + "insert text[49:49] --> decoded_text[112:113] '' --> ' '", + "insert text[50:50] --> decoded_text[114:115] '' --> ' '", + "replace text[51:53] --> decoded_text[116:123] '费是' --> ' [UNK] '", + "insert text[56:56] --> decoded_text[126:127] '' --> ' '", + "insert text[57:57] --> decoded_text[128:129] '' --> ' '", + "insert text[58:58] --> decoded_text[130:131] '' --> ' '", + "insert text[59:59] --> decoded_text[132:133] '' --> ' '", + "insert text[60:60] --> decoded_text[134:135] '' --> ' '", + "insert text[61:61] --> decoded_text[136:156] '' --> ' [UNK], [UNK] [UNK] '", + "replace text[62:77] --> decoded_text[157:165] '个形象的比喻,娜姐每天一睁眼,' --> ' [UNK], '", + "insert text[78:78] --> decoded_text[166:167] '' --> ' '", + "insert text[79:79] --> decoded_text[168:169] '' --> ' '", + "insert text[80:80] --> decoded_text[170:171] '' --> ' '", + "insert text[86:86] --> decoded_text[177:178] '' --> ' '" + ], + "n_oov_chars": 27, + "oov_ratio": 0.3103448275862069, + "oov_charset": "[\"财\", \"带\", \"什\", \"么\", \"过\", \"挣\", \",\", \"娜\", \"姐\", \"报\", \"练\", \"卡\", \"达\", \"币\", \"每\", \"费\", \"个\", \"喻\", \"睁\"]" + }, + { + "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。", + "decoded_text": "“ 金 庸 的 小 [UNK] 《 [UNK] [UNK] 》 里 有 一 [UNK] 派 人物 [UNK] 血刀 老 祖 ’, [UNK], 但 是 [UNK] 人物 却做 得心 安 理 得, 理 直 [UNK], 我 [UNK] 到 的 [UNK] 的 [UNK] 是 [UNK] 。 ” 王 先生 向 [UNK] 描述 [UNK] [UNK] [UNK] 。 原 来, 昨日 王 先生 在 搭出 [UNK] [UNK], [UNK] 到 的 的 [UNK] [UNK] “ 拾 金 [UNK] ”, [UNK] “ [UNK] ” 得 理 直 [UNK] 。", + "diff": [ + "insert text[1:1] --> decoded_text[1:2] '' --> ' '", + "insert text[2:2] --> decoded_text[3:4] '' --> ' '", + "replace text[3:4] --> decoded_text[5:8] '的' --> ' 的 '", + "replace text[5:6] --> decoded_text[9:16] '说' --> ' [UNK] '", + "replace text[7:10] --> decoded_text[17:30] '连城诀' --> ' [UNK] [UNK] '", + "insert text[11:11] --> decoded_text[31:32] '' --> ' '", + "insert text[12:12] --> decoded_text[33:34] '' --> ' '", + "insert text[13:13] --> decoded_text[35:36] '' --> ' '", + "replace text[14:16] --> decoded_text[37:44] '个反' --> ' [UNK] '", + "insert text[17:17] --> decoded_text[45:46] '' --> ' '", + "replace text[19:20] --> decoded_text[48:55] '‘' --> ' [UNK] '", + "insert text[22:22] --> decoded_text[57:58] '' --> ' '", + "insert text[23:23] --> decoded_text[59:60] '' --> ' '", + "insert text[24:24] --> decoded_text[61:62] '' --> ' '", + "replace text[25:35] --> decoded_text[63:74] ',一般的坏人做坏事都' --> ', [UNK], 但 '", + "replace text[36:44] --> decoded_text[75:82] '心虚的,但是这个' --> ' [UNK] '", + "insert text[46:46] --> decoded_text[84:85] '' --> ' '", + "insert text[48:48] --> decoded_text[87:88] '' --> ' '", + "insert text[50:50] --> decoded_text[90:91] '' --> ' '", + "insert text[51:51] --> decoded_text[92:93] '' --> ' '", + "insert text[52:52] --> decoded_text[94:95] '' --> ' '", + "replace text[53:54] --> decoded_text[96:98] ',' --> ', '", + "insert text[55:55] --> decoded_text[99:100] '' --> ' '", + "replace text[56:59] --> decoded_text[101:109] '气壮,' --> ' [UNK], '", + "replace text[60:61] --> decoded_text[110:117] '遇' --> ' [UNK] '", + "replace text[62:68] --> decoded_text[118:135] '的这个的哥就' --> ' 的 [UNK] 的 [UNK] '", + "replace text[69:71] --> decoded_text[136:143] '这样' --> ' [UNK] '", + "insert text[72:72] --> decoded_text[144:145] '' --> ' '", + "insert text[73:73] --> decoded_text[146:147] '' --> ' '", + "insert text[74:74] --> decoded_text[148:149] '' --> ' '", + "insert text[76:76] --> decoded_text[151:152] '' --> ' '", + "replace text[77:79] --> decoded_text[153:160] '记者' --> ' [UNK] '", + "replace text[81:92] --> decoded_text[162:181] '经过时第一句话便这样说' --> ' [UNK] [UNK] [UNK] '", + "insert text[93:93] --> decoded_text[182:183] '' --> ' '", + "insert text[94:94] --> decoded_text[184:185] '' --> ' '", + "replace text[95:96] --> decoded_text[186:188] ',' --> ', '", + "insert text[98:98] --> decoded_text[190:191] '' --> ' '", + "insert text[99:99] --> decoded_text[192:193] '' --> ' '", + "insert text[101:101] --> decoded_text[195:196] '' --> ' '", + "insert text[102:102] --> decoded_text[197:198] '' --> ' '", + "replace text[104:109] --> decoded_text[200:220] '租车时,遇' --> ' [UNK] [UNK], [UNK] '", + "replace text[110:115] --> decoded_text[221:238] '的的哥不仅' --> ' 的 的 [UNK] [UNK] '", + "insert text[116:116] --> decoded_text[239:240] '' --> ' '", + "insert text[117:117] --> decoded_text[241:242] '' --> ' '", + "replace text[118:120] --> decoded_text[243:250] '而昧' --> ' [UNK] '", + "replace text[121:123] --> decoded_text[251:259] ',还' --> ', [UNK] '", + "replace text[124:125] --> decoded_text[260:267] '昧' --> ' [UNK] '", + "insert text[126:126] --> decoded_text[268:269] '' --> ' '", + "insert text[127:127] --> decoded_text[270:271] '' --> ' '", + "insert text[128:128] --> decoded_text[272:273] '' --> ' '", + "replace text[129:131] --> decoded_text[274:281] '气壮' --> ' [UNK] '" + ], + "n_oov_chars": 41, + "oov_ratio": 0.3106060606060606, + "oov_charset": "[\"说\", \"连\", \"诀\", \"个\", \"‘\", \",\", \"坏\", \"这\", \"气\", \"遇\", \"哥\", \"样\", \"记\", \"经\", \"过\", \"时\", \"话\", \"车\", \"仅\", \"而\", \"昧\", \"还\"]" + } +] \ No newline at end of file diff --git a/vocab.py b/vocab.py index 537240af52a31bd3da053347aecc9f99b3fbfd09..bf6004af33e13e914b33c5e853c7a5d3433a9981 100644 --- a/vocab.py +++ b/vocab.py @@ -419,6 +419,8 @@ class TokenizerFactory: def load_tokenizer(self, tokenizer_config): + if tokenizer_config == None: + print("dd") logger.info(f"loading tokenizer {tokenizer_config.name_or_path}") if tokenizer_config.impl == TokenizerImpl.TikToken and "openai" in tokenizer_config.name_or_path: tokenizer = tiktoken.encoding_for_model(tokenizer_config.name_or_path.replace("openai/", ""))