diff --git a/app.py b/app.py
index 5400855372dbf72624af91516f62982a5197889c..b543d610cdb601e34e55c2cf61bf52ad044e366f 100644
--- a/app.py
+++ b/app.py
@@ -16,6 +16,9 @@ title = '
Tokenizer Arena ⚔️
'
interface_list = [playground_tab, compression_tab, character_tab]
tab_names = [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"]
+# interface_list = [compression_tab, character_tab]
+# tab_names = ["🏆 Compression Leaderboard", "📊 Character Statistics"]
+
with gr.Blocks(css="css/style.css", js="js/onload.js") as demo:
gr.HTML(
f"{title}
"
@@ -25,12 +28,12 @@ with gr.Blocks(css="css/style.css", js="js/onload.js") as demo:
with gr.Tab(label=tab_name):
interface.render()
- model_name = gr.Textbox(
- placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...",
- show_label=False,
- )
-
- model_name.submit()
+ # model_name = gr.Textbox(
+ # placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...",
+ # show_label=False,
+ # )
+ #
+ # model_name.submit()
# demo.load(js=open("js/onload.js", "r", encoding="utf-8").read())
diff --git a/compression_app.py b/compression_app.py
index 0f1b531779ef8a259ce743af51a503f719f3572c..0e88c4c25a375397d963728d2bf4d4f8cd09025e 100644
--- a/compression_app.py
+++ b/compression_app.py
@@ -37,9 +37,9 @@ The encoding and decoding process can be formulated as
- **Lossless**
Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`.
- - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-casedcc100.zh-Hans.diff.json).
+ - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-cased%20@%20cc100.zh-Hans.diff.json).
- Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338),
- which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.jsonn) to the reconstructed text.
+ which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.json) to the reconstructed text.
- **Compression Rate**
There are mainly two types of metric to represent the `input_text`:
@@ -49,8 +49,6 @@ There are mainly two types of metric to represent the `input_text`:
To evaluate compression rate, simple metrics can be "how many bytes per token" or "how many chars per token".
In this leaderboard, we adopt more frequently used metric: "how many billion tokens per gigabytes corpus" and "how many chars
per token", i.e. `b_tokens/g_bytes` and `char/token`.
-
-
💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions)
"""
diff --git a/playground_app.py b/playground_app.py
index 24734faadad77e087c044542a64758a0ff019d8f..ef0a68ffc3b952e924d6ec9a6b8d5545a8af9e70 100644
--- a/playground_app.py
+++ b/playground_app.py
@@ -5,10 +5,10 @@
import gradio as gr
from vocab import tokenizer_factory
from playground_examples import example_types, example_fn
-from playground_util import tokenize, tokenize_pair, basic_count, get_overlap_token_size, on_load
-
-
-
+from playground_util import (tokenize,
+ tokenize_pair, basic_count,
+ get_overlap_token_size, on_load,
+ default_user_input, default_tokenizer_name_1, default_tokenizer_name_2)
get_window_url_params = """
function(url_params) {
@@ -39,7 +39,7 @@ with gr.Blocks() as demo:
elem_classes="example-style"
)
user_input = gr.Textbox(
- # value=default_user_input,
+ value=default_user_input,
label="Input Text",
lines=5,
show_label=False,
@@ -77,6 +77,7 @@ with gr.Blocks() as demo:
tokenizer_name_1 = gr.Dropdown(
all_tokenizer_name,
label="Tokenizer 1",
+ value=default_tokenizer_name_1,
)
with gr.Group():
with gr.Row():
@@ -120,6 +121,7 @@ with gr.Blocks() as demo:
tokenizer_name_2 = gr.Dropdown(
all_tokenizer_name,
label="Tokenizer 2",
+ value=default_tokenizer_name_2
)
with gr.Group():
with gr.Row():
diff --git a/stats/character_stats.json b/stats/character_stats.json
index ff3182f55ef1c220eec1dca5650eb79a07600986..57f570124e6247d523cd715149e9111344792136 100644
--- a/stats/character_stats.json
+++ b/stats/character_stats.json
@@ -1784,5 +1784,24 @@
"len(ja-kana)": "1,1,3",
"num(ko)": 0,
"len(ko)": "-"
+ },
+ "rinna/bilingual-gpt-neox-4b": {
+ "tokenizer": "bilingual-gpt-neox-4b",
+ "organization": "ABEJA",
+ "vocab_size": 65536,
+ "num(digit)": 266,
+ "len(digit)": "1,6,6",
+ "num(space)": 3,
+ "len(space)": "1,1,1",
+ "num(ar)": 108,
+ "len(ar)": "1,1,4",
+ "num(zh)": 30158,
+ "len(zh)": "1,2,16",
+ "num(ja)": 40298,
+ "len(ja)": "1,3,16",
+ "num(ja-kana)": 21366,
+ "len(ja-kana)": "1,4,16",
+ "num(ko)": 384,
+ "len(ko)": "1,1,1"
}
}
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..ee3d4e568b6ab2b64676d3aa0b54aadaaa6b0735
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "diff": [
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
+ "diff": [
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
+ "diff": [
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
+ "diff": [
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
+ "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
+ "diff": [
+ "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.07017543859649122,
+ "oov_charset": "[\"C\", \"N\", \"B\"]"
+ },
+ {
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
+ "diff": [
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
+ "diff": [
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..bfe135345762a72aa875f0a4df2a6674aace192a
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json
@@ -0,0 +1,194 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.",
+ "diff": [
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
+ "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'",
+ "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'",
+ "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'",
+ "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'",
+ "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'",
+ "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'",
+ "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'",
+ "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
+ "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'",
+ "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
+ "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'",
+ "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'"
+ ],
+ "n_oov_chars": 20,
+ "oov_ratio": 0.07142857142857142,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
+ "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'",
+ "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.0759493670886076,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
+ "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'",
+ "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'",
+ "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.05825242718446602,
+ "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.08,
+ "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
+ "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'",
+ "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'",
+ "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'",
+ "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'",
+ "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'",
+ "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'",
+ "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'",
+ "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'",
+ "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'",
+ "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'",
+ "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
+ "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'",
+ "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'",
+ "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.048672566371681415,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
+ "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'",
+ "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'",
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
+ "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'",
+ "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'",
+ "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'",
+ "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.04072398190045249,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.",
+ "diff": [
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
+ "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''",
+ "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'",
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
+ "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'",
+ "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'",
+ "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'",
+ "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'",
+ "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'",
+ "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
+ "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'",
+ "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.043478260869565216,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.042328042328042326,
+ "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);",
+ "diff": [
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
+ "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'",
+ "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'",
+ "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'",
+ "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'",
+ "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'",
+ "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'",
+ "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'",
+ "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'"
+ ],
+ "n_oov_chars": 11,
+ "oov_ratio": 0.05789473684210526,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..9b5cb271c356e920aa35eb5479e3f245e6933bf8
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json
@@ -0,0 +1,123 @@
+[
+ {
+ "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
+ "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.",
+ "diff": [
+ "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'",
+ "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'",
+ "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'",
+ "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.03076923076923077,
+ "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]"
+ },
+ {
+ "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
+ "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
+ "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'",
+ "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'",
+ "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'",
+ "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.034482758620689655,
+ "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]"
+ },
+ {
+ "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
+ "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'",
+ "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'",
+ "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'",
+ "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.012853470437017995,
+ "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]"
+ },
+ {
+ "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
+ "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'",
+ "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.016666666666666666,
+ "oov_charset": "[\"S\", \"V\", \"I\"]"
+ },
+ {
+ "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
+ "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
+ "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.013245033112582781,
+ "oov_charset": "[\"A\", \"F\"]"
+ },
+ {
+ "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
+ "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
+ "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'",
+ "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.024390243902439025,
+ "oov_charset": "[\"W\", \"S\", \"F\"]"
+ },
+ {
+ "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
+ "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.008438818565400843,
+ "oov_charset": "[\"S\", \"Y\"]"
+ },
+ {
+ "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
+ "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:",
+ "diff": [
+ "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '",
+ "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'",
+ "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'",
+ "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'",
+ "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.02912621359223301,
+ "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]"
+ },
+ {
+ "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
+ "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'",
+ "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05785123966942149,
+ "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]"
+ },
+ {
+ "text": "Watch for signs of dehydration!",
+ "decoded_text": "watch for signs of dehydration!",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.03225806451612903,
+ "oov_charset": "[\"W\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..44e93d8908c5476ead5dec923971e2a331ec8cf1
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json
@@ -0,0 +1,114 @@
+[
+ {
+ "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
+ "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'",
+ "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'",
+ "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'",
+ "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.026785714285714284,
+ "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]"
+ },
+ {
+ "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
+ "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01282051282051282,
+ "oov_charset": "[\"H\"]"
+ },
+ {
+ "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
+ "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
+ "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'",
+ "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.022222222222222223,
+ "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
+ },
+ {
+ "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
+ "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
+ "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
+ "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
+ "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.026881720430107527,
+ "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]"
+ },
+ {
+ "text": "1. El período de vacaciones anuales retribuidas, no sustituible",
+ "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015873015873015872,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
+ "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
+ "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.031746031746031744,
+ "oov_charset": "[\"A\", \"L\"]"
+ },
+ {
+ "text": "2. El período o períodos de su disfrute se fijará de común",
+ "decoded_text": "2. el período o períodos de su disfrute se fijará de común",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.017241379310344827,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "con lo establecido en su caso en los Convenios Colectivos",
+ "decoded_text": "con lo establecido en su caso en los convenios colectivos",
+ "diff": [
+ "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
+ "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03508771929824561,
+ "oov_charset": "[\"C\"]"
+ },
+ {
+ "text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
+ "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015151515151515152,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican",
+ "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
+ "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03333333333333333,
+ "oov_charset": "[\"A\", \"L\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..e1235ed709db31f4e825ca2a1bac712f90a377ea
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "آشپزخانه کوچک من: february 2012",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.03225806451612903,
+ "oov_charset": "[\"F\"]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest",
+ "diff": [
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
+ "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'",
+ "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.022900763358778626,
+ "oov_charset": "[\"T\", \"F\", \"P\"]"
+ },
+ {
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "diff": [
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
+ "diff": [
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "diff": [
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "diff": [
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
+ "diff": [
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
+ "diff": [
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
+ "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.007751937984496124,
+ "oov_charset": "[\"B\"]"
+ },
+ {
+ "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
+ "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.011764705882352941,
+ "oov_charset": "[\"V\"]"
+ },
+ {
+ "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
+ "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.014705882352941176,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
+ "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.004098360655737705,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
+ "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.008547008547008548,
+ "oov_charset": "[\"J\", \"P\"]"
+ },
+ {
+ "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
+ "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.010416666666666666,
+ "oov_charset": "[\"J\", \"E\"]"
+ },
+ {
+ "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée",
+ "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.012738853503184714,
+ "oov_charset": "[\"J\", \"I\"]"
+ },
+ {
+ "text": "- Je dois être mentalement instable, par moments",
+ "decoded_text": "- je dois être mentalement instable, par moments",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.020833333333333332,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- Je n'envoie que très peu de sms et n'appelle personne",
+ "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01818181818181818,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
+ "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.006711409395973154,
+ "oov_charset": "[\"J\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "diff": [
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02702702702702703,
+ "oov_charset": "[\"!\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02040816326530612,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "diff": [
+ "replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
+ "replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03125,
+ "oov_charset": "[\"5\", \"1\"]"
+ },
+ {
+ "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
+ "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
+ "diff": [
+ "replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.024096385542168676,
+ "oov_charset": "[\"…\"]"
+ },
+ {
+ "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
+ "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
+ "diff": [
+ "replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.029411764705882353,
+ "oov_charset": "[\"…\"]"
+ },
+ {
+ "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
+ "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015384615384615385,
+ "oov_charset": "[\"!\"]"
+ },
+ {
+ "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
+ "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.029411764705882353,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
+ "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
+ "diff": [
+ "replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.023809523809523808,
+ "oov_charset": "[\"?\"]"
+ },
+ {
+ "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
+ "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.024390243902439025,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
+ "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
+ "diff": [
+ "replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015384615384615385,
+ "oov_charset": "[\"?\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..47bd971103cce3b4ca2d2f400e64eaa54e7c507f
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json
@@ -0,0 +1,111 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ home > 라이브스코어",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.26666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "diff": [
+ "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'",
+ "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'",
+ "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'",
+ "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'",
+ "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'",
+ "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.05405405405405406,
+ "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]"
+ },
+ {
+ "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.",
+ "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.",
+ "diff": [
+ "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.03,
+ "oov_charset": "[\"E\", \"P\", \"L\"]"
+ },
+ {
+ "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
+ "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
+ "diff": [
+ "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.009345794392523364,
+ "oov_charset": "[\"N\"]"
+ },
+ {
+ "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
+ "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
+ "diff": [
+ "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.04807692307692308,
+ "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]"
+ },
+ {
+ "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
+ "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
+ "diff": [
+ "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.04878048780487805,
+ "oov_charset": "[\"A\", \"G\"]"
+ },
+ {
+ "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
+ "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
+ "diff": [
+ "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.021739130434782608,
+ "oov_charset": "[\"P\", \"O\"]"
+ },
+ {
+ "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.",
+ "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.",
+ "diff": [
+ "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'",
+ "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.05128205128205128,
+ "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]"
+ },
+ {
+ "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
+ "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'",
+ "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'",
+ "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.024193548387096774,
+ "oov_charset": "[\"A\", \"C\", \"D\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json
@@ -0,0 +1,163 @@
+[
+ {
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
+ "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
+ "diff": [
+ "replace text[57:58] --> decoded_text[57:58] ',' --> ','",
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
+ "replace text[113:114] --> decoded_text[113:114] ',' --> ','",
+ "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'",
+ "replace text[136:137] --> decoded_text[136:137] ',' --> ','",
+ "replace text[148:149] --> decoded_text[148:149] ',' --> ','",
+ "replace text[168:169] --> decoded_text[168:169] ',' --> ','",
+ "replace text[183:184] --> decoded_text[183:184] ',' --> ','",
+ "replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.04205607476635514,
+ "oov_charset": "[\",\", \"S\", \":\"]"
+ },
+ {
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
+ "diff": [
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.04838709677419355,
+ "oov_charset": "[\",\", \"3\", \"5\"]"
+ },
+ {
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
+ "diff": [
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.0375,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
+ "diff": [
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.038461538461538464,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。",
+ "diff": [
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
+ "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'",
+ "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'",
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
+ "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'",
+ "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'",
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
+ "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'",
+ "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'",
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
+ "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'",
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 0.07960199004975124,
+ "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]"
+ },
+ {
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
+ "diff": [
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.08860759493670886,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
+ "diff": [
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.02608695652173913,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
+ "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
+ "diff": [
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
+ ],
+ "n_oov_chars": 12,
+ "oov_ratio": 0.08759124087591241,
+ "oov_charset": "[\",\", \":\", \"?\"]"
+ },
+ {
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
+ "diff": [
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.05747126436781609,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
+ "diff": [
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05303030303030303,
+ "oov_charset": "[\",\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..ee3d4e568b6ab2b64676d3aa0b54aadaaa6b0735
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "diff": [
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
+ "diff": [
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
+ "diff": [
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
+ "diff": [
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
+ "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
+ "diff": [
+ "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.07017543859649122,
+ "oov_charset": "[\"C\", \"N\", \"B\"]"
+ },
+ {
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
+ "diff": [
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
+ "diff": [
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..bfe135345762a72aa875f0a4df2a6674aace192a
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json
@@ -0,0 +1,194 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.",
+ "diff": [
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
+ "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'",
+ "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'",
+ "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'",
+ "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'",
+ "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'",
+ "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'",
+ "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'",
+ "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
+ "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'",
+ "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
+ "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'",
+ "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'"
+ ],
+ "n_oov_chars": 20,
+ "oov_ratio": 0.07142857142857142,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
+ "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'",
+ "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.0759493670886076,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
+ "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'",
+ "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'",
+ "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.05825242718446602,
+ "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.08,
+ "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
+ "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'",
+ "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'",
+ "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'",
+ "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'",
+ "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'",
+ "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'",
+ "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'",
+ "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'",
+ "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'",
+ "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'",
+ "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
+ "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'",
+ "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'",
+ "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.048672566371681415,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
+ "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'",
+ "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'",
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
+ "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'",
+ "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'",
+ "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'",
+ "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.04072398190045249,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.",
+ "diff": [
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
+ "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''",
+ "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'",
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
+ "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'",
+ "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'",
+ "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'",
+ "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'",
+ "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'",
+ "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
+ "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'",
+ "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.043478260869565216,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.042328042328042326,
+ "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);",
+ "diff": [
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
+ "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'",
+ "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'",
+ "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'",
+ "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'",
+ "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'",
+ "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'",
+ "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'",
+ "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'"
+ ],
+ "n_oov_chars": 11,
+ "oov_ratio": 0.05789473684210526,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..9b5cb271c356e920aa35eb5479e3f245e6933bf8
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json
@@ -0,0 +1,123 @@
+[
+ {
+ "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
+ "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.",
+ "diff": [
+ "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'",
+ "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'",
+ "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'",
+ "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.03076923076923077,
+ "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]"
+ },
+ {
+ "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
+ "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
+ "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'",
+ "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'",
+ "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'",
+ "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.034482758620689655,
+ "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]"
+ },
+ {
+ "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
+ "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'",
+ "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'",
+ "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'",
+ "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.012853470437017995,
+ "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]"
+ },
+ {
+ "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
+ "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'",
+ "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.016666666666666666,
+ "oov_charset": "[\"S\", \"V\", \"I\"]"
+ },
+ {
+ "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
+ "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
+ "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.013245033112582781,
+ "oov_charset": "[\"A\", \"F\"]"
+ },
+ {
+ "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
+ "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
+ "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'",
+ "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.024390243902439025,
+ "oov_charset": "[\"W\", \"S\", \"F\"]"
+ },
+ {
+ "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
+ "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.008438818565400843,
+ "oov_charset": "[\"S\", \"Y\"]"
+ },
+ {
+ "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
+ "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:",
+ "diff": [
+ "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '",
+ "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'",
+ "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'",
+ "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'",
+ "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.02912621359223301,
+ "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]"
+ },
+ {
+ "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
+ "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'",
+ "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05785123966942149,
+ "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]"
+ },
+ {
+ "text": "Watch for signs of dehydration!",
+ "decoded_text": "watch for signs of dehydration!",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.03225806451612903,
+ "oov_charset": "[\"W\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..44e93d8908c5476ead5dec923971e2a331ec8cf1
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json
@@ -0,0 +1,114 @@
+[
+ {
+ "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
+ "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'",
+ "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'",
+ "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'",
+ "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.026785714285714284,
+ "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]"
+ },
+ {
+ "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
+ "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01282051282051282,
+ "oov_charset": "[\"H\"]"
+ },
+ {
+ "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
+ "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
+ "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'",
+ "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.022222222222222223,
+ "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
+ },
+ {
+ "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
+ "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
+ "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
+ "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
+ "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.026881720430107527,
+ "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]"
+ },
+ {
+ "text": "1. El período de vacaciones anuales retribuidas, no sustituible",
+ "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015873015873015872,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
+ "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
+ "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.031746031746031744,
+ "oov_charset": "[\"A\", \"L\"]"
+ },
+ {
+ "text": "2. El período o períodos de su disfrute se fijará de común",
+ "decoded_text": "2. el período o períodos de su disfrute se fijará de común",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.017241379310344827,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "con lo establecido en su caso en los Convenios Colectivos",
+ "decoded_text": "con lo establecido en su caso en los convenios colectivos",
+ "diff": [
+ "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
+ "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03508771929824561,
+ "oov_charset": "[\"C\"]"
+ },
+ {
+ "text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
+ "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015151515151515152,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican",
+ "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
+ "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03333333333333333,
+ "oov_charset": "[\"A\", \"L\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..e1235ed709db31f4e825ca2a1bac712f90a377ea
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "آشپزخانه کوچک من: february 2012",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.03225806451612903,
+ "oov_charset": "[\"F\"]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest",
+ "diff": [
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
+ "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'",
+ "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.022900763358778626,
+ "oov_charset": "[\"T\", \"F\", \"P\"]"
+ },
+ {
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "diff": [
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
+ "diff": [
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "diff": [
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "diff": [
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
+ "diff": [
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
+ "diff": [
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..a6dc29dcb3fdaf4cfae16df99b5d58f980d103e0
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
+ "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.007751937984496124,
+ "oov_charset": "[\"B\"]"
+ },
+ {
+ "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
+ "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.011764705882352941,
+ "oov_charset": "[\"V\"]"
+ },
+ {
+ "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
+ "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.014705882352941176,
+ "oov_charset": "[\"E\"]"
+ },
+ {
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
+ "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.004098360655737705,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
+ "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.008547008547008548,
+ "oov_charset": "[\"J\", \"P\"]"
+ },
+ {
+ "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
+ "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.010416666666666666,
+ "oov_charset": "[\"J\", \"E\"]"
+ },
+ {
+ "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée",
+ "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
+ "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.012738853503184714,
+ "oov_charset": "[\"J\", \"I\"]"
+ },
+ {
+ "text": "- Je dois être mentalement instable, par moments",
+ "decoded_text": "- je dois être mentalement instable, par moments",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.020833333333333332,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- Je n'envoie que très peu de sms et n'appelle personne",
+ "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01818181818181818,
+ "oov_charset": "[\"J\"]"
+ },
+ {
+ "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
+ "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.006711409395973154,
+ "oov_charset": "[\"J\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..49d174ab8bf0c1aed2ab29edc196eb3e9dafbfe8
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "diff": [
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02702702702702703,
+ "oov_charset": "[\"!\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02040816326530612,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "diff": [
+ "replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
+ "replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.03125,
+ "oov_charset": "[\"5\", \"1\"]"
+ },
+ {
+ "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
+ "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
+ "diff": [
+ "replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.024096385542168676,
+ "oov_charset": "[\"…\"]"
+ },
+ {
+ "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
+ "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
+ "diff": [
+ "replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.029411764705882353,
+ "oov_charset": "[\"…\"]"
+ },
+ {
+ "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
+ "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015384615384615385,
+ "oov_charset": "[\"!\"]"
+ },
+ {
+ "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
+ "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.029411764705882353,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
+ "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
+ "diff": [
+ "replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.023809523809523808,
+ "oov_charset": "[\"?\"]"
+ },
+ {
+ "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
+ "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.024390243902439025,
+ "oov_charset": "[\"1\"]"
+ },
+ {
+ "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
+ "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
+ "diff": [
+ "replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.015384615384615385,
+ "oov_charset": "[\"?\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..47bd971103cce3b4ca2d2f400e64eaa54e7c507f
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json
@@ -0,0 +1,111 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ home > 라이브스코어",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.26666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "diff": [
+ "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'",
+ "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'",
+ "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'",
+ "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'",
+ "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'",
+ "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.05405405405405406,
+ "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]"
+ },
+ {
+ "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.",
+ "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.",
+ "diff": [
+ "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.03,
+ "oov_charset": "[\"E\", \"P\", \"L\"]"
+ },
+ {
+ "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
+ "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
+ "diff": [
+ "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.009345794392523364,
+ "oov_charset": "[\"N\"]"
+ },
+ {
+ "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
+ "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
+ "diff": [
+ "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.04807692307692308,
+ "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]"
+ },
+ {
+ "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
+ "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
+ "diff": [
+ "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.04878048780487805,
+ "oov_charset": "[\"A\", \"G\"]"
+ },
+ {
+ "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
+ "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
+ "diff": [
+ "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.021739130434782608,
+ "oov_charset": "[\"P\", \"O\"]"
+ },
+ {
+ "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.",
+ "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.",
+ "diff": [
+ "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'",
+ "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.05128205128205128,
+ "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]"
+ },
+ {
+ "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
+ "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'",
+ "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'",
+ "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.024193548387096774,
+ "oov_charset": "[\"A\", \"C\", \"D\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..b12664611cc4c97a6c7b6f3e986bc9e1dfe9d6f0
--- /dev/null
+++ b/stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json
@@ -0,0 +1,163 @@
+[
+ {
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
+ "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
+ "diff": [
+ "replace text[57:58] --> decoded_text[57:58] ',' --> ','",
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
+ "replace text[113:114] --> decoded_text[113:114] ',' --> ','",
+ "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'",
+ "replace text[136:137] --> decoded_text[136:137] ',' --> ','",
+ "replace text[148:149] --> decoded_text[148:149] ',' --> ','",
+ "replace text[168:169] --> decoded_text[168:169] ',' --> ','",
+ "replace text[183:184] --> decoded_text[183:184] ',' --> ','",
+ "replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.04205607476635514,
+ "oov_charset": "[\",\", \"S\", \":\"]"
+ },
+ {
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
+ "diff": [
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.04838709677419355,
+ "oov_charset": "[\",\", \"3\", \"5\"]"
+ },
+ {
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
+ "diff": [
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.0375,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
+ "diff": [
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.038461538461538464,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。",
+ "diff": [
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
+ "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'",
+ "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'",
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
+ "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'",
+ "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'",
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
+ "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'",
+ "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'",
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
+ "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'",
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 0.07960199004975124,
+ "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]"
+ },
+ {
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
+ "diff": [
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.08860759493670886,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
+ "diff": [
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.02608695652173913,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
+ "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
+ "diff": [
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
+ ],
+ "n_oov_chars": 12,
+ "oov_ratio": 0.08759124087591241,
+ "oov_charset": "[\",\", \":\", \"?\"]"
+ },
+ {
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
+ "diff": [
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.05747126436781609,
+ "oov_charset": "[\",\"]"
+ },
+ {
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
+ "diff": [
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05303030303030303,
+ "oov_charset": "[\",\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..19d6c53867a33cf11a112ebbbef5852943f6481f
--- /dev/null
+++ b/stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json
@@ -0,0 +1,177 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللا / ل اللا - ا.. ( 1)",
+ "diff": [
+ "replace text[5:6] --> decoded_text[5:10] 'و' --> ''",
+ "replace text[7:8] --> decoded_text[11:16] 'ء' --> ''",
+ "replace text[11:12] --> decoded_text[19:24] 'ع' --> ''",
+ "replace text[13:14] --> decoded_text[25:30] 'ي' --> ''",
+ "replace text[15:19] --> decoded_text[31:36] 'محمد' --> ''",
+ "replace text[22:24] --> decoded_text[39:44] 'كح' --> ''",
+ "replace text[26:28] --> decoded_text[46:51] 'ني' --> ''",
+ "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> ''",
+ "replace text[37:38] --> decoded_text[60:65] 'ص' --> ''",
+ "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> ''"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.42,
+ "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "ال ا الا.. ا ا ل ا الا الا ال اا ا ال, اا الاا ال 22ا الا 1990.. ل ا اا لا لا ل ل ال اا اال اا, اا ا الاا, اا اا للاا ال لاا.. الا ل ال ال اا ل, اا اال ا ا ال ال ل الا الا 1990 اا الال ا الال ا الاا, ا ا ال ا ال ال ل ال الاا.. ا اا ال الا ا ال ا ال ال ا الا ل الل اللا ال ا ا ا اا ال , ا ل ال الا ال.. ل الا ل الا ال ال ال () ل لا ال ال ا ا ال ا ال