tokenizer-arena / stats /compression_rate /ClassCat.gpt2-base-spanish @ cc100.de.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
"decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.",
"diff": [
"replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
"replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
"replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
"replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'",
"replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'",
"replace text[80:81] --> decoded_text[80:81] 'S' --> 's'",
"replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'",
"replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'",
"replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'",
"replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'",
"replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
"replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'",
"replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
"replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'",
"replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'"
],
"n_oov_chars": 20,
"oov_ratio": 0.07142857142857142,
"oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]"
},
{
"text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
"decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
"replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
"replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
"replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
"replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'",
"replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'"
],
"n_oov_chars": 6,
"oov_ratio": 0.0759493670886076,
"oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]"
},
{
"text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
"decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de",
"diff": [
"replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
"replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
"replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
"replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'",
"replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'",
"replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'"
],
"n_oov_chars": 6,
"oov_ratio": 0.05825242718446602,
"oov_charset": "[\"D\", \"K\", \"E\", \"W\"]"
},
{
"text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
"decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
"replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
"replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
"replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'"
],
"n_oov_chars": 4,
"oov_ratio": 0.08,
"oov_charset": "[\"D\", \"C\", \"I\", \"V\"]"
},
{
"text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
"decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.",
"diff": [
"replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
"replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
"replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
"replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
"replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
"replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
"replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'",
"replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'",
"replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'",
"replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'",
"replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'",
"replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'",
"replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'",
"replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'",
"replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'",
"replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'",
"replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
"replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'",
"replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'",
"replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'"
],
"n_oov_chars": 33,
"oov_ratio": 0.048672566371681415,
"oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]"
},
{
"text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
"decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
"replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
"replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
"replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
"replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
"replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'",
"replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'",
"replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
"replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
"replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'",
"replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'",
"replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'",
"replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'"
],
"n_oov_chars": 18,
"oov_ratio": 0.04072398190045249,
"oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]"
},
{
"text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
"decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.",
"diff": [
"replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
"replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
"delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''",
"replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'",
"replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
"replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'",
"replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'",
"replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'",
"replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'",
"replace text[289:290] --> decoded_text[289:290] 'S' --> 's'",
"replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
"replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'",
"replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'"
],
"n_oov_chars": 21,
"oov_ratio": 0.043478260869565216,
"oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]"
},
{
"text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
"decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
"replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
"replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
"replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
"replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
"replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
],
"n_oov_chars": 6,
"oov_ratio": 0.07407407407407407,
"oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
},
{
"text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
"decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;",
"diff": [
"replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
"replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
"replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
"replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
"replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
"replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
"replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
"replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'"
],
"n_oov_chars": 8,
"oov_ratio": 0.042328042328042326,
"oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]"
},
{
"text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
"decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);",
"diff": [
"replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
"replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
"replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
"replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'",
"replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'",
"replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'",
"replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'",
"replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'",
"replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'",
"replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'",
"replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'"
],
"n_oov_chars": 11,
"oov_ratio": 0.05789473684210526,
"oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]"
}
]