Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -33,11 +33,11 @@ if st.button("トレーニング開始"):
|
|
33 |
# データセットの準備(スワヒリ語)
|
34 |
st.write("データセットのロード中...")
|
35 |
from datasets import load_dataset
|
36 |
-
dataset = load_dataset(dataset_name,
|
37 |
|
38 |
# トレーニング用のデータセットの準備
|
39 |
def tokenize_function(examples):
|
40 |
-
return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=
|
41 |
|
42 |
tokenized_dataset = dataset.map(tokenize_function, batched=True)
|
43 |
|
|
|
33 |
# データセットの準備(スワヒリ語)
|
34 |
st.write("データセットのロード中...")
|
35 |
from datasets import load_dataset
|
36 |
+
dataset = load_dataset(dataset_name, split="train") # 言語を指定
|
37 |
|
38 |
# トレーニング用のデータセットの準備
|
39 |
def tokenize_function(examples):
|
40 |
+
return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=168)
|
41 |
|
42 |
tokenized_dataset = dataset.map(tokenize_function, batched=True)
|
43 |
|