Spaces:
Sleeping
Sleeping
pizzagatakasugi
commited on
Commit
·
1ce2752
1
Parent(s):
e53fb25
Update tools.py
Browse files
tools.py
CHANGED
@@ -160,17 +160,3 @@ def add_symbol(df,column):
|
|
160 |
kif = ""
|
161 |
return df
|
162 |
|
163 |
-
def preprocess_data(
|
164 |
-
data: pd.DataFrame, tokenizer: PreTrainedTokenizer
|
165 |
-
) -> BatchEncoding:
|
166 |
-
"""データの前処理"""
|
167 |
-
# 入力文字列のトークナイゼーションを行う
|
168 |
-
inputs = tokenizer(
|
169 |
-
data["input"], max_length=512, truncation=True
|
170 |
-
)
|
171 |
-
# 正解文字列のトークナイゼーションを行う
|
172 |
-
# 正解文字列はトークンIDのみ使用する
|
173 |
-
inputs["labels"] = tokenizer(
|
174 |
-
data["output"], max_length=512, truncation=True
|
175 |
-
)["input_ids"]
|
176 |
-
return inputs
|
|
|
160 |
kif = ""
|
161 |
return df
|
162 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|