File size: 29,371 Bytes
9382e3f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
<!--Copyright 2023 The HuggingFace Team. All rights reserved.

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
specific language governing permissions and limitations under the License.

⚠ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be
rendered properly in your Markdown viewer.

-->

# Glossary

この甚語集は、䞀般的な機械孊習ず 🀗 トランスフォヌマヌの甚語を定矩し、ドキュメンテヌションをより理解するのに圹立ちたす。

## A

### attention mask

アテンション マスクは、シヌケンスをバッチ凊理する際に䜿甚されるオプションの匕数です。

<Youtube id="M6adb1j2jPI"/>

この匕数は、モデルにどのトヌクンを泚芖すべきか、どのトヌクンを泚芖しないかを瀺したす。

䟋えば、次の2぀のシヌケンスを考えおみおください

```python
>>> from transformers import BertTokenizer

>>> tokenizer = BertTokenizer.from_pretrained("google-bert/bert-base-cased")

>>> sequence_a = "This is a short sequence."
>>> sequence_b = "This is a rather long sequence. It is at least longer than the sequence A."

>>> encoded_sequence_a = tokenizer(sequence_a)["input_ids"]
>>> encoded_sequence_b = tokenizer(sequence_b)["input_ids"]
```

The encoded versions have different lengths:

```python
>>> len(encoded_sequence_a), len(encoded_sequence_b)
(8, 19)
```

したがっお、これらのシヌケンスをそのたた同じテン゜ルに配眮するこずはできたせん。最初のシヌケンスは、
2番目のシヌケンスの長さに合わせおパディングする必芁がありたす。たたは、2番目のシヌケンスは、最初のシヌケンスの
長さに切り詰める必芁がありたす。

最初の堎合、IDのリストはパディングむンデックスで拡匵されたす。トヌクナむザにリストを枡し、次のようにパディングするように
䟝頌できたす:


```python
>>> padded_sequences = tokenizer([sequence_a, sequence_b], padding=True)
```

0sが远加されお、最初の文が2番目の文ず同じ長さになるのがわかりたす

```python
>>> padded_sequences["input_ids"]
[[101, 1188, 1110, 170, 1603, 4954, 119, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [101, 1188, 1110, 170, 1897, 1263, 4954, 119, 1135, 1110, 1120, 1655, 2039, 1190, 1103, 4954, 138, 119, 102]]
```

これは、PyTorchたたはTensorFlowでテン゜ルに倉換できたす。泚意マスクは、モデルがそれらに泚意を払わないように、埋め蟌たれたむンデックスの䜍眮を瀺すバむナリテン゜ルです。[`BertTokenizer`]では、`1`は泚意を払う必芁がある倀を瀺し、`0`は埋め蟌たれた倀を瀺したす。この泚意マスクは、トヌクナむザが返す蟞曞のキヌ「attention_mask」の䞋にありたす。



```python
>>> padded_sequences["attention_mask"]
[[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
```

### autoencoding models

[゚ンコヌダヌモデル](#encoder-models) および [マスク蚀語モデリング](#masked-language-modeling-mlm) を参照しおください。

### autoregressive models

[因果蚀語モデリング](#causal-language-modeling) および [デコヌダヌモデル](#decoder-models) を参照しおください。

## B

### backbone

バックボヌンは、生の隠れた状態や特城を出力するネットワヌク埋め蟌みず局です。通垞、特城を入力ずしお受け取るために [ヘッド](#head) に接続されおおり、予枬を行いたす。たずえば、[`ViTModel`] は特定のヘッドが䞊にないバックボヌンです。他のモデルも [`VitModel`] をバックボヌンずしお䜿甚できたす、䟋えば [DPT](model_doc/dpt) です。

## C

### causal language modeling

モデルがテキストを順番に読み、次の単語を予枬する事前トレヌニングタスクです。通垞、モデルは文党䜓を読み取りたすが、特定のタむムステップで未来のトヌクンを隠すためにモデル内でマスクを䜿甚したす。

### channel

カラヌ画像は、赀、緑、青RGBの3぀のチャネルの倀の組み合わせから成り立っおおり、グレヌスケヌル画像は1぀のチャネルしか持ちたせん。🀗 Transformers では、チャネルは画像のテン゜ルの最初たたは最埌の次元になるこずがありたす[`n_channels`, `height`, `width`] たたは [`height`, `width`, `n_channels`]。

### connectionist temporal classification (CTC)

入力ず出力が正確にどのように敎列するかを正確に知らなくおもモデルを孊習させるアルゎリズム。CTC は、特定の入力に察しおすべおの可胜な出力の分垃を蚈算し、その䞭から最も可胜性の高い出力を遞択したす。CTC は、スピヌカヌの異なる発話速床など、さたざたな理由で音声がトランスクリプトず完党に敎合しない堎合に、音声認識タスクで䞀般的に䜿甚されたす。

### convolution

ニュヌラルネットワヌクの䞀皮で、入力行列が芁玠ごずに小さな行列カヌネルたたはフィルタヌず乗算され、倀が新しい行列に合蚈されるレむダヌのタむプ。これは入力行列党䜓に察しお繰り返される畳み蟌み操䜜ずしお知られ、各操䜜は入力行列の異なるセグメントに適甚されたす。畳み蟌みニュヌラルネットワヌクCNNは、コンピュヌタビゞョンで䞀般的に䜿甚されおいたす。

## D

### decoder input IDs

この入力ぱンコヌダヌデコヌダヌモデルに特有であり、デコヌダヌに䟛絊される入力IDを含みたす。これらの入力は、翻蚳や芁玄などのシヌケンスツヌシヌケンスタスクに䜿甚され、通垞、各モデルに固有の方法で構築されたす。

ほずんどの゚ンコヌダヌデコヌダヌモデルBART、T5は、`labels` から独自に `decoder_input_ids` を䜜成したす。このようなモデルでは、`labels` を枡すこずがトレヌニングを凊理する優れた方法です。

シヌケンスツヌシヌケンストレヌニングにおけるこれらの入力IDの凊理方法を確認するために、各モデルのドキュメントを確認しおください。

### decoder models

オヌトリグレッションモデルずも呌ばれ、モデルがテキストを順番に読み、次の単語を予枬する事前トレヌニングタスク因果蚀語モデリングに関䞎したす。通垞、モデルは文党䜓を読み取り、特定のタむムステップで未来のトヌクンを隠すマスクを䜿甚しお行われたす。

<Youtube id="d_ixlCubqQw"/>


### deep learning (DL)

ニュヌラルネットワヌクを䜿甚する機械孊習アルゎリズムで、耇数の局を持っおいたす。

## E

### encoder models

オヌト゚ンコヌディングモデルずしおも知られおおり、゚ンコヌダヌモデルは入力テキストや画像などを、埋め蟌みず呌ばれる簡略化された数倀衚珟に倉換したす。゚ンコヌダヌモデルは、しばしば[マスクされた蚀語モデリング#masked-language-modeling-mlm](#masked-language-modeling-mlm)などの技術を䜿甚しお事前にトレヌニングされ、入力シヌケンスの䞀郚をマスクし、モデルにより意味のある衚珟を䜜成するこずが匷制されたす。

<Youtube id="H39Z_720T5s"/>

## F

### feature extraction

生デヌタをより情報豊かで機械孊習アルゎリズムにずっお有甚な特城のセットに遞択および倉換するプロセス。特城抜出の䟋には、生のテキストを単語埋め蟌みに倉換したり、画像/ビデオデヌタから゚ッゞや圢状などの重芁な特城を抜出したりするこずが含たれたす。

### feed forward chunking

トランスフォヌマヌ内の各残差泚意ブロックでは、通垞、自己泚意局の埌に2぀のフィヌドフォワヌド局が続きたす。
フィヌドフォワヌド局の䞭間埋め蟌みサむズは、モデルの隠れたサむズよりも倧きいこずがよくありたすたずえば、`google-bert/bert-base-uncased`の堎合。

入力サむズが `[batch_size、sequence_length]` の堎合、䞭間フィヌドフォワヌド埋め蟌み `[batch_size、sequence_length、config.intermediate_size]` を保存するために必芁なメモリは、メモリの倧郚分を占めるこずがありたす。[Reformer: The Efficient Transformer](https://arxiv.org/abs/2001.04451)の著者は、蚈算が `sequence_length` 次元に䟝存しないため、䞡方のフィヌドフォワヌド局の出力埋め蟌み `[batch_size、config.hidden_size]_0、...、[batch_size、config.hidden_size]_n` を個別に蚈算し、埌で `[batch_size、sequence_length、config.hidden_size]` に連結するこずは数孊的に等䟡であるず気付きたした。これにより、増加した蚈算時間ずメモリ䜿甚量のトレヌドオフが生じたすが、数孊的に等䟡な結果が埗られたす。

[`apply_chunking_to_forward`] 関数を䜿甚するモデルの堎合、`chunk_size` は䞊列に蚈算される出力埋め蟌みの数を定矩し、メモリず時間の耇雑さのトレヌドオフを定矩したす。`chunk_size` が 0 に蚭定されおいる堎合、フィヌドフォワヌドのチャンキングは行われたせん。

### finetuned models

ファむンチュヌニングは、事前にトレヌニングされたモデルを取り、その重みを固定し、新しく远加された[model head](#head)で出力レむダヌを眮き換える圢匏の転移孊習です。モデルヘッドは察象のデヌタセットでトレヌニングされたす。

詳现に぀いおは、[Fine-tune a pretrained model](https://huggingface.co/docs/transformers/training) チュヌトリアルを参照しお、🀗 Transformersを䜿甚したモデルのファむンチュヌニング方法を孊びたしょう。

## H

### head

モデルヘッドは、ニュヌラルネットワヌクの最埌のレむダヌを指し、生の隠れた状態を受け入れお異なる次元に射圱したす。各タスクに察しお異なるモデルヘッドがありたす。䟋えば

  * [`GPT2ForSequenceClassification`] は、ベヌスの[`GPT2Model`]の䞊にあるシヌケンス分類ヘッド線圢局です。
  * [`ViTForImageClassification`] は、ベヌスの[`ViTModel`]の`CLS`トヌクンの最終隠れた状態の䞊にある画像分類ヘッド線圢局です。
  * [`Wav2Vec2ForCTC`] は、[CTC](#connectionist-temporal-classification-ctc)を持぀ベヌスの[`Wav2Vec2Model`]の蚀語モデリングヘッドです。

## I

### image patch

ビゞョンベヌスのトランスフォヌマヌモデルは、画像をより小さなパッチに分割し、それらを線圢に埋め蟌み、モデルにシヌケンスずしお枡したす。モデルの

### inference

掚論は、トレヌニングが完了した埌に新しいデヌタでモデルを評䟡するプロセスです。 🀗 Transformers を䜿甚しお掚論を実行する方法に぀いおは、[掚論のパむプラむン](https://huggingface.co/docs/transformers/pipeline_tutorial) チュヌトリアルを参照しおください。

### input IDs

入力IDは、モデルぞの入力ずしお枡す必芁があるパラメヌタヌの䞭で最も䞀般的なものです。これらはトヌクンのむンデックスであり、モデルによっお入力ずしお䜿甚されるシヌケンスを構築するトヌクンの数倀衚珟です。

<Youtube id="VFp38yj8h3A"/>

各トヌクナむザヌは異なる方法で動䜜したすが、基本的なメカニズムは同じです。以䞋はBERTトヌクナむザヌを䜿甚した䟋です。BERTトヌクナむザヌは[WordPiece](https://arxiv.org/pdf/1609.08144.pdf)トヌクナむザヌです。


```python
>>> from transformers import BertTokenizer

>>> tokenizer = BertTokenizer.from_pretrained("google-bert/bert-base-cased")

>>> sequence = "A Titan RTX has 24GB of VRAM"
```

トヌクナむザヌは、シヌケンスをトヌクナむザヌ語圙で䜿甚可胜なトヌクンに分割したす。

```python
>>> tokenized_sequence = tokenizer.tokenize(sequence)
```

トヌクンは単語たたはサブワヌドです。 たずえば、ここでは "VRAM" はモデルの語圙に含たれおいなかったため、"V"、"RA"、"M" に分割されたした。
これらのトヌクンが別々の単語ではなく、同じ単語の䞀郚であるこずを瀺すために、"RA" ず "M" にはダブルハッシュのプレフィックスが远加されたす。

```python
>>> print(tokenized_sequence)
['A', 'Titan', 'R', '##T', '##X', 'has', '24', '##GB', 'of', 'V', '##RA', '##M']
```

これらのトヌクンは、モデルが理解できるようにIDに倉換できたす。これは、文をトヌクナむザヌに盎接䟛絊しお行うこずができたす。トヌクナむザヌは、パフォヌマンスの向䞊のために[🀗 Tokenizers](https://github.com/huggingface/tokenizers)のRust実装を掻甚しおいたす。

```python
>>> inputs = tokenizer(sequence)
```

トヌクナむザヌは、察応するモデルが正しく動䜜するために必芁なすべおの匕数を含む蟞曞を返したす。トヌクンのむンデックスは、キヌ `input_ids` の䞋にありたす。

```python
>>> encoded_sequence = inputs["input_ids"]
>>> print(encoded_sequence)
[101, 138, 18696, 155, 1942, 3190, 1144, 1572, 13745, 1104, 159, 9664, 2107, 102]
```

泚意トヌクナむザは、関連するモデルがそれらを必芁ずする堎合に自動的に「特別なトヌクン」を远加したす。これらは、モデルが時折䜿甚する特別なIDです。

前のIDシヌケンスをデコヌドする堎合、


```python
>>> decoded_sequence = tokenizer.decode(encoded_sequence)
```

私たちは芋たす

```python
>>> print(decoded_sequence)
[CLS] A Titan RTX has 24GB of VRAM [SEP]
```

これは[`BertModel`]がその入力を期埅する方法です。


## L

### Labels

ラベルは、モデルが損倱を蚈算するために枡すこずができるオプションの匕数です。これらのラベルは、モデルの予枬の期埅倀であるべきです。モデルは、通垞の損倱を䜿甚しお、その予枬ず期埅倀ラベルずの間の損倱を蚈算したす。

これらのラベルはモデルのヘッドに応じお異なりたす。たずえば

- シヌケンス分類モデル[`BertForSequenceClassification`]の堎合、モデルは次元が `(batch_size)` のテン゜ルを期埅し、バッチ内の各倀がシヌケンス党䜓の予枬ラベルに察応したす。
- トヌクン分類モデル[`BertForTokenClassification`]の堎合、モデルは次元が `(batch_size, seq_length)` のテン゜ルを期埅し、各倀が各個々のトヌクンの予枬ラベルに察応したす。
- マスク蚀語モデリングの堎合[`BertForMaskedLM`]、モデルは次元が `(batch_size, seq_length)` のテン゜ルを期埅し、各倀が各個々のトヌクンの予枬ラベルに察応したす。ここでのラベルはマスクされたトヌクンのトヌクンIDであり、他のトヌクンには通垞 -100 などの倀が蚭定されたす。
- シヌケンス間のタスクの堎合[`BartForConditionalGeneration`]、[`MBartForConditionalGeneration`]、モデルは次元が `(batch_size, tgt_seq_length)` のテン゜ルを期埅し、各倀が各入力シヌケンスに関連付けられたタヌゲットシヌケンスに察応したす。トレヌニング䞭、BARTずT5の䞡方は適切な `decoder_input_ids` ずデコヌダヌのアテンションマスクを内郚で生成したす。通垞、これらを提䟛する必芁はありたせん。これぱンコヌダヌデコヌダヌフレヌムワヌクを利甚するモデルには適甚されたせん。
- 画像分類モデルの堎合[`ViTForImageClassification`]、モデルは次元が `(batch_size)` のテン゜ルを期埅し、バッチ内の各倀が各個々の画像の予枬ラベルに察応したす。
- セマンティックセグメンテヌションモデルの堎合[`SegformerForSemanticSegmentation`]、モデルは次元が `(batch_size, height, width)` のテン゜ルを期埅し、バッチ内の各倀が各個々のピクセルの予枬ラベルに察応したす。
- 物䜓怜出モデルの堎合[`DetrForObjectDetection`]、モデルは各個々の画像の予枬ラベルず境界ボックスの数に察応する `class_labels` ず `boxes` キヌを持぀蟞曞のリストを期埅したす。
- 自動音声認識モデルの堎合[`Wav2Vec2ForCTC`]、モデルは次元が `(batch_size, target_length)` のテン゜ルを期埅し、各倀が各個々のトヌクンの予枬ラベルに察応したす。

<Tip>

各モデルのラベルは異なる堎合があるため、垞に各モデルのドキュメントを確認しお、それらの特定のラベルに関する詳现情報を確認しおください

</Tip>

ベヌスモデル[`BertModel`]はラベルを受け入れたせん。これらはベヌスのトランスフォヌマヌモデルであり、単に特城を出力したす。


### large language models (LLM)

倧量のデヌタでトレヌニングされた倉換噚蚀語モデルGPT-3、BLOOM、OPTを指す䞀般的な甚語です。これらのモデルは通垞、倚くの孊習可胜なパラメヌタを持っおいたすたずえば、GPT-3の堎合、1750億個。

## M

### masked language modeling (MLM)

モデルはテキストの砎損バヌゞョンを芋る事前トレヌニングタスクで、通垞はランダムに䞀郚のトヌクンをマスキングしお元のテキストを予枬する必芁がありたす。

### multimodal

テキストず別の皮類の入力たずえば画像を組み合わせるタスクです。

## N

### Natural language generation (NLG)

テキストを生成する関連するすべおのタスクたずえば、[Transformersで曞く](https://transformer.huggingface.co/)、翻蚳など。

### Natural language processing (NLP)

テキストを扱う方法を䞀般的に衚珟したものです。

### Natural language understanding (NLU)

テキスト内に䜕があるかを理解する関連するすべおのタスクたずえば、テキスト党䜓の分類、個々の単語の分類など。

## P

### pipeline

🀗 Transformersのパむプラむンは、デヌタの前凊理ず倉換を特定の順序で実行しおデヌタを凊理し、モデルから予枬を返す䞀連のステップを指す抜象化です。パむプラむンに芋られるいく぀かのステヌゞの䟋には、デヌタの前凊理、特城抜出、正芏化などがありたす。

詳现に぀いおは、[掚論のためのパむプラむン](https://huggingface.co/docs/transformers/pipeline_tutorial)を参照しおください。

### pixel values

モデルに枡される画像の数倀衚珟のテン゜ルです。ピクセル倀は、圢状が [`バッチサむズ`, `チャネル数`, `高さ`, `幅`] の行列で、画像プロセッサから生成されたす。

### pooling

行列を小さな行列に瞮小する操䜜で、プヌル察象の次元の最倧倀たたは平均倀を取るこずが䞀般的です。プヌリングレむダヌは䞀般的に畳み蟌みレむダヌの間に芋られ、特城衚珟をダりンサンプリングしたす。

### position IDs

トヌクンごずの䜍眮が埋め蟌たれおいるRNNずは異なり、トランスフォヌマヌは各トヌクンの䜍眮を把握しおいたせん。したがっお、モデルはトヌクンの䜍眮を識別するために䜍眮ID`position_ids`を䜿甚したす。

これはオプションのパラメヌタです。モデルに `position_ids` が枡されない堎合、IDは自動的に絶察的な䜍眮埋め蟌みずしお䜜成されたす。

絶察的な䜍眮埋め蟌みは範囲 `[0、config.max_position_embeddings - 1]` から遞択されたす。䞀郚のモデルは、正匊波䜍眮埋め蟌みや盞察䜍眮埋め蟌みなど、他のタむプの䜍眮埋め蟌みを䜿甚するこずがありたす。


### preprocessing

生デヌタを機械孊習モデルで簡単に凊理できる圢匏に準備するタスクです。䟋えば、テキストは通垞、トヌクン化によっお前凊理されたす。他の入力タむプに察する前凊理の具䜓的な方法を知りたい堎合は、[Preprocess](https://huggingface.co/docs/transformers/preprocessing) チュヌトリアルをご芧ください。

### pretrained model

あるデヌタたずえば、Wikipedia党䜓などで事前に孊習されたモデルです。事前孊習の方法には、自己教垫ありの目的が含たれ、テキストを読み取り、次の単語を予枬しようずするもの[因果蚀語モデリング](#causal-language-modeling)を参照や、䞀郚の単語をマスクし、それらを予枬しようずするもの[マスク蚀語モデリング](#masked-language-modeling-mlm)を参照がありたす。

音声ずビゞョンモデルには独自の事前孊習の目的がありたす。たずえば、Wav2Vec2は音声モデルで、モデルに察しお「真の」音声衚珟を停の音声衚珟のセットから識別する必芁がある察比的なタスクで事前孊習されおいたす。䞀方、BEiTはビゞョンモデルで、䞀郚の画像パッチをマスクし、モデルにマスクされたパッチを予枬させるタスクマスク蚀語モデリングの目的ず䌌おいたすで事前孊習されおいたす。

## R

### recurrent neural network (RNN)

テキストを凊理するために局をルヌプさせるモデルの䞀皮です。

### representation learning

生デヌタの意味のある衚珟を孊習する機械孊習のサブフィヌルドです。衚珟孊習の技術の䞀郚には単語埋め蟌み、オヌト゚ンコヌダヌ、Generative Adversarial NetworksGANsなどがありたす。

## S

### sampling rate

秒ごずに取られるサンプルオヌディオ信号などの数をヘルツ単䜍で枬定したものです。サンプリングレヌトは音声などの連続信号を離散化する結果です。

### self-attention

入力の各芁玠は、どの他の芁玠に泚意を払うべきかを怜出したす。

### self-supervised learning 

モデルがラベルのないデヌタから自分自身の孊習目暙を䜜成する機械孊習技術のカテゎリです。これは[教垫なし孊習](#unsupervised-learning)や[教垫あり孊習](#supervised-learning)ずは異なり、孊習プロセスはナヌザヌからは明瀺的には監督されおいない点が異なりたす。

自己教垫あり孊習の1぀の䟋は[マスク蚀語モデリング](#masked-language-modeling-mlm)で、モデルには䞀郚のトヌクンが削陀された文が䞎えられ、欠萜したトヌクンを予枬するように孊習したす。

### semi-supervised learning

ラベル付きデヌタの少量ずラベルのないデヌタの倧量を組み合わせおモデルの粟床を向䞊させる広範な機械孊習トレヌニング技術のカテゎリです。[教垫あり孊習](#supervised-learning)や[教垫なし孊習](#unsupervised-learning)ずは異なり、半教垫あり孊習のアプロヌチの1぀は「セルフトレヌニング」であり、モデルはラベル付きデヌタでトレヌニングされ、次にラベルのないデヌタで予枬を行いたす。モデルが最も自信を持っお予枬する郚分がラベル付きデヌタセットに远加され、モデルの再トレヌニングに䜿甚されたす。

### sequence-to-sequence (seq2seq)

入力から新しいシヌケンスを生成するモデルです。翻蚳モデルや芁玄モデル[Bart](model_doc/bart)や[T5](model_doc/t5)などなどがこれに該圓したす。

### stride

[畳み蟌み](#convolution)たたは[プヌリング](#pooling)においお、ストラむドはカヌネルが行列䞊で移動する距離を指したす。ストラむドが1の堎合、カヌネルは1ピクセルず぀移動し、ストラむドが2の堎合、カヌネルは2ピクセルず぀移動したす。

### supervised learning

モデルのトレヌニング方法の䞀぀で、盎接ラベル付きデヌタを䜿甚しおモデルの性胜を修正し指導したす。デヌタがトレヌニングされおいるモデルに䟛絊され、その予枬が既知のラベルず比范されたす。モデルは予枬がどれだけ誀っおいたかに基づいお重みを曎新し、プロセスはモデルの性胜を最適化するために繰り返されたす。

## T

### token

文の䞀郚であり、通垞は単語ですが、サブワヌド䞀般的でない単語はしばしばサブワヌドに分割されるこずがありたすたたは句読点の蚘号であるこずもありたす。

### token Type IDs

䞀郚のモデルは、文のペアの分類や質問応答を行うこずを目的ずしおいたす。

<Youtube id="0u3ioSwev3s"/>

これには異なる2぀のシヌケンスを単䞀の「input_ids」゚ントリに結合する必芁があり、通垞は分類子`[CLS]`や区切り蚘号`[SEP]`などの特別なトヌクンの助けを借りお実行されたす。䟋えば、BERTモデルは次のように2぀のシヌケンス入力を構築したす

日本語蚳を提䟛しおいただきたいです。Markdown圢匏で蚘述しおください。


```python
>>> # [CLS] SEQUENCE_A [SEP] SEQUENCE_B [SEP]
```

我々は、前述のように、2぀のシヌケンスを2぀の匕数ずしお `tokenizer` に枡すこずで、このような文を自動的に生成するこずができたす以前のようにリストではなく。以䞋のように

```python
>>> from transformers import BertTokenizer

>>> tokenizer = BertTokenizer.from_pretrained("google-bert/bert-base-cased")
>>> sequence_a = "HuggingFace is based in NYC"
>>> sequence_b = "Where is HuggingFace based?"

>>> encoded_dict = tokenizer(sequence_a, sequence_b)
>>> decoded = tokenizer.decode(encoded_dict["input_ids"])
```

これに察応するコヌドは以䞋です

```python
>>> print(decoded)
[CLS] HuggingFace is based in NYC [SEP] Where is HuggingFace based? [SEP]
```

䞀郚のモデルでは、1぀のシヌケンスがどこで終わり、別のシヌケンスがどこで始たるかを理解するのに十分な情報が備わっおいたす。ただし、BERTなどの他のモデルでは、トヌクンタむプIDセグメントIDずも呌ばれるも䜿甚されおいたす。これは、モデル内の2぀のシヌケンスを識別するバむナリマスクずしお衚されたす。

トヌクナむザは、このマスクを「token_type_ids」ずしお返したす。

```python
>>> encoded_dict["token_type_ids"]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1]
```

最初のシヌケンス、぀たり質問のために䜿甚される「コンテキスト」は、すべおのトヌクンが「0」で衚されおいたす。䞀方、2番目のシヌケンス、質問に察応するものは、すべおのトヌクンが「1」で衚されおいたす。

䞀郚のモデル、䟋えば [`XLNetModel`] のように、远加のトヌクンが「2」で衚されたす。


### transfer learning

事前に孊習されたモデルを取り、それをタスク固有のデヌタセットに適応させる技術。れロからモデルを蚓緎する代わりに、既存のモデルから埗た知識を出発点ずしお掻甚できたす。これにより孊習プロセスが加速し、必芁な蚓緎デヌタの量が枛少したす。

### transformer

自己泚意ベヌスの深局孊習モデルアヌキテクチャ。

## U

### unsupervised learning

モデルに提䟛されるデヌタがラベル付けされおいないモデルトレヌニングの圢態。教垫なし孊習の技術は、タスクに圹立぀パタヌンを芋぀けるためにデヌタ分垃の統蚈情報を掻甚したす。