ManfredAabye commited on
Commit
2709b9c
1 Parent(s): c6e34f3

Software V0.0.1

Browse files
Files changed (1) hide show
  1. mainXXX.md +13 -2
mainXXX.md CHANGED
@@ -11,6 +11,7 @@ pip install torch
11
  pip install huggingface-hub
12
 
13
  **CUDA**
 
14
  Stellen Sie sicher, dass CUDA und cuDNN korrekt installiert sind.
15
 
16
  nvcc --version
@@ -20,6 +21,7 @@ PyTorch mit CUDA Unterstützung installieren:
20
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu111
21
 
22
  **Führe das Skript aus:**
 
23
  python main_GPU.py /pfad/zu/deinem/verzeichnis
24
 
25
  oder
@@ -29,11 +31,13 @@ python main_CUDA.py /pfad/zu/deinem/verzeichnis
29
  Ersetze /pfad/zu/deinem/verzeichnis durch den tatsächlichen Pfad zu dem Verzeichnis, das du durchsuchen möchtest.
30
 
31
  **Kurzfassung:**
 
32
  Dieses Skript durchsucht das Verzeichnis, extrahiert die erforderlichen Parameter, speichert sie in einer SQLite-Datenbank,
33
 
34
  konvertiert diese Daten in ein HuggingFace Dataset, trainiert ein Modell und speichert das trainierte Modell auf der Festplatte neben der Datenbank.
35
 
36
  **Ausführlich:**
 
37
  Dieses Python-Programm durchläuft einen angegebenen Verzeichnisbaum,
38
 
39
  extrahiert Informationen über bestimmte Dateitypen,
@@ -49,14 +53,16 @@ und speichert das trainierte Modell sowie den Tokenizer.
49
  Hier ist eine einfache und verständliche Erklärung, wie das Programm funktioniert:
50
 
51
  1. **Extrahiere Parameter aus Dateien (`extrahiere_parameter(file_path)`)**:
52
- - Öffnet eine Datei und liest deren Zeilen.
 
53
  -
54
  - Sammelt Informationen wie Anzahl der Zeilen, Anzahl der Zeichen und ob der Text lang ist (>1000 Zeilen).
55
  -
56
  - Gibt diese Informationen zurück, außer wenn ein Lesefehler auftritt.
57
 
58
  2. **Durchsuche Verzeichnis und extrahiere Parameter (`durchsuchen_und_extrahieren(root_dir, db_pfad)`)**:
59
- - Verbindet sich mit einer SQLite-Datenbank (`db_pfad`).
 
60
  -
61
  - Erstellt eine Tabelle (`dateiparameter`) für die gesammelten Dateiinformationen, falls diese noch nicht existiert.
62
  -
@@ -65,6 +71,7 @@ Hier ist eine einfache und verständliche Erklärung, wie das Programm funktioni
65
  - Speichert die extrahierten Parameter in der SQLite-Datenbank.
66
 
67
  3. **Extrahiere Parameter aus der SQLite-Datenbank (`extrahiere_parameter_aus_db(db_pfad)`)**:
 
68
  - Verbindet sich mit der SQLite-Datenbank.
69
  -
70
  - Führt eine Abfrage aus, um alle gespeicherten Dateiparameter zu erhalten.
@@ -72,11 +79,14 @@ Hier ist eine einfache und verständliche Erklärung, wie das Programm funktioni
72
  - Gibt die abgerufenen Daten zurück, außer wenn ein Fehler auftritt.
73
 
74
  4. **Konvertiere zu Hugging Face Dataset (`konvertiere_zu_hf_dataset(daten)`)**:
 
 
75
  - Nimmt die aus der SQLite-Datenbank abgerufenen Daten und wandelt sie in ein Hugging Face Dataset um.
76
  -
77
  - Fügt Platzhalterwerte für Trainings- und Testdaten hinzu.
78
 
79
  5. **Trainiere und speichere Modell (`trainiere_und_speichere_modell(hf_dataset_pfad, output_model_dir)`)**:
 
80
  - Lädt das Hugging Face Dataset von der Festplatte.
81
  -
82
  - Erstellt einen Tokenizer (`AutoTokenizer`) für BERT.
@@ -92,6 +102,7 @@ Hier ist eine einfache und verständliche Erklärung, wie das Programm funktioni
92
  - Speichert das trainierte Modell und den Tokenizer im angegebenen Ausgabeverzeichnis (`output_model_dir`).
93
 
94
  6. **Main-Funktion (`if __name__ == "__main__":`)**:
 
95
  - Überprüft, ob ein Verzeichnispfad als Argument übergeben wurde; andernfalls wird das aktuelle Verzeichnis verwendet.
96
  -
97
  - Erstellt einen SQLite-Datenbanknamen aus dem Basisnamen des Verzeichnisses.
 
11
  pip install huggingface-hub
12
 
13
  **CUDA**
14
+
15
  Stellen Sie sicher, dass CUDA und cuDNN korrekt installiert sind.
16
 
17
  nvcc --version
 
21
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu111
22
 
23
  **Führe das Skript aus:**
24
+
25
  python main_GPU.py /pfad/zu/deinem/verzeichnis
26
 
27
  oder
 
31
  Ersetze /pfad/zu/deinem/verzeichnis durch den tatsächlichen Pfad zu dem Verzeichnis, das du durchsuchen möchtest.
32
 
33
  **Kurzfassung:**
34
+
35
  Dieses Skript durchsucht das Verzeichnis, extrahiert die erforderlichen Parameter, speichert sie in einer SQLite-Datenbank,
36
 
37
  konvertiert diese Daten in ein HuggingFace Dataset, trainiert ein Modell und speichert das trainierte Modell auf der Festplatte neben der Datenbank.
38
 
39
  **Ausführlich:**
40
+
41
  Dieses Python-Programm durchläuft einen angegebenen Verzeichnisbaum,
42
 
43
  extrahiert Informationen über bestimmte Dateitypen,
 
53
  Hier ist eine einfache und verständliche Erklärung, wie das Programm funktioniert:
54
 
55
  1. **Extrahiere Parameter aus Dateien (`extrahiere_parameter(file_path)`)**:
56
+
57
+ - Öffnet eine Datei und liest deren Zeilen.
58
  -
59
  - Sammelt Informationen wie Anzahl der Zeilen, Anzahl der Zeichen und ob der Text lang ist (>1000 Zeilen).
60
  -
61
  - Gibt diese Informationen zurück, außer wenn ein Lesefehler auftritt.
62
 
63
  2. **Durchsuche Verzeichnis und extrahiere Parameter (`durchsuchen_und_extrahieren(root_dir, db_pfad)`)**:
64
+
65
+ - Verbindet sich mit einer SQLite-Datenbank (`db_pfad`).
66
  -
67
  - Erstellt eine Tabelle (`dateiparameter`) für die gesammelten Dateiinformationen, falls diese noch nicht existiert.
68
  -
 
71
  - Speichert die extrahierten Parameter in der SQLite-Datenbank.
72
 
73
  3. **Extrahiere Parameter aus der SQLite-Datenbank (`extrahiere_parameter_aus_db(db_pfad)`)**:
74
+
75
  - Verbindet sich mit der SQLite-Datenbank.
76
  -
77
  - Führt eine Abfrage aus, um alle gespeicherten Dateiparameter zu erhalten.
 
79
  - Gibt die abgerufenen Daten zurück, außer wenn ein Fehler auftritt.
80
 
81
  4. **Konvertiere zu Hugging Face Dataset (`konvertiere_zu_hf_dataset(daten)`)**:
82
+
83
+
84
  - Nimmt die aus der SQLite-Datenbank abgerufenen Daten und wandelt sie in ein Hugging Face Dataset um.
85
  -
86
  - Fügt Platzhalterwerte für Trainings- und Testdaten hinzu.
87
 
88
  5. **Trainiere und speichere Modell (`trainiere_und_speichere_modell(hf_dataset_pfad, output_model_dir)`)**:
89
+
90
  - Lädt das Hugging Face Dataset von der Festplatte.
91
  -
92
  - Erstellt einen Tokenizer (`AutoTokenizer`) für BERT.
 
102
  - Speichert das trainierte Modell und den Tokenizer im angegebenen Ausgabeverzeichnis (`output_model_dir`).
103
 
104
  6. **Main-Funktion (`if __name__ == "__main__":`)**:
105
+
106
  - Überprüft, ob ein Verzeichnispfad als Argument übergeben wurde; andernfalls wird das aktuelle Verzeichnis verwendet.
107
  -
108
  - Erstellt einen SQLite-Datenbanknamen aus dem Basisnamen des Verzeichnisses.