miweru's picture
Update README.md
dc7831d verified
metadata
base_model: LeoLM/leo-hessianai-70b-chat
inference: false
license: llama2
datasets:
  - LeoLM/OpenSchnabeltier
  - OpenAssistant/OASST-DE
  - FreedomIntelligence/alpaca-gpt4-deutsch
  - FreedomIntelligence/evol-instruct-deutsch
  - LeoLM/German_Poems
  - LeoLM/German_Songs
language:
  - de
pipeline_tag: text-generation
prompt_template: |
  {prompt}
quantized_by: miweru
tags:
  - llama-2
  - llama
  - gguf
  - Q5_K_M

gguf Quantized Version of LeoLM 70b Chat

see english version beyond

LAION LeoLM 70b Chat: Linguistically Enhanced Open Language Model

Dieses Modell ist eine quantisierte Version von LeoLM/leo-hessianai-70b, einem der leistungsfähigsten öffentlich zugänglichen Sprachmodelle für die deutsche Sprache, basierend auf Llama-2. Durch die Quantisierung mit der Q5_K_M-Methode ist es möglich, das Modell effizient auf Hardware wie dem MacBook Pro M3 Max (ab ca. 64GB shared memory) zu betreiben. Trotz der Anpassung durch Quantisierung bietet das Modell eine beeindruckende Leistung für eine Vielzahl von Textgenerierungs- und Verständnisaufgaben in deutscher Sprache.

Verwendungshinweise

Das Modell ist für den Einsatz in der deutschen Sprache optimiert und eignet sich hervorragend für Anwendungen wie Textgenerierung, Übersetzung und weitere NLP-Aufgaben. Es wurde speziell quantisiert, um eine lokale Ausführung auf Computern mit begrenzten Ressourcen zu ermöglichen, ohne dabei signifikant an Genauigkeit oder Reaktionsfähigkeit zu verlieren.

Anerkennungen

Ein besonderer Dank gilt dem llama.cpp-Team für den Quantisierungscode und dem LeoLM-Team für die Entwicklung des ursprünglichen Modells. Diese Arbeit wäre ohne ihre wertvollen Beiträge nicht möglich gewesen. Weiterhin vielen Dank an TheBloke, an dessen ausführungen die Modellbeschreibung angelehnt ist.

Lizenz

Bitte beachten Sie die Lizenzbedingungen des ursprünglichen Modells sowie jegliche zusätzliche Richtlinien, die für die Nutzung der quantisierten Version gelten.

Uses

Direct Use

Das LeoLM 70B - Q5_K_M quantisierte Modell ist für eine direkte Nutzung in Anwendungen der natürlichen Sprachverarbeitung (NLP) vorgesehen, einschließlich, aber nicht beschränkt auf Textgenerierung, Übersetzung, Zusammenfassung und weitere Aufgaben, die eine Verarbeitung der deutschen Sprache erfordern.

Downstream Use

Das Modell kann weiter für spezifische NLP-Aufgaben feinabgestimmt werden, um die Leistung in spezialisierten Domänen oder Anwendungen zu verbessern. Es kann auch in größere Systeme oder Plattformen integriert werden, die NLP-Funktionen benötigen.

Out-of-Scope Use

Nicht vorgesehen ist der Einsatz des Modells für Zwecke, die ethische Richtlinien verletzen, illegale Aktivitäten unterstützen oder Schaden für Individuen oder Gruppen verursachen könnten.

Bias, Risks, and Limitations

Das Modell erbt potenzielle Verzerrungen und Einschränkungen von seinem Trainingsdatensatz sowie den Risiken, die mit großen Sprachmodellen verbunden sind, einschließlich, aber nicht beschränkt auf, die Reproduktion oder Verstärkung bestehender gesellschaftlicher Vorurteile.

Recommendations

Anwender sollten sich der Limitationen und möglichen Verzerrungen des Modells bewusst sein und entsprechende Maßnahmen zur Minderung dieser Risiken ergreifen, einschließlich der Überprüfung der Ausgaben und der Implementierung von Sicherheitsmechanismen.

How to Get Started with the Model

Das LeoLM 70B - Q5_K_M quantisierte Modell ist im GGUF-Format verfügbar und kann nicht direkt mit der Hugging Face Transformers-Bibliothek genutzt werden. Stattdessen wird es mit dem llama.cpp-Projekt ausgeführt, das eine effiziente Ausführung quantisierter Modelle auf verschiedenen Hardwarekonfigurationen ermöglicht, einschließlich Unterstützung für GPU-Beschleunigung.

Installation und Ausführung mit llama.cpp

Besuchen Sie die GitHub-Seite von llama.cpp für Anweisungen zur Installation und Verwendung mit GGUF-Modellen. Nach der Installation können Sie das Modell mit dem CLI oder dem Server von llama.cpp ausführen.

Prompting / Prompt Template

Das Modell unterstützt das folgende Prompt-Template im ChatML-Format für die Interaktion:

"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""

The model input can contain multiple conversation turns between user and assistant, e.g.

<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)

Beachten Sie, dass im Modell die Tokens |im_start| und |im_end| durch einen Tokenizerfehler ersetzt sind.

About GGUF

GGUF ist ein neues Format, das am 21. August 2023 vom llama.cpp-Team eingeführt wurde. Es dient als Ersatz für das GGML-Format, welches von llama.cpp nicht mehr unterstützt wird. GGUF-Modelle sind mit einer Vielzahl von Clients und Bibliotheken kompatibel, darunter:

  • llama.cpp: Das Quellprojekt für GGUF. Bietet eine CLI- und eine Serveroption.
  • text-generation-webui: Die am weitesten verbreitete Web-UI mit vielen Funktionen und leistungsstarken Erweiterungen. Unterstützt GPU-Beschleunigung.
  • KoboldCpp: Eine voll ausgestattete Web-UI, die GPU-Beschleunigung auf allen Plattformen und GPU-Architekturen bietet. Besonders geeignet für Storytelling.
  • GPT4All: Eine kostenlose und Open-Source-GUI für den lokalen Betrieb, unterstützt Windows, Linux und macOS mit voller GPU-Beschleunigung.
  • LM Studio: Eine benutzerfreundliche und leistungsstarke lokale GUI für Windows und macOS (Silicon) mit GPU-Beschleunigung. Linux ist als Beta-Version verfügbar.
  • LoLLMS Web UI: Eine großartige Web-UI mit vielen interessanten und einzigartigen Funktionen, einschließlich einer vollständigen Modellbibliothek für eine einfache Modellauswahl.
  • Faraday.dev: Eine attraktive und einfach zu bedienende Chat-GUI für Windows und macOS (Silicon und Intel) mit GPU-Beschleunigung.
  • llama-cpp-python: Eine Python-Bibliothek mit GPU-Beschleunigung, LangChain-Unterstützung und einem OpenAI-kompatiblen API-Server.

Für detaillierte Informationen zur Nutzung des GGUF-Formats und zur Kompatibilität mit verschiedenen Tools besuchen Sie die entsprechenden Projektseiten.

Technische Spezifikationen

Modellarchitektur und Zielsetzung

Dieses Modell ist eine quantisierte Version des LeoLM/leo-hessianai-70b, optimiert für Textgenerierungs- und Verständnisaufgaben in deutscher Sprache. Es nutzt die Transformer-Architektur für autoregressives Sprachmodellieren, angepasst für eine effiziente lokale Ausführung durch Q5_K_M-Quantisierung.

Trainingsdetails

Trainingsdaten

Das Modell wurde auf einem vielfältigen Korpus von Texten in deutscher Sprache vortrainiert, einschließlich, aber nicht beschränkt auf:

  • LeoLM/OpenSchnabeltier
  • OpenAssistant/OASST-DE
  • FreedomIntelligence/alpaca-gpt4-deutsch
  • FreedomIntelligence/evol-instruct-deutsch
  • LeoLM/German_Poems
  • LeoLM/German_Songs

Dieser Korpus deckt eine breite Palette von Themen und Stilen ab und bietet ein umfassendes Verständnis der deutschen Sprache.

Trainingsverfahren

Das ursprüngliche LeoLM/leo-hessianai-70b-Modell wurde mit einer Mischung aus unbeaufsichtigten und überwachten Lernverfahren auf den oben genannten Datensätzen vortrainiert. Anschließend wurde der Quantisierungsprozess angewendet, um das Modell ohne signifikanten Leistungsverlust in das GGUF-Format zu komprimieren.

Evaluation

Testdaten, Faktoren & Metriken

[Mehr Informationen benötigt] - Evaluationsverfahren und Metriken für das quantisierte Modell hängen von den spezifischen Aufgaben und Domänen ab, auf die es angewendet wird.

Umweltauswirkungen

Der Quantisierungsprozess dieses Modells hatte minimale Umweltauswirkungen. Er wurde auf einem MacBook Pro M3 Max durchgeführt und dauerte nur wenige Minuten. Diese Effizienz ist den fortschrittlichen Rechenfähigkeiten der verwendeten Hardwarekonfiguration zuzuschreiben. Durch die Begrenzung der erforderlichen Rechenzeit und die Nutzung eines einzigen Geräts wurde der Energieverbrauch während des Quantisierungsprozesses erheblich reduziert. Dies unterstreicht das Engagement für die Entwicklung und Optimierung leistungsfähiger KI-Modelle unter Berücksichtigung ökologischer Nachhaltigkeit. Der Quantisierungsprozess reduziert die Größe und die Rechenanforderungen des Modells, was potenziell die Umweltauswirkungen während der Inferenz durch eine effiziente Ausführung auf Verbraucher-Hardware verringern kann.

Modelluntersuchung

[Mehr Informationen benötigt] - Weitere Analysen und Interpretationsarbeiten bezüglich des Verhaltens des Modells, insbesondere nach der Quantisierung, würden Einblicke in mögliche Leistungsänderungen oder Vorurteile bieten.

Zitation

Wenn Sie dieses Modell in Ihrer Forschung verwenden, zitieren Sie bitte das ursprüngliche LeoLM/leo-hessianai-70b-Modell und die Quantisierungsarbeit von TheBloke und miweru. [Mehr Informationen benötigt] für spezifische Zitationsformate.

Glossar

  • GGUF: Ein Format für quantisierte Modelle, eingeführt vom llama.cpp-Team, entworfen für effiziente Speicherung und Ausführung.
  • Quantisierung: Der Prozess der Reduzierung der Präzision der Gewichte des Modells, was eine reduzierte Modellgröße und Rechenanforderungen ermöglicht.

Weitere Informationen

Für weitere Informationen über den Quantisierungsprozess, das GGUF-Format und wie Sie dieses Modell im llama.cpp-Ökosystem nutzen können, besuchen Sie bitte die folgenden Ressourcen:

English Description

GGUF Quantized Version of LeoLM 70b Chat

LAION LeoLM 70b Chat: Linguistically Enhanced Open Language Model

This model is a quantized version of the LeoLM/leo-hessianai-70b, one of the most powerful publicly available language models for the German language, based on Llama-2. The Q5_K_M quantization method allows the model to run efficiently on hardware such as the MacBook Pro M3 Max. Despite the adjustments made through quantization, the model offers impressive performance for a wide range of text generation and comprehension tasks in German.

Usage Notes

The model is optimized for use in the German language and is well-suited for applications such as text generation, translation, and other NLP tasks. It has been specially quantized to enable local execution on computers with limited resources, without significantly losing accuracy or responsiveness.

Acknowledgments

Special thanks to the llama.cpp team for the quantization code and the LeoLM team for developing the original model. This work would not have been possible without their valuable contributions. Further thanks to TheBloke, on whose explanations the model description is based.

License

Please observe the license terms of the original model as well as any additional guidelines that apply to the use of the quantized version.

Uses

Direct Use

The LeoLM 70B - Q5_K_M quantized model is intended for direct use in natural language processing (NLP) applications, including but not limited to text generation, translation, summarization, and other tasks requiring the processing of the German language.

Downstream Use

The model can further be fine-tuned for specific NLP tasks to improve performance in specialized domains or applications. It can also be integrated into larger systems or platforms that require NLP capabilities.

Out-of-Scope Use

The use of the model for purposes that violate ethical guidelines, support illegal activities, or cause harm to individuals or groups is not intended.

Bias, Risks, and Limitations

The model inherits potential biases and limitations from its training dataset and the risks associated with large language models, including but not limited to the reproduction or amplification of existing societal prejudices.

Recommendations

Users should be aware of the limitations and potential biases of the model and take appropriate measures to mitigate these risks, including reviewing outputs and implementing safety mechanisms.

How to Get Started with the Model

The LeoLM 70B - Q5_K_M quantized model is available in GGUF format and cannot be used directly with the Hugging Face Transformers library. Instead, it is executed with the llama.cpp project, which enables efficient execution of quantized models on various hardware configurations, including support for GPU acceleration.

Installation and Execution with llama.cpp

Visit the llama.cpp GitHub page for instructions on installation and use with GGUF models. After installation, you can run the model using the CLI or server of llama.cpp.

Prompting / Prompt Template

The model supports the following prompt template in ChatML format for interaction:

"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""

The model input can contain multiple conversation turns between user and assistant, e.g.

<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)

Note that in the model, the tokens |im_start| and |im_end| have been replaced due to a tokenizer error.

About GGUF

GGUF is a new format introduced by the llama.cpp team on August 21, 2023. It serves as a replacement for the GGML format, which is no longer supported by llama.cpp. GGUF models are compatible with a variety of clients and libraries, including:

  • llama.cpp: The source project for GGUF. Offers a CLI and a server option.
  • text-generation-webui: The most widely used web UI with many features and powerful extensions. Supports GPU acceleration.
  • KoboldCpp: A fully featured web UI that offers GPU acceleration across all platforms and GPU architectures. Especially suitable for storytelling.
  • GPT4All: A free and open-source GUI for local operation, supporting Windows, Linux, and macOS with full GPU acceleration.
  • LM Studio: A user-friendly and powerful local GUI for Windows and macOS (Silicon) with GPU acceleration. Linux is available as a beta version.
  • LoLLMS Web UI: An excellent web UI with many interesting and unique features, including a complete model library for easy model selection.
  • Faraday.dev: An attractive and easy-to-use chat GUI for Windows and macOS (both Silicon and Intel) with GPU acceleration.
  • llama-cpp-python: A Python library with GPU acceleration, LangChain support, and an OpenAI-compatible API server.

For detailed information on the use of the GGUF format and compatibility with various tools, please visit the respective project pages.

Technical Specifications

Model Architecture and Objective

This model is a quantized version of the LeoLM/leo-hessianai-70b, optimized for text generation and understanding tasks in the German language. It utilizes the transformer architecture for auto-regressive language modeling, adapted for efficient local execution through Q5_K_M quantization.

Training Details

Training Data

The model was pretrained on a diverse corpus of German-language texts, including but not limited to:

  • LeoLM/OpenSchnabeltier
  • OpenAssistant/OASST-DE
  • FreedomIntelligence/alpaca-gpt4-deutsch
  • FreedomIntelligence/evol-instruct-deutsch
  • LeoLM/German_Poems
  • LeoLM/German_Songs

This corpus covers a wide range of topics and styles, providing a broad understanding of the German language.

Training Procedure

The original LeoLM/leo-hessianai-70b model was pretrained using a mixture of unsupervised and supervised learning techniques on the aforementioned datasets. The quantization process was then applied to compress the model into the GGUF format without significant loss in performance.

Evaluation

Testing Data, Factors & Metrics

[More Information Needed] - Evaluation procedures and metrics for the quantized model would depend on the specific tasks and domains it is applied to.

Environmental Impact

The quantization process of this model had a minimal environmental impact. It was carried out on a MacBook Pro M3 Max and lasted only a few minutes. This efficiency is attributed to the advanced computational capabilities of the hardware setup used. By limiting the required computational time and utilizing a single device, the energy consumption during the quantization process was significantly reduced. This highlights the commitment to developing and optimizing powerful AI models with consideration for ecological sustainability. The quantization process reduces the model's size and computational requirements, potentially lowering the environmental impact during inference by enabling efficient execution on consumer-grade hardware.

Model Examination

[More Information Needed] - Further analysis and interpretation work regarding the model's behavior, especially post-quantization, would provide insights into any changes in performance or biases.

Citation

If you use this model in your research, please cite the original LeoLM/leo-hessianai-70b model and the quantization work done by TheBloke and miweru. [More Information Needed] for specific citation formats.

Glossary

  • GGUF: A format for quantized models introduced by the llama.cpp team, designed for efficient storage and execution.
  • Quantization: The process of reducing the precision of the model's weights, allowing for reduced model size and computational requirements.

More Information

For more information on the quantization process, the GGUF format, and how to utilize this model within the llama.cpp ecosystem, please refer to the following resources: