So starten Sie mit LLMs in Ihren vier Wänden: Ein schneller Leitfaden

LLMs sind das heißeste Thema und das seit der Einführung von ChatGPT. Der Bereich entwickelt sich mit erstaunlichem Tempo, wobei jeder Tag neue Modelle, Frameworks und Ankündigungen bringt. Inmitten dieser Explosion (wir weigern uns, es als „Hype“ zu bezeichnen), waren wir zumindest in Europa auch ein wenig vorsichtig und kritisch: Wenn wir LLMs in der Cloud nutzen, wer sammelt unsere Daten? Sie möchten nicht die Person sein, die Unternehmensgeheimnisse an ChatGPT weitergibt, nur um zu sehen, dass sie in einer anderen Präsentation wieder auftauchen (das ist tatsächlich passiert, siehe hier).

Stattdessen können Sie dank Open-Source- (oder zumindest Open-Weights) Modellen wie dem unglaublichen LLaMa 3 LLMs problemlos auf Ihrem eigenen Computer ausführen und die Kontrolle über Ihre Daten behalten! Wie Sie vielleicht gehört haben, sind LLMs sehr leistungsintensiv und haben einen besonders hohen Bedarf an dem Speicher Ihrer Grafikkarten – diese Milliarden von Parametern müssen irgendwo gespeichert werden. Keine Angst, aber schauen Sie erneut auf Open Source: Die Community hat schnell Wege gefunden, um die Speicheranforderungen zu reduzieren, durch einen Prozess, der als Quantisierung bezeichnet wird. Sie können sich das vorstellen, als ob die Anzahl der Dezimalstellen für jeden Parameter des Netzwerks eingeschränkt wird. Offensichtlich kann eine aggressivere Quantisierung schnell zu falschen Ergebnissen führen. Wenn Sie es übertreiben, kann das Folgendes passieren:

Nach unserer Erfahrung führt die Quantisierung der Gewichte auf 4-Bit („q4“) von 16-Bit („fp16“) zu einigen Schäden, aber die Netzwerke sind dennoch vollkommen nutzbar. Im Gegenzug können wir größere (und damit bessere!) LLMs auf Ihrem Computer ausführen. Während wir täglich neue LLMs und Feinabstimmungen (siehe weiter unten) sehen, haben wir einige ausgewählt, die wir schon lange nutzen. Die folgende Tabelle zeigt einige empfohlene LLMs für verschiedene Anwendungen. Ein „x“ bedeutet, dass dieses System das LLM verarbeiten kann.

Bitte beachten Sie, dass einige Systeme zwar größere Netzwerke ausführen können, dies jedoch in Bezug auf die Ausführungsgeschwindigkeit möglicherweise nicht ratsam ist. Ebenso ist diese Tabelle stark vereinfacht – die Speicheranforderungen hängen auch von der Länge der Eingaben (der Kontextgröße) ab.

Nun, da dies geklärt ist, lassen Sie uns endlich eines dieser LLMs ausführen. Dafür verwenden wir Ollama, einen benutzerfreundlichen LLM-Server-in-a-Box. Befolgen Sie bitte die Installationsanweisungen auf der „Download“-Seite. Nach Abschluss des Installationsprozesses reicht ein einfaches:

ollama run phi3

genügt es, die folgenden Schritte auszuführen:

Der wahre Clou ist jedoch unsichtbar: Ein OpenAI-kompatibler Server wird im Hintergrund auf Port 11434 gestartet. Dadurch können Sie Ihr lokales LLM nun in die meisten Apps integrieren, die mit der OpenAI API arbeiten. Dies eröffnet unzählige Möglichkeiten – bleiben Sie dran für die nächsten Beiträge, in denen wir einige Plug-and-Play-Beispiele (mit Code!) vorstellen.

Konzentrieren wir uns vorerst wieder auf den Chat. Ollamas Chat im Terminal ist gut, aber wir wollen mehr Komfort – mehrere Gespräche und Speicher – denken Sie an eine ChatGPT-Oberfläche. Zum Glück bietet die Open-Source-Community erneut Lösungen. Wenn Docker installiert ist, führen Sie den folgenden Befehl aus:

docker run -d --network=host -e OLLAMA_BASE_URL=http://127.0.0.1:11434 -e WEBUI_AUTH=False -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Nach etwa 30 Sekunden öffnen Sie Ihren Browser unter http://localhost:8080, wählen Ihr Modell in der oberen linken Ecke aus und beginnen zu chatten!

Damit endet unser kurzer Einstiegsguide. Halten Sie Ausschau nach weiteren Beiträgen, in denen wir Anwendungen vorstellen, in denen Ihre LLMs nützlich sind. Bis dahin, probieren Sie es aus und bringen Sie Ihre Maschine an ihre Grenzen!

p.s. Unterhalb der „KI“-Schicht führt Ihre Maschine eigentlich klassische HPC-Operationen aus. Falls Ihr LLM zu langsam läuft, zögern Sie nicht, uns zu kontaktieren – schließlich ist Performance-Tuning für HPC unsere Kernkompetenz bei HPCLabs!

© Copyright 2024 HPCLabs
DatenschutzImpressum
Website erstellt von Mahna Mahna