Comment exécuter votre propre LLM local sur un Raspberry Pi
Depuis la sortie époustouflante de ChatGPT 3 par OpenAI fin 2022, les grands modèles linguistiques (LLM) ont captivé l’imagination du monde en démontrant des capacités remarquables, de la rédaction d’essais à la réponse à des questions complexes.
Cependant, vous n’avez pas besoin de compter sur des entreprises comme OpenAI, Google ou Anthropic et de partager des données potentiellement personnelles pour profiter de la puissance des LLM. Avec juste un Raspberry Pi abordable, vous pouvez configurer votre propre assistant local basé sur le chat IA. Ce guide vous montre comment.
Ce dont vous aurez besoin
Pour configurer votre propre LLM sur un Raspberry Pi, vous aurez besoin de quelques composants essentiels :
- Raspberry Pi : Les LLM étant gourmands en ressources, il est préférable d’utiliser le Raspberry Pi le plus puissant disponible pour des performances optimales. Au moment de la rédaction de cet article, le Raspberry Pi 5 avec 8 Go de RAM est le choix recommandé.
- Carte microSD avec Raspberry Pi OS : pour des performances maximales, pensez à utiliser la version allégée du Raspberry Pi OS, car une interface utilisateur graphique n’est pas nécessaire pour exécuter un LLM (vous pouvez interagir avec lui à distance à l’aide d’un terminal et de SSH). Cependant, si vous utilisez votre Raspberry Pi pour d’autres tâches ou comme ordinateur principal, vous pouvez utiliser la version standard du système d’exploitation Raspberry Pi.
- Composants supplémentaires : Outre le Raspberry Pi et une carte microSD rapide, vous aurez besoin d’une alimentation fiable (l’alimentation officielle est recommandée), d’un clavier, d’une souris et d’un moniteur pour la configuration initiale (facultatif si vous utilisez SSH), et une connexion Internet pour télécharger les logiciels et les modèles nécessaires.
Avec ces composants en main, vous êtes prêt à commencer à configurer votre propre LLM sur votre Raspberry Pi.
Installer Ollama
La première étape pour configurer votre propre LLM sur un Raspberry Pi consiste à installer le logiciel nécessaire. Actuellement, les deux choix les plus populaires pour exécuter des LLM localement sont llama.cpp et Ollama.
- llama.cpp est une implémentation C++ légère du LLaMA (Large Language Model Adapter) de Meta qui peut fonctionner sur une large gamme de matériel, y compris Raspberry Pi. Il a été développé par Georgi Gerganov et publié en mars 2023.
- Ollama , quant à lui, est construit autour de lama.cpp, offrant plusieurs fonctionnalités conviviales. Il gère automatiquement les demandes de discussion de modèles au format attendu par chaque modèle, et charge et décharge les modèles à la demande en fonction de la demande du client. Ollama gère également le téléchargement et la mise en cache des modèles, y compris les modèles quantifiés, afin que vous puissiez les demander par leur nom.
Pour ce guide, nous utiliserons Ollama en raison de sa facilité d’utilisation et de ses fonctionnalités supplémentaires.
Pour installer Ollama sur votre Raspberry Pi, ouvrez une fenêtre de terminal sur votre Raspberry Pi. Si vous utilisez SSH, connectez-vous à votre Raspberry Pi à l’aide de votre client SSH préféré. Ensuite, entrez la commande suivante dans le terminal :
Cette commande télécharge et exécute le script d’installation à partir du site officiel d’Ollama. Le script installera automatiquement les dépendances requises et configurera Ollama sur votre Raspberry Pi.
Téléchargez et exécutez un LLM
Une fois Ollama installé, il est temps de télécharger un grand modèle de langage. Si vous utilisez un Raspberry Pi avec 8 Go de RAM, vous pouvez exécuter des modèles avec jusqu’à 7 milliards de paramètres (les paramètres que l’IA utilise pour déterminer ses sorties).
Certains choix populaires incluent Mistral (7B), Gemma (7B ou 2B), Llama 2 non censuré (7B) ou Phi-3 de Microsoft (3,8B). Vous pouvez voir tous les modèles pris en charge sur la page de la bibliothèque Ollama .
Pour ce guide, nous utiliserons le modèle Phi-3 de Microsoft . Malgré sa petite taille et son efficacité, le Phi-3 est un modèle extrêmement performant. Pour l’installer, exécutez simplement la commande suivante dans le terminal :
Cette commande téléchargera et installera le modèle Phi-3, et démarrera également automatiquement une session de discussion interactive avec le modèle.
Utiliser un LLM local sur votre Raspberry Pi
Après avoir téléchargé et installé le modèle Phi-3, vous verrez une invite dans le terminal qui ressemble à ceci :
Cela signifie que le LLM est en cours d’exécution et attend votre contribution. Pour commencer à interagir avec le modèle, saisissez votre message et appuyez sur Entrée.
Voici quelques conseils pour créer des invites efficaces :
- Soyez précis : fournissez des instructions ou des questions claires et détaillées pour aider le LLM à comprendre ce que vous recherchez.
- Définir le contexte : donnez au LLM des informations de base ou un scénario pour l’aider à générer des réponses plus pertinentes.
- Définir les rôles : Précisez le rôle que le LLM doit assumer dans sa réponse, comme un conteur, un enseignant ou un expert technique.
Pour terminer la session LLM, appuyez sur Ctrl+ dou entrez la /bye
commande. Si vous souhaitez démarrer une autre session plus tard, ouvrez simplement un nouveau terminal et exécutez la ollama run phi3
commande. Le modèle étant déjà téléchargé, il démarrera rapidement sans avoir besoin de le télécharger à nouveau.
Gardez à l’esprit que les performances du Raspberry Pi 5 ont leurs limites et qu’il ne peut produire que quelques jetons par seconde. Pour de meilleures performances, envisagez d’exécuter Ollama sur un ordinateur plus puissant doté d’une carte graphique dédiée.
Crédit image : Unsplash . Captures d’écran de David Morelo.
Laisser un commentaire