Come eseguire il tuo LLM locale su un Raspberry Pi
Dall’incredibile rilascio di ChatGPT 3 da parte di OpenAI alla fine del 2022, i Large Language Models (LLM) hanno catturato l’immaginazione del mondo dimostrando notevoli capacità, dalla scrittura di saggi alla risposta a domande complesse.
Tuttavia, non è necessario fare affidamento su aziende come OpenAI o Google o Anthropic e condividere dati potenzialmente personali per sfruttare la potenza dei LLM. Con solo un conveniente Raspberry Pi, puoi configurare il tuo assistente locale basato su chat AI. Questa guida ti mostra come.
Di cosa avrai bisogno
Per configurare il tuo LLM su un Raspberry Pi, ci sono alcuni componenti essenziali di cui avrai bisogno:
- Raspberry Pi : poiché gli LLM richiedono molte risorse, è meglio utilizzare il Raspberry Pi più potente disponibile per prestazioni ottimali. Al momento della stesura di questo articolo, la scelta consigliata è il Raspberry Pi 5 con 8 GB di RAM.
- Scheda microSD con sistema operativo Raspberry Pi: per ottenere le massime prestazioni, considera l’utilizzo della versione lite del sistema operativo Raspberry Pi, poiché non è necessaria un’interfaccia utente grafica per eseguire un LLM (puoi interagire con esso in remoto utilizzando un terminale e SSH). Tuttavia, se utilizzi il tuo Raspberry Pi per altre attività o come computer principale, puoi utilizzare la versione normale del sistema operativo Raspberry Pi.
- Componenti aggiuntivi : oltre al Raspberry Pi e una veloce scheda microSD, avrai bisogno di un alimentatore affidabile (si consiglia quello ufficiale), una tastiera, un mouse e un monitor per la configurazione iniziale (opzionale se utilizzi SSH), e una connessione Internet per scaricare il software e i modelli necessari.
Con questi componenti a portata di mano, sei pronto per iniziare a configurare il tuo LLM sul tuo Raspberry Pi.
Installa Ollama
Il primo passo per configurare il tuo LLM su un Raspberry Pi è installare il software necessario. Attualmente, le due scelte più popolari per l’esecuzione di LLM a livello locale sono llama.cpp e Ollama.
- llama.cpp è un’implementazione C++ leggera di LLaMA (Large Language Model Adapter) di Meta che può essere eseguita su un’ampia gamma di hardware, incluso Raspberry Pi. È stato sviluppato da Georgi Gerganov e rilasciato nel marzo 2023.
- Ollama , d’altra parte, è costruito attorno a llama.cpp e offre diverse funzionalità intuitive. Gestisce automaticamente le richieste di template della chat nel formato previsto da ciascun modello e carica e scarica i modelli su richiesta in base alla richiesta del cliente. Ollama gestisce anche il download e la memorizzazione nella cache dei modelli, inclusi i modelli quantizzati, quindi puoi richiederli per nome.
Per questa guida utilizzeremo Ollama per la sua facilità d’uso e le sue funzionalità extra.
Per installare Ollama sul tuo Raspberry Pi, apri una finestra di terminale sul tuo Raspberry Pi. Se utilizzi SSH, connettiti al tuo Raspberry Pi utilizzando il tuo client SSH preferito. Quindi, inserisci il seguente comando nel terminale:
Questo comando scarica ed esegue lo script di installazione dal sito Web ufficiale di Ollama. Lo script installerà automaticamente le dipendenze richieste e configurerà Ollama sul tuo Raspberry Pi.
Scarica ed esegui un LLM
Con Ollama installato, è il momento di scaricare un modello linguistico di grandi dimensioni. Se utilizzi un Raspberry Pi con 8 GB di RAM, puoi eseguire modelli con un massimo di 7 miliardi di parametri (le impostazioni che l’IA utilizza per determinare i suoi output).
Alcune scelte popolari includono Mistral (7B), Gemma (7B o 2B), Llama 2 senza censure (7B) o Phi-3 di Microsoft (3.8B). Puoi visualizzare tutti i modelli supportati nella pagina della libreria Ollama .
Per questa guida utilizzeremo il modello Phi-3 di Microsoft . Nonostante le sue piccole dimensioni ed efficienza, Phi-3 è un modello estremamente capace. Per installarlo è sufficiente eseguire nel terminale il seguente comando:
Questo comando scaricherà e installerà il modello Phi-3 e avvierà automaticamente anche una sessione di chat interattiva con il modello.
Utilizzo di un LLM locale sul tuo Raspberry Pi
Dopo aver scaricato e installato il modello Phi-3, vedrai un messaggio nel terminale simile a questo:
Ciò significa che LLM è in esecuzione e attende il tuo input. Per iniziare a interagire con il modello, digita il tuo messaggio e premi Invio.
Ecco alcuni suggerimenti per creare suggerimenti efficaci:
- Sii specifico : fornisci istruzioni o domande chiare e dettagliate per aiutare il LLM a capire cosa stai cercando.
- Imposta il contesto : fornisci al LLM alcune informazioni di base o uno scenario per aiutarlo a generare risposte più pertinenti.
- Definire i ruoli : specificare il ruolo che il LLM dovrebbe assumere nella sua risposta, ad esempio un narratore, un insegnante o un esperto tecnico.
Per terminare la sessione LLM, premere Ctrl+ do immettere il /bye
comando. Se desideri avviare un’altra sessione in un secondo momento, apri semplicemente un nuovo terminale ed esegui il ollama run phi3
comando. Poiché il modello è già scaricato, si avvierà rapidamente senza bisogno di scaricarlo nuovamente.
Tieni presente che le prestazioni del Raspberry Pi 5 hanno i suoi limiti e possono emettere solo pochi token al secondo. Per prestazioni migliori, considera l’esecuzione di Ollama su un computer più potente con una scheda grafica dedicata.
Credito immagine: Unsplash . Schermate di David Morelo.
Lascia un commento