So verwenden Sie OpenAI Whisper auf einem Windows-PC

2023/05/30

OpenAI Whisper wandelt Ihre Stimme auf Windows 11/10-Geräten in Text um. Da dieses Programm von OpenAI entwickelt wird , sollte klar sein, dass künstliche Intelligenz im Mittelpunkt seiner Möglichkeiten steht. Und wenn ChatGPT in Frage kommt, können Sie darauf vertrauen, dass die KI-Technologie, die Whisper antreibt, erstklassig ist.

Darüber hinaus müssen wir sagen, dass Whisper perfekt für diejenigen ist, die Sprache in Text umwandeln möchten, aber wenig Geld haben. Das liegt daran, dass die KI-gestützte Anwendung kostenlos heruntergeladen und verwendet werden kann.

Was sind einige der Nachteile von Whisper?

Die Installation ist wahrscheinlich der Teil, der den meisten Benutzern nicht gefallen wird. Das liegt daran, dass es nicht einfach ist. Es erfordert einen längeren Prozess als üblich, und das kann für unerfahrene Benutzer ein Problem darstellen.

Darüber hinaus werden AMD-GPUs nicht unterstützt. Das liegt daran, dass diese GPUs CUDA nicht unterstützen, ein von NVIDIA entwickeltes Tool, das als Parallel-Computing-Plattform und Programmiermodell gilt.

So wie es aussieht, unterstützt CUDA nur NVIDIA-GPUs, und die nächstgelegene Alternative dazu aus AMDs Sicht sind die Radeon Compute Platform und OpenCL. Wir vermuten, dass OpenAI solche Plattformen in Zukunft unterstützen wird, daher muss man vorerst warten.

Dennoch müssen wir darauf hinweisen, dass CUDA im Vergleich zu anderen ausgereifter ist, was der Hauptgrund sein könnte, warum OpenAI beschlossen hat, vorerst auf die OpenCL- und Radeon Compute-Plattform zu verzichten.

So laden Sie OpenAIs Whisper unter Windows 11/10 herunter und installieren es

Die Installation und Verwendung von Whisper auf einem Computer erfordert die Verwendung von PowerShell und die Installation wichtiger Tools wie Python usw. Die erforderlichen Schritte sind:

Laden Sie Python herunter und installieren Sie es
Laden Sie PIP herunter und installieren Sie es
Laden Sie Chocolatey herunter und installieren Sie es
Laden Sie FFMPEG herunter und installieren Sie es
Laden Sie Whisper herunter und installieren Sie es
Konvertieren Sie Audio mit Whisper in Text

1] Laden Sie Python herunter und installieren Sie es

Wenn Sie dies noch nicht getan haben, besuchen Sie bitte die offizielle Python-Website , laden Sie die Anwendung herunter und installieren Sie sie.

Bedenken Sie, dass Python keine Benutzeroberfläche hat und daher alles über die Befehlszeile erledigt wird.

2] Laden Sie PIP herunter und installieren Sie es

Hier ist die Sache: Wenn Sie Python 2.7.9 oder höher verwenden , wird PIP standardmäßig installiert. Dies liegt daran, dass PIP in das Python-Installationsprogramm integriert ist. Wir empfehlen daher, die neueste Version herunterzuladen, da die älteren Versionen nicht dauerhaft unterstützt werden.

3] Laden Sie Chocolatey herunter und installieren Sie es

Schließlich müssen Sie sich die Zeit nehmen, das Chocolatey- Paket auf Ihren Computer herunterzuladen .

Öffnen Sie dazu PowerShell auf Ihrem Computer als Admin .

Wir müssen sicherstellen, dass Get-ExecutionPolicy nicht eingeschränkt ist. Führen Sie daher den folgenden Befehl aus und drücken Sie die Eingabetaste.

Get-ExecutionPolicy

Wenn „Eingeschränkt“ angezeigt wird, führen Sie bitte Folgendes aus:

Set-ExecutionPolicy AllSigned

Oder

Set-ExecutionPolicy Bypass -Scope Process

Wenn alles nach Plan verläuft, wird folgende Meldung angezeigt:

Stellen Sie sicher, dass Sie direkt nach dem Einfügen die Eingabetaste drücken, um den Befehl auszuführen. Die Ausführungsrichtlinie schützt Sie vor Skripten, denen Sie nicht vertrauen. Wenn Sie die Ausführungsrichtlinie ändern, sind Sie möglicherweise den Sicherheitsrisiken ausgesetzt, die im Hilfethema „Ausführungsrichtlinien“ unter https://go.microsoft.com/fwlink/?LinkID=135170 beschrieben werden.

Geben Sie „Y“ für „Ja“ ein und klicken Sie dann auf die Eingabetaste , um die Änderungen offiziell zu machen.

Jetzt müssen Sie den folgenden Befehl in PowerShell einfügen und wie gewohnt die Eingabetaste drücken:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

Warten Sie geduldig, bis Chocolatey auf Ihrem Computer installiert ist.

4] Laden Sie FFMPEG herunter und installieren Sie es

Der nächste Schritt besteht dann darin, FFMPEG herunterzuladen und zu installieren . Dies ist nur möglich, wenn Chocolatey installiert ist. Außerdem muss die Installation über das PowerShell-Tool erfolgen.

Kopieren Sie den folgenden Befehl, fügen Sie ihn in PowerShell ein und drücken Sie die Eingabetaste:

choco install ffmpeg

Sie müssen auch die Python-Version von FFMPEG über diesen Befehl installieren:

pip3 install python-ffmpeg

5] Laden Sie Whisper herunter und installieren Sie es

Verwenden Sie abschließend den folgenden Befehl, um Whisper auf Ihren Computer zu laden:

pip3 install git+https://github.com/openai/whisper.git

Jetzt sollte sich alles in die richtige Richtung bewegen, also gratulieren Sie sich selbst.

6] Konvertieren Sie Audio mit Whisper in Text

Nachdem alles installiert und einsatzbereit ist, ist es nun an der Zeit zu transkribieren. Da es keine grafische Benutzeroberfläche gibt , ist die Eingabeaufforderung Ihr einziger Freund.

Bevor wir beginnen, müssen Sie nun eine Audiodatei aufnehmen oder eine bereits auf Ihrem Computer gespeicherte Datei vorbereiten.

Nehmen wir zum Beispiel an, wir haben eine Audiodatei namens TWCAudio.mp3 , die in einem Ordner namens TWCThings gespeichert ist .

Hier müssen Sie zunächst das Verzeichnis ändern, indem Sie diesen Befehl verwenden:

cd C:\TWCThings

Führen Sie das Whisper-Tool mit diesem Befehl für die Datei aus:

whisper --model base --language gr --task translate TWCAudio.mp3

Kehren Sie zum Ordner zurück und suchen Sie nach einer Textdatei. In dieser Datei befindet sich das übersetzte Audio in Textform.

Können Sie Whisper lokal ausführen?

Ja, es ist möglich, Whisper lokal auf Ihrem PC oder von einer Cloud-Plattform auszuführen, die die Ausführung dieser Open-Source-Spracherkennungsanwendung unterstützt.

Kann Whisper AI offline verwendet werden?

Das Whisper AI-Tool unterstützt die Offline-Nutzung, funktioniert jedoch am besten auf einem leistungsstarken und schnellen Computer. Ein schwächerer Computer zwingt den Benutzer dazu, lange auf die Transkription der Dateien zu warten, und alles hängt von der Länge der Audioaufnahme ab.