Jak korzystać z OpenAI Whisper na komputerze z systemem Windows

2023/05/30

OpenAI Whisper zamieni Twój głos na tekst na urządzeniach z systemem Windows 11/10. Ponieważ ten program jest rozwijany przez OpenAI , powinno być jasne, że sztuczna inteligencja leży u podstaw tego, co może zrobić. A jeśli ChatGPT jest czymś godnym uwagi, możesz ufać, że technologia sztucznej inteligencji, która napędza Whisper, jest najwyższej klasy.

Dodatkowo musimy powiedzieć, że Whisper jest idealny dla tych, którzy chcą zamienić głos na tekst, ale mają mało funduszy. To dlatego, że aplikację opartą na sztucznej inteligencji można pobrać i używać bezpłatnie.

Jakie są wady Whisper?

Instalacja jest prawdopodobnie jedyną częścią, której większość użytkowników nie polubi. To dlatego, że nie jest to proste. Wymaga to dłuższego procesu niż to, co jest uważane za normalne, i może to stanowić problem dla początkujących użytkowników.

Ponadto procesory graficzne AMD nie są obsługiwane. To dlatego, że te procesory graficzne nie obsługują CUDA, narzędzia stworzonego przez firmę NVIDIA i uznawanego za równoległą platformę obliczeniową i model programowania.

W tej chwili CUDA obsługuje tylko procesory graficzne NVIDIA, a najbliższą alternatywą z punktu widzenia AMD są Radeon Compute Platform i OpenCL. Podejrzewamy, że OpenAI będzie obsługiwał takie platformy w przyszłości, więc na razie trzeba czekać.

Mimo to musimy zaznaczyć, że CUDA jest bardziej dojrzała w porównaniu z innymi, więc może to być główny powód, dla którego OpenAI zdecydowało się chwilowo zrezygnować z OpenCL i Radeon Compute Platform.

Jak pobrać i zainstalować OpenAIs Whisper w systemie Windows 11/10

Instalacja i używanie Whisper na komputerze wymaga użycia PowerShell i instalacji kluczowych narzędzi, takich jak Python itp. Wymagane kroki to:

Pobierz i zainstaluj Pythona
Pobierz i zainstaluj PIP
Pobierz i zainstaluj Chocolatey
Pobierz i zainstaluj FFMPEG
Pobierz i zainstaluj Szept
Konwertuj dźwięk na tekst za pomocą Whisper

1] Pobierz i zainstaluj Pythona

Jeśli jeszcze tego nie zrobiłeś, odwiedź oficjalną stronę Pythona , a następnie pobierz i zainstaluj aplikację.

Pamiętaj, że Python nie ma interfejsu użytkownika, dlatego wszystko odbywa się za pomocą wiersza poleceń.

2] Pobierz i zainstaluj PIP

Chodzi o to, że jeśli używasz Pythona 2.7.9 lub nowszego, PIP jest instalowany domyślnie. Dzieje się tak, ponieważ PIP jest wbudowany w instalator Pythona, dlatego zalecamy pobranie najnowszej wersji, ponieważ starsze wersje nie będą obsługiwane na zawsze.

3] Pobierz i zainstaluj Chocolatey

Na koniec musisz poświęcić trochę czasu na pobranie pakietu Chocolatey na swój komputer.

Aby to zrobić, otwórz PowerShell na swoim komputerze jako administrator .

Musimy upewnić się, że Get-ExecutionPolicy nie jest ograniczone, więc uruchom następujące polecenie i naciśnij klawisz Enter.

Get-ExecutionPolicy

Jeśli widzisz Ograniczone, uruchom:

Set-ExecutionPolicy AllSigned

Lub

Set-ExecutionPolicy Bypass -Scope Process

Jeśli wszystko pójdzie zgodnie z planem, zobaczysz następujący komunikat:

Pamiętaj, aby nacisnąć klawisz Enter zaraz po wklejeniu, aby uruchomić polecenie. Zasady wykonywania pomagają chronić Cię przed skryptami, którym nie ufasz. Zmiana zasad wykonywania może narazić użytkownika na zagrożenia bezpieczeństwa opisane w temacie pomocy dotyczącym zasad wykonywania pod adresem https://go.microsoft.com/fwlink/?LinkID=135170.

Wpisz Y , aby potwierdzić, a następnie kliknij klawisz Enter , aby oficjalnie wprowadzić zmiany.

Teraz musisz wkleić następujące polecenie do PowerShell i jak zwykle naciśnij klawisz Enter:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

Poczekaj cierpliwie, aż Chocolatey zostanie zainstalowany na twoim komputerze.

4] Pobierz i zainstaluj FFMPEG

Następnym krokiem jest zatem pobranie i instalacja FFMPEG . Można to zrobić tylko wtedy, gdy zainstalowano Chocolatey. Ponadto instalację należy przeprowadzić za pomocą narzędzia PowerShell.

Skopiuj i wklej następujące polecenie do PowerShell i wybierz Enter:

choco install ffmpeg

Musisz także zainstalować wersję Pythona FFMPEG za pomocą tego polecenia:

pip3 install python-ffmpeg

5] Pobierz i zainstaluj Whisper

Na koniec użyj następującego polecenia, aby pobrać Whisper na swój komputer:

pip3 install git+https://github.com/openai/whisper.git

Wszystko powinno teraz zmierzać we właściwym kierunku, więc pogratuluj sobie.

6] Konwertuj dźwięk na tekst za pomocą Whisper

Gdy wszystko jest zainstalowane i gotowe do pracy, nadszedł czas na transkrypcję. Ponieważ nie ma GUI , wiersz poleceń jest twoim jedynym przyjacielem.

Teraz, zanim zaczniemy, musisz nagrać plik audio lub przygotować już zapisany na komputerze.

Powiedzmy na przykład, że mamy plik audio o nazwie TWCAudio.mp3 , przechowywany w folderze o nazwie TWCThings .

Pierwszą rzeczą do zrobienia tutaj jest zmiana katalogu za pomocą tego polecenia:

cd C:\TWCThings

Uruchom narzędzie Whisper na pliku za pomocą tego polecenia:

whisper --model base --language gr --task translate TWCAudio.mp3

Wróć do folderu i poszukaj pliku tekstowego. W tym pliku znajduje się przetłumaczony dźwięk w formie tekstowej.

Czy możesz uruchomić Whisper lokalnie?

Tak, Whisper można uruchomić lokalnie na komputerze osobistym lub z platformy w chmurze, która obsługuje tę aplikację do rozpoznawania mowy typu open source.

Czy Whisper AI może być używany offline?

Narzędzie Whisper AI obsługuje tryb offline, ale najlepiej będzie działać na komputerze, który jest wydajny i szybki. Słabszy komputer zmusi użytkownika do długiego oczekiwania na transkrypcję plików, a wszystko zależy od długości nagrania audio.