Como usar o OpenAI Whisper no Windows PC

2023/05/30

O OpenAI Whisper transformará sua voz em texto em dispositivos Windows 11/10. Como este programa está em desenvolvimento pela OpenAI , deve ficar claro que a inteligência artificial está no centro do que ela pode fazer. E se o ChatGPT é algo a se seguir, você pode confiar que a tecnologia de IA que alimenta o Whisper é de primeira linha.

Além disso, temos que dizer que o Whisper é perfeito para quem deseja converter voz em texto, mas está com pouco dinheiro. Isso porque o aplicativo baseado em IA é gratuito para baixar e usar.

Quais são algumas das desvantagens do Whisper?

A instalação é provavelmente a única parte que a maioria dos usuários não gostará. Isso porque não é simples. Requer um processo mais longo do que o considerado normal e isso pode ser um problema para usuários iniciantes.

Além disso, as GPUs AMD não são suportadas. Isso porque essas GPUs não suportam CUDA, uma ferramenta criada pela NVIDIA e considerada uma plataforma de computação paralela e modelo de programação.

Portanto, do jeito que está, o CUDA suporta apenas GPUs NVIDIA, e a alternativa mais próxima a ele do ponto de vista da AMD é a Radeon Compute Platform e o OpenCL. Suspeitamos que o OpenAI suportará tais plataformas no futuro, então, por enquanto, é preciso esperar.

Ainda assim, temos que apontar que CUDA é mais maduro quando comparado a outros, então essa pode ser a principal razão pela qual OpenAI decidiu renunciar ao OpenCL e Radeon Compute Platform no momento.

Como baixar e instalar o OpenAIs Whisper no Windows 11/10

Instalar e usar o Whisper em um computador requer o uso do PowerShell e a instalação de ferramentas importantes, como Python, etc. As etapas envolvidas são:

Baixe e instale Python
Baixe e instale o PIP
Baixe e instale Chocolate
Baixe e instale o FFMPEG
Baixe e instale o Whisper
Converta áudio em texto com Whisper

1] Baixe e instale o Python

Se você ainda não o fez, visite o site oficial do Python , baixe e instale o aplicativo.

Lembre-se de que o Python não possui uma interface de usuário, portanto, tudo é feito via linha de comando.

2] Baixe e instale o PIP

O problema é o seguinte: se você estiver usando o Python 2.7.9 ou superior, o PIP será instalado por padrão. Isso ocorre porque o PIP está embutido no instalador do Python, então sugerimos baixar a versão mais recente porque as versões mais antigas não serão suportadas para sempre.

3] Baixe e instale o Chocolatey

Finalmente, você deve reservar um tempo para baixar o pacote Chocolatey para o seu computador.

Para fazer isso, abra o PowerShell em seu computador como administrador .

Devemos garantir que Get-ExecutionPolicy não seja restrito, portanto, execute o seguinte comando e pressione a tecla Enter.

Get-ExecutionPolicy

Se você vir Restrito, execute:

Set-ExecutionPolicy AllSigned

Set-ExecutionPolicy Bypass -Scope Process

Se tudo correr conforme o planejado, você verá a seguinte mensagem:

Certifique-se de pressionar a tecla Enter logo após colar para executar o comando. A política de execução ajuda a protegê-lo de scripts nos quais você não confia. Alterar a política de execução pode expor você aos riscos de segurança descritos no tópico de ajuda sobre Políticas de Execução em https:/go.microsoft.com/fwlink/?LinkID=135170.

Digite Y para sim e clique na tecla Enter para oficializar as alterações.

Agora, você deve colar o seguinte comando no PowerShell e, como de costume, pressionar a tecla Enter:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

Aguarde pacientemente que o Chocolatey seja instalado em seu computador.

4] Baixe e instale o FFMPEG

O próximo passo, então, é baixar e instalar o FFMPEG . Isso só pode ser feito se o Chocolatey estiver instalado. Além disso, a instalação deve ser realizada por meio da ferramenta PowerShell.

Copie e cole o seguinte comando no PowerShell e selecione Enter:

choco install ffmpeg

Você também deve instalar a versão Python do FFMPEG por meio deste comando:

pip3 install python-ffmpeg

5] Baixe e instale o Whisper

Finalmente, use o seguinte comando para obter o Whisper em seu computador:

pip3 install git+https://github.com/openai/whisper.git

Agora tudo deve estar indo na direção certa, então parabenize-se.

6] Converta áudio em texto com o Whisper

Com tudo instalado e pronto, é hora de transcrever. Como não há GUI , o prompt de comando é seu único amigo.

Agora, antes de começarmos, você deve gravar um arquivo de áudio, ou preparar um já salvo em seu computador.

Então digamos, por exemplo, que temos um arquivo de áudio chamado TWCAudio.mp3 , armazenado em uma pasta chamada TWCThings .

A primeira coisa a fazer aqui é alterar o diretório usando este comando:

cd C:\TWCThings

Execute a ferramenta Whisper no arquivo com este comando:

whisper --model base --language gr --task translate TWCAudio.mp3

Volte para a pasta e procure um arquivo de texto. Dentro desse arquivo está o áudio traduzido em forma de texto.

Você pode executar o Whisper localmente?

Sim, é possível executar o Whisper localmente em seu computador pessoal ou a partir de uma plataforma de nuvem que suporte a execução deste aplicativo de reconhecimento de fala de código aberto.

O Whisper AI pode ser usado offline?

A ferramenta Whisper AI oferece suporte ao uso offline, mas funcionará melhor em um computador poderoso e rápido. Um computador mais fraco obrigará o usuário a esperar muito tempo para que os arquivos sejam transcritos, e tudo depende da duração da gravação do áudio.