Execute facilmente modelos de IA localmente no Windows 11 com os novos recursos da Microsoft
Os PCs Copilot+ representam um avanço inovador como os computadores inaugurais capazes de executar Small Language Models (SLM) diretamente no dispositivo. Essa tecnologia inovadora oferece vantagens significativas ao fornecer resultados mais rápidos para várias tarefas, como geração de imagem e texto, em comparação ao aplicativo Copilot baseado em nuvem. Recentemente, a Microsoft revelou a AI Dev Gallery, que simplifica a integração de recursos de IA no dispositivo em qualquer aplicativo.
A AI Dev Gallery foi projetada especificamente para desenvolvedores interessados em testar vários modelos para aprimorar seus aplicativos com recursos de IA. Esta ferramenta fornece acesso a mais de 25 amostras para download, que podem ser facilmente executadas em seu dispositivo. Além disso, os usuários podem exportar projetos ou código-fonte diretamente para seus aplicativos para funcionalidade imediata. É compatível com Windows 10 e 11, suportando arquiteturas x64 e ARM64.
Em um experimento interessante, o Windows Latest duplicou a AI Dev Gallery de seu repositório GitHub. Atualmente, acessá-la requer a construção do projeto por meio do Visual Studio antes da execução. Além disso, é necessário um mínimo de 20 GB de armazenamento e uma CPU multi-core. Embora uma GPU com 8 GB de VRAM seja recomendada, ela só é essencial para modelos mais exigentes.
Iniciamos nossos testes com um PC Windows 11 equipado com uma CPU de 4 núcleos e 4 GB de RAM. O aplicativo tem dois modos operacionais: Sample e Models. Utilizamos o modo Sample para explorar os diversos modelos disponíveis, que são organizados em categorias, incluindo Texto, Imagem, Código, Áudio e Vídeo e Controles Inteligentes.
Avaliando os modelos
Os modelos disponíveis para geração de imagem e vídeo são relativamente grandes, com tamanhos próximos a 5 GB. Nossa escolha inicial foi um modelo menor focado em upscaling, que era abaixo de 100 MB. Tiramos uma captura de tela e tentamos fazer o upscaling usando nossa CPU para processamento. Notavelmente, a opção de alternar entre CPU e GPU para processar solicitações está disponível.
O processo de upscaling foi concluído em menos de 30 segundos nesta modesta máquina virtual, resultando em uso temporário de RAM com pico de 1 GB. O aplicativo então exibiu uma imagem upscaling com resolução de 9272*4900. No entanto, a qualidade dos elementos da imagem, particularmente texto, foi significativamente comprometida e tornou-se ilegível.
Infelizmente, não há nenhuma funcionalidade disponível para visualizar a imagem gerada em um formato maior ou em modo de tela cheia, nem há uma opção para baixar a imagem diretamente para o seu disco.
Prosseguimos testando outro modelo, conhecido como Detect Human Pose , que é projetado para verificar o posicionamento de indivíduos dentro de uma imagem. Este modelo reconheceu com sucesso uma figura simples caminhando, mas também começou a exibir marcadores de posição sobre capturas de tela de nossa área de trabalho apresentando vários aplicativos abertos.
Embora os meios exatos de integrar esses modelos em aplicativos permaneçam obscuros, certos recursos podem, de fato, ser executados localmente. No entanto, os PCs exigirão espaço de armazenamento substancial para esses modelos, juntamente com CPUs robustas e pelo menos 16 GB de RAM.
O que você acha disso? Vale a pena baixar um modelo robusto de 5 GB para transformar um prompt de texto em uma imagem ou seria mais eficiente esperar 30 segundos usando um aplicativo baseado na web? É evidente que muitos desses recursos atendem a casos de uso e ambientes operacionais específicos, o que pode não necessariamente atrair o público demográfico mais amplo de usuários do Windows 11.
Deixe um comentário