A XDA passou a semana comparando Gemma 4 contra Qwen 3.5 no mesmo desktop, e a thread de comentários provou um ponto mais tranquilo: a maioria dos leitores já tinha uma stack de LLM local em execução. A categoria saiu dos brinquedos de hobby. Modelos quantizados 7B e 14B são bons o suficiente para revisão de código, resumo e escrita rotineira, a nova onda de modelos MoE de tamanho médio estreitou a lacuna com modelos fronteiriços fechados, e os aplicativos que envolvem llama.cpp começaram a parecer software real.
Testamos 8 dos melhores aplicativos para executar LLMs locais em Windows, macOS e Linux. O benchmark era a coisa entediante: com que rapidez iniciam um modelo em um laptop Ryzen, com que limpeza eles lidam com offload de GPU em uma placa RTX, se a interface de chat é realmente agradável, e quanto eles quebram quando o próximo grande modelo chega. Os preços importam menos do que o usual nesta categoria, já que a maioria das opções fortes são gratuitas.
O que procurar em um aplicativo de LLM local
Alguns critérios separam as ferramentas que sobrevivem a uma semana de uso diário daquelas que são desinstaladas:
- Portabilidade de backend. llama.cpp é o runtime de facto. Aplicativos que o envolvem limpo obtêm correções de bugs gratuitamente. Aplicativos que mantêm seus próprios forks ficam para trás em novas arquiteturas de modelos.
- Suporte de quantização. GGUF é o formato que realmente é enviado. Se um aplicativo não puder carregar um arquivo GGUF recente, é um beco sem saída.
- Offload de GPU. CUDA em Nvidia, ROCm em AMD, Metal em Apple Silicon. As ferramentas diferem muito em quanto de cada uma realmente usam.
- Chat UI vs API. Alguns usuários querem uma janela de chat polida. Outros querem um endpoint compatível com OpenAI local para conectar extensões de editor. Os aplicativos mais fortes oferecem ambos.
- Descoberta de modelos. Hugging Face é o catálogo. Aplicativos que cozem a pesquisa e download em um clique economizam tempo real.
- Postura de privacidade. Alguns aplicativos são executados completamente offline. Outros ligam para casa para análises por padrão e precisam de uma bandeira para parar.
Comparação rápida
| Aplicativo | Melhor para | Plataformas | Plano gratuito | Recurso destacado |
|---|---|---|---|---|
| Ollama | Instalações de uma linha e CLI que você pode escrever | Windows, macOS, Linux | Sim (open source) | API compatível com OpenAI em localhost |
| LM Studio | Interface de chat polida com pesquisa de modelo integrada | Windows, macOS, Linux | Sim (gratuito para uso pessoal) | Integração Hugging Face com filtragem quant |
| Jan | Cliente de chat totalmente open-source que respeita modo offline | Windows, macOS, Linux | Sim (open source) | Sem telemetria e história de configurações limpa |
| GPT4All | Chat leve para laptops sem GPU | Windows, macOS, Linux | Sim (open source) | Quants otimizados para CPU em máquinas com pouca RAM |
| Msty | Visualização dividida multimodelo para comparações lado a lado | Windows, macOS, Linux | Sim (tier gratuito) | Compare dois modelos locais em uma janela |
| Open WebUI | Frontend de chat auto-hospedado que é executado em navegador | Docker (qualquer SO) | Sim (open source) | Modo multiusuário e alternância de modelo por chat |
| Llamafile | Um arquivo executável por modelo, sem instalador | Windows, macOS, Linux | Sim (open source) | Execute um modelo clicando duas vezes em um arquivo |
| Text Generation WebUI | Playground para usuários avançados com ajuste de sampler e extensões | Windows, macOS, Linux | Sim (open source) | Controle mais profundo sobre parâmetros de geração |
8 melhores aplicativos para executar LLMs locais em desktop
1. Ollama — melhor instalação de uma linha para uso diário
Ollama é o mais próximo que a categoria tem de um padrão. Um único instalador deixa uma CLI e um serviço de fundo, então ollama run llama3.2 puxa um modelo quantizado e inicia chat. O mesmo daemon expõe uma API compatível com OpenAI em localhost:11434, o que significa que cada extensão de editor e notebook que fala OpenAI funciona sem alterações. A biblioteca de modelos cobre a maioria das famílias populares com quants padrão sensatos.
Onde fica aquém: A UI de primeira parte é mínima. Ollama é um runtime, não um aplicativo de chat, então você conversa com ele de um terminal ou o emparelha com um frontend separado. Prompts e templates customizados vivem em um Modelfile, que é poderoso mas adiciona uma etapa.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Windows, macOS, Linux
Baixar: ollama.com
Conclusão: Escolha Ollama para LLMs locais se você quer um backend que “apenas funcione” e está feliz em trazer sua própria UI.
2. LM Studio — melhor interface de chat com pesquisa de modelo integrada
LM Studio é o cliente de chat polido em que a maioria das pessoas pousa após sair de demos web. O navegador de modelos se conecta diretamente ao Hugging Face, filtra por nível quant e arquitetura, e mostra se um arquivo realmente cabe em sua VRAM. A janela de chat suporta prompts de sistema, presets, edição multi-turno e um modo de servidor local que expõe o mesmo endpoint compatível com OpenAI que Ollama.
Onde fica aquém: A licença permite uso pessoal gratuito, mas requer um plano pago para contextos comerciais, o que é bom saber antes de colocar em um laptop corporativo. O aplicativo é closed source.
Preço:
- Gratuito: uso pessoal
- Pago: plano Trabalho para uso comercial
Plataformas: Windows, macOS, Linux
Baixar: lmstudio.ai
Conclusão: Escolha LM Studio para LLMs locais se você quer uma janela que lide com descoberta de modelos, seleção quant, chat e API local.
3. Jan — melhor cliente de chat totalmente open-source
Jan é o que acontece quando um time constrói a experiência LM Studio como open source do zero. A loja de modelos é curada, a interface de chat é limpa, e o projeto tem uma política declarada de execução totalmente offline sem telemetria. O painel de configurações torna óbvio quais interruptores afetam chamadas de rede, o que é incomum nesta categoria.
Onde fica aquém: O desempenho fica um pouco atrás do LM Studio no mesmo hardware, em parte porque o time prioriza portabilidade sobre ajuste de GPU hiperespecífico. As histórias de API móvel e remota são mais novas que o chat de desktop.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Windows, macOS, Linux
Baixar: jan.ai
Conclusão: Escolha Jan para LLMs locais se você quer a UX de LM Studio sem a licença closed-source e sem confiar no toggle de opt-out de análise.
4. GPT4All — melhor para laptops de baixa especificação sem GPU
GPT4All existe desde os primeiros dias da cena de LLM local e ainda faz o trabalho entediante melhor que a maioria. A lista de modelos padrão é otimizada para inferência de CPU, quants pequenos executam em máquinas sem uma GPU dedicada, e a interface de chat agora inclui chat de documentos locais que aponta para uma pasta no disco. Para usuários que tentaram executar um modelo 7B em um laptop mais antigo e ricochetearam da lentidão, a seleção de modelo pequeno curada é o ponto de partida certo.
Onde fica aquém: Aceleração de GPU é suportada, mas não é onde o foco do projeto está. A interface de chat é funcional em vez de bonita.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Windows, macOS, Linux
Baixar: gpt4all.io
Conclusão: Escolha GPT4All para LLMs locais se seu hardware é modesto e você quer um cliente de chat que vem com modelos otimizados para ele.
5. Msty — melhor para comparar dois modelos lado a lado
Msty é uma escolha menos óbvia que preenche uma lacuna específica: pode conversar com dois modelos locais de uma vez e mostrar suas respostas lado a lado. Combinado com hooks para APIs remotas, esta é a maneira mais fácil de comparar uma versão nova de Qwen contra um quant Gemma no mesmo prompt sem malabarismo com duas janelas. Pilhas de conhecimento permitem anexar pastas ou URLs ao chat para recuperação.
Onde fica aquém: O tier gratuito cobre a maioria do uso pessoal, mas alguns recursos poderosos ficam atrás de um plano pago. A pesquisa de modelos é mais estreita que LM Studio.
Preço:
- Gratuito: plano pessoal rico em recursos
- Pago: plano Aurum para recursos avançados
Plataformas: Windows, macOS, Linux
Baixar: msty.app
Conclusão: Escolha Msty para LLMs locais se você compara ativamente modelos e quer um cliente de chat que foi projetado para esse fluxo de trabalho.
6. Open WebUI — melhor frontend de navegador para servidor Ollama familiar ou de equipe
Open WebUI é executado como um aplicativo web em contêiner e conversa com Ollama (ou qualquer backend compatível com OpenAI) pela rede. A interface parece o aplicativo web ChatGPT, suporta contas multiusuário com controle de acesso baseado em função, e lida com alternância de modelo por conversa. Para uma casa ou pequena equipe que quer um servidor de modelo local que todos possam usar de qualquer navegador, esta é a resposta mais limpa.
Onde fica aquém: Pressupõe que você já tem Ollama (ou equivalente) em execução em algum lugar. Recursos multiusuário precisam de um pouco de configuração. É um aplicativo de navegador, então não há polonês de desktop nativo.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Docker, acessível a partir de qualquer navegador moderno em Windows, macOS ou Linux
Baixar: openwebui.com
Conclusão: Escolha Open WebUI para LLMs locais se você quer um frontend de chat compartilhado para um lab caseiro ou pequena equipe e está confortável executando um contêiner.
7. Llamafile — melhor opção de instalação zero
Llamafile distribui um modelo e o runtime llama.cpp como um arquivo executável único que é executado em Windows, macOS e Linux sem nenhuma configuração. Baixe um arquivo, clique duas vezes, e uma interface de chat local abre em um navegador. O formato depende de um truque binário multiplataforma inteligente do projeto Cosmopolitan, o que significa que o mesmo arquivo funciona em sistemas operacionais.
Onde fica aquém: Sem navegador de modelos. Você gerencia modelos como arquivos. Atualizações requerem trocar o arquivo executável. Algumas ferramentas antivírus marcam o binário, que é uma reclamação recorrente nos problemas do GitHub.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Windows, macOS, Linux
Baixar: github.com/Mozilla-Ocho/llamafile
Conclusão: Escolha Llamafile para LLMs locais se você quer a forma mais absolutamente baixa cerimônia de compartilhar um modelo de trabalho com alguém que nunca ouviu falar de Hugging Face.
8. Text Generation WebUI — melhor playground para usuários avançados
Text Generation WebUI (às vezes chamado oobabooga) é a opção tudo incluído. Múltiplos backends, cada sampler sob o sol, um sistema de extensão que adiciona RAG, cartas de caracteres, voz e chat baseado em imagem. Pesquisadores e curiosos que se preocupam com ajuste de sampler, decodificação contrastiva e formatos quant obscuros pousam aqui.
Onde fica aquém: A configuração é mais complicada que as outras opções nesta lista, com ambientes Python e kits de ferramentas CUDA na mistura. A UI é densa em informações de uma forma que sobrecarrega usuários ocasionais.
Preço:
- Gratuito: open-source, sem taxa de licença
- Pago: nenhum
Plataformas: Windows, macOS, Linux
Baixar: github.com/oobabooga/text-generation-webui
Conclusão: Escolha Text Generation WebUI para LLMs locais se você quer cada botão exposto e está confortável em um ambiente Python.
Como escolher o certo
Se você quer o caminho mais simples para uma configuração funcionando, instale Ollama e emparelhe com um frontend de chat que você gosta.
Se você quer um aplicativo que faz tudo em uma janela polida, instale LM Studio.
Se open source importa para você, instale Jan.
Se seu laptop é mais antigo ou não tem GPU, instale GPT4All e fique com seus modelos pequenos curados.
Se você compara ativamente modelos, instale Msty.
Se você quer um servidor de chat compartilhado para a casa, execute Open WebUI com Ollama atrás.
Se você quer zero cerimônia, baixe Llamafile para o modelo que você se importa.
Se você quer cada botão, instale Text Generation WebUI e orce uma tarde para a primeira execução.
FAQ
LLMs locais funcionam em um laptop sem uma GPU discreta?
Sim. Modelos 3B e 7B quantizados rodam em gráficos integrados ou CPU puro, lentamente mas útil. GPT4All e Llamafile ambos enviam modelos pequenos otimizados para este caso.
Quanto VRAM eu preciso para executar um LLM local?
Para uma experiência confortável com um modelo 7B em quantização Q4, cerca de 6 GB de VRAM. Para 14B em Q4, cerca de 10 GB. Para modelos de classe 70B, conte 24 GB ou mais, ou divida entre RAM de CPU e GPU em velocidades mais baixas.
Ollama é o melhor aplicativo para LLMs locais?
É o melhor backend para a maioria dos usuários. Se você também quer uma interface de chat polida na mesma janela, LM Studio ou Jan está mais perto de “melhor app”. Ollama mais uma UI separada é a stack mais comum.
LLMs locais são realmente privados?
Sim, com uma ressalva. A inferência é executada completamente em sua máquina. O problema é que alguns aplicativos ligam para casa para análise ou verificações de atualização por padrão. Jan e GPT4All tornam o botão desligado óbvio. LM Studio tem em configurações.
Posso usar um LLM local com meu editor de código?
Sim. Qualquer aplicativo que exponha um endpoint compatível com OpenAI (Ollama, LM Studio, Jan, Msty) pode ser definido como URL base em extensões de editor que visam OpenAI. Continue, modo bring-your-own-key de Cursor, e a maioria das extensões VS Code aceitam isso.