You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
A função do clip_vision é extrair uma representação numérica (vetor de embedding) de uma imagem, de forma que essa representação possa ser comparada com textos ou usada como condição visual em modelos como o Stable Diffusion, IP-Adapter, ControlNet, entre outros.
Ou seja, o clip_vision é o encodificador visual do modelo CLIP (Contrastive Language–Image Pre-training), criado pela OpenAI. Ele transforma imagens em vetores, assim como o CLIP textual transforma textos em vetores — e ambos ficam no mesmo espaço vetorial, permitindo comparações entre texto e imagem.
Para que serve na prática?
1. Comparar imagens com textos
O clip_vision gera embeddings visuais.
O clip_text (outro componente do CLIP) gera embeddings de texto.
CLIP foi treinado para alinhar esses dois mundos: a imagem de “um cachorro” e o texto “a dog” estarão próximos no espaço vetorial.
2. IP-Adapter
O clip_vision pega uma imagem de referência (ex: um rosto ou estilo) e a transforma em um vetor.
Esse vetor é usado como condição (guidance) para gerar novas imagens parecidas ou no mesmo estilo.
Ele atua como condição de similaridade visual, influenciando o denoising no Stable Diffusion.
3. ControlNet e outras pipelines
Também pode ser usado como parte da entrada para controlar o conteúdo da imagem gerada, com base em uma imagem real ou estilizada.
Estrutura simplificada do CLIP
Texto → CLIP Text Encoder → vetor textual
Imagem → CLIP Vision Encoder → vetor visual
Se os dois vetores forem semelhantes, o CLIP acha que o texto descreve bem a imagem.
Exemplo prático no IP-Adapter
Você fornece uma imagem de referência (por exemplo, o rosto de uma pessoa).
O clip_vision gera um vetor.
Esse vetor é passado ao IP-Adapter, que adapta o processo de geração para manter as características visuais da imagem.
Arquitetura (ViT-H vs ViT-G)
1. clip-vision_vit-h.safetensors
ViT-H (Vision Transformer - Huge): É uma versão grande do transformer visual da OpenAI.
Tamanho da imagem típico: 224×224 ou 336×336
Mais leve que o ViT-G, com menos parâmetros.
Geralmente usado em modelos baseados no Stable Diffusion 1.x / 2.1.
Indica que é usado com o IP-Adapter padrão, geralmente com Stable Diffusion 1.5 ou 2.1.
Arquitetura menor, útil em workflows mais leves ou compatíveis com versões anteriores do SD.
2. clip-vision_vit-g.safetensors
ViT-G (Vision Transformer - Giant): É uma versão ainda maior e mais poderosa do que ViT-H.
Usada no CLIP da versão SDXL (Stable Diffusion XL).
Treinada para ter maior capacidade de representação visual.
Requer mais memória e processamento.
Ideal para IP-Adapters voltados ao SDXL, que capturam mais detalhes visuais de imagem para imagem.
Pertence à pasta sdxl_models, sugerindo uso com Stable Diffusion XL.
Necessário para IP-Adapters para SDXL, que trabalham com resoluções maiores e contextos mais complexos.
Os arquivos de clip_vision hospedados em https://huggingface.co/h94/IP-Adapter não são os originais fornecidos pela OpenAI. Eles são cópias ou reempacotamentos feitas pelo time do IP-Adapter, adaptadas para funcionar diretamente com suas pipelines, especialmente no ComfyUI.
Repositório: h94/IP-Adapter
É o repositório oficial do projeto IP-Adapter (criado por pesquisadores da Tencent).
Ele hospeda arquivos prontos para uso nos pipelines de geração de imagem, não necessariamente os pesos originais da OpenAI.
ControlNet é uma extensão do Stable Diffusion que permite controlar com precisão a geração de imagens usando entradas auxiliares (imagens de pose, profundidade, bordas, rabiscos, etc.).
Por que isso é importante?
O Stable Diffusion padrão gera imagens a partir de texto, mas não tem controle estrutural — se você quiser uma pose específica, ou manter o layout de um cômodo, é quase impossível só com prompt.
O ControlNet resolve isso: ele “vê” a estrutura da imagem de entrada e obriga o modelo a segui-la.
Exemplo de entradas para ControlNet:
Um esqueleto de pose (OpenPose)
Um desenho de linhas (Lineart)
Um depth map
Um rabisco simples
Um QR code
Uma máscara para inpainting
O que são ControlNets com LoRA integrado?
LoRA (Low-Rank Adaptation) é uma técnica leve de fine-tuning que permite adaptar modelos grandes com baixo custo computacional, usando arquivos pequenos.
Então, o que é um ControlNet com LoRA?
É um modelo ControlNet compactado em um formato LoRA, com tamanho menor (geralmente 100–300MB) e que usa menos memória de GPU.
Ele funciona em conjunto com o modelo base, adicionando só o que é necessário para condicionar a imagem.
Comparando lado a lado
Característica
ControlNet Completo
ControlNet com LoRA
Tamanho do modelo
Grande (700MB a 2GB)
Pequeno (100–300MB)
Uso de memória GPU
Mais alto
Menor
Velocidade de carregamento
Mais lento
Mais rápido
Modularidade
Menos modular
Altamente modular
Compatibilidade Ampla
(Automatic1111, ComfyUI, etc.)
Requer suporte a LoRA
Aplicação prática
Mais estável para uso intensivo
Ideal para múltiplas variações e setups leves
Quando usar cada um?
Situação
Recomendo usar...
Você quer mais precisão e robustez
ControlNet completo
Está com GPU limitada (menos VRAM)
ControlNet com LoRA
Precisa trocar rapidamente modelos
LoRA
Vai montar uma pipeline altamente modular
LoRA
Precisa do melhor resultado possível
ControlNet completo
No ComfyUI, como se comportam?
ControlNet completo → usa um ControlNet Loader padrão.
ControlNet com LoRA → usa LoRA ControlNet Loader, combinando com um base model (geralmente control_v11p_sd15_xxx).
O que é esse repositório?
comfyanonymous é o repositório oficial mantido pelos desenvolvedores do ComfyUI ou pela comunidade central que o impulsiona. Ele hospeda modelos de ControlNet otimizados e compatíveis com o ComfyUI e derivados do Stable Diffusion 1.5.
É seguro baixar modelos desse repositório. Ele é usado por milhares de usuários da comunidade e é amplamente considerado confiável.
Modelos ControlNet
Modelos ControlNet especializados, otimizados para uso com Stable Diffusion 1.5 (SD15). Cada um tem uma função diferente para controlar ou condicionar a geração da imagem com base em informações auxiliares (como linhas, bordas, partes faltantes, etc.).
Todos são modelos .fp16, ou seja, com precisão de 16 bits (menor consumo de VRAM, ideal para GPUs com menos memória).
Requerem ComfyUI, Automatic1111 (com extensão ControlNet) ou outras UIs compatíveis com ControlNet.
Função: Canny Edge Detection — usa contornos extraídos por algoritmo de bordas rígidas (Canny).
Uso típico: gerar imagens mantendo a silhueta e estrutura da imagem de entrada com alta fidelidade.
Input: imagem com bordas Canny (preto e branco), destacando os contornos principais.
Modelos ControlNet integrado com LoRA
Os modelos listados abaixo agora são ControlNets com LoRA integrado (Low-Rank Adaptation) — indicados pelo prefixo control_lora_rank128_ — o que os diferencia dos primeiros modelos que são full weights (pesos completos do ControlNet).
Função: Modelo multimodal com suporte a múltiplas condições (multi-condition ControlNet)
Uso típico: Permite combinar vários tipos de controle simultaneamente, como depth, canny, pose, lineart, normal maps, etc., usando uma única instância de ControlNet, ideal para fluxos otimizados.
Input: Pode receber múltiplas condições ao mesmo tempo (ex: mapa de profundidade + canny + normal).
Modelo base: Compatível com SDXL.
Exemplo de aplicação: Criar imagens com maior precisão e controle, com menos carga computacional e maior coerência visual entre os tipos de input.
Origem: Desenvolvido por xinsir, com base na ideia de unificar os ControlNets separados.
Fontes
monster-labs/control_v1p_sdxl_qrcode_monster
Autor: Monster Labs
Tipo de conta: Verificada e ativa no Hugging Face.
Reputação: É o criador original de vários modelos voltados à incorporação de QR Codes nas artes com Stable Diffusion e ControlNet.
Confiabilidade: ✅ Alta. A comunidade utiliza extensivamente esses modelos, especialmente para projetos com QR Codes funcionais. O control_v1p_sdxl_qrcode_monster é uma versão otimizada para o SDXL da linha anterior v1p_sd15.
xinsir/controlnet-union-sdxl-1.0
Autor: xinsir
Tipo de conta: Usuário individual (não verificado institucionalmente).
Reputação: Reconhecido entre desenvolvedores avançados e usuários do ComfyUI por contribuições que otimizam e integram múltiplos ControlNets em um só modelo, o que reduz uso de VRAM e melhora compatibilidade com SDXL.
Confiabilidade: ⚠️ Moderada a Alta. Apesar de não ser de uma instituição, o modelo tem boa aceitação técnica, é funcional e é usado em fluxos compartilhados em fóruns como CivitAI, ComfyUI Discord e Reddit.