👀 GLM-4.5V e o que aprendi sobre Vision Language Models

Se você acha que Vision Language Models (VLLMs), como o GLM-4.5V, são só “IA com olhos”, respira fundo porque a história é bem mais interessante. Esses modelos não estão aqui para roubar o emprego das redes neurais mais famosas nos anos de 2012 a 2021 para a análise de imagens, as CNNs. Estas redes conhecidas por classificar gatinhos no ImageNet seguem sendo importante em tarefas como detecção de objetos nas imagens. As VLLMs jogam em outro campo: o da interpretação.

Enquanto uma CNN é boa em dizer “isso é um gato” (com precisão quase ofensiva para quem só vê um borrão cinza), um VLLM vai além e descreve: “um gato cinza deitado em cima do teclado, atrapalhando o dono que tenta escrever um blog sobre IA”. Ou seja, não é só ver, é entender o contexto — quase como um narrador esportivo, só que menos emotivo (ainda).

Neste post quero descorrer sobre alguns insights que tive ao estudar em blogs e no Youtube sobre o Vision LLM chamado GLM-4.5V. Minha intensão não é detalhar afundo esse modelo, mas principalmente trazer uma compreensão sobre:

Para que serve os Vision LLMs?

O truque técnico (sem ficar técnico demais)De forma simplificada, os VLLMs — e especialmente o GLM-4.5V — são como um time coordenado que transforma imagem em texto com raciocínio:

Um vision transformer (ViT) converte a imagem em embeddings (aquele resumo numérico esperto).
Um MLP adapter faz o acabamento fino nesses embeddings antes de serem enviadas ao texto.
- A maioria dos Vision Language Models usa o CLIP como “ponte multimodal”: ele gera embeddings visuais que depois são traduzidos pelo LLM. É como se o CLIP fosse o tradutor automático entre “a língua das imagens” e “a língua das palavras”. O GLM-4.5V, por outro lado, não segue esse caminho. Ele constrói suas próprias representações visuais com um Vision Transformer (ViT) e um MLP adapter, sem depender do CLIP. Isso dá mais liberdade na forma de aprender com os dados — e talvez explique por que ele se saiu tão bem em benchmarks fora do “território clássico” do CLIP.
Um poderoso decoder LLM interpreta tudo e gera respostas com raciocínio embutido.

Mas o verdadeiro pulo do gato do GLM-4.5V está nos bastidores.

O que diferencia o GLM-4.5V?

O time por trás do modelo não quis só inflar parâmetros (apesar de existir uma versão com 106B, eles também liberaram uma “fit” com 9B, bem mais usável). O segredo foi:

Curadoria de dados – mais de 10 bilhões de pares imagem-texto cuidadosamente anotados (incluindo PDFs, gráficos, telas de celular, OCR, diagramas, artigos científicos e possivelmente aquele print vergonhoso que você esqueceu de apagar).
Aprendizado por reforço refinado — RLCS: um reforço que aprende numa progressão curricular e em múltiplas tarefas ao mesmo tempo, deixando o modelo afiado em STEM, GUI, vídeos, gráficos e mais.
Justificativa à la escola: os prompts usam markup como <think>…</think><answer>…</answer>, fazendo o modelo literalmente “mostrar seu raciocínio” antes de responder.

Traduzindo: em vez de só aprender a falar bonito, o GLM-4.5V aprendeu a pensar antes de falar (às vezes até com tag <think> para sinalizar o raciocínio interno). É um reasoning model de visão.

Onde ele brilha?

Os benchmarks mostram que o GLM-4.5V bate de frente (e em alguns casos supera) gigantes como GPT-4V e Claude Opus 3, mesmo sendo menor. Ele performa bem em datasets variados:

VQA geral (MMStar, HallusionBench);
Math & STEM (MathVista, AI2D, MMMU Pro);
OCR e gráficos (OCRBench, ChartQAPro, ChartMuseum);
Vídeo (VideoMME, LVBench);
Agentes GUI (AndroidWorld, WebVoyager);
Coding multimodal (Design2Code, Flame-React-Eval).

E o que isso significa na prática?

Esse talvez seja o maior insight: VLLMs como o GLM-4.5V não são para detecção de objetos ou segmentação (deixa isso com o YOLO meus amigos). Eles são para:

Compreensão de documentos (papers, PDFs, relatórios com tabelas e gráficos);
Análise de vídeo com raciocínio passo a passo (time-indexed reasoning);
Interfaces – entender telas para auxiliar em geração de código (tipo um copiloto que olha a UI e gera o React de volta);
Gráficos complexos – extrair insights sem você precisar sofrer no Excel;
Prototipagem visual – gerar código a partir de esboços, wireframes ou até aquele desenho tosco no guardanapo.

Ou seja: menos “olha, um cachorro” e mais “esse gráfico de barras sugere que seu modelo está enviesado”.

Conclusão (ou quase)

O GLM-4.5V chamou minha atenção porque democratiza esse espaço com código aberto e aplicações reais. Claro, só lendo paper e assistindo vídeo não dá para saber se o reasoning “faz a diferença” mesmo. A próxima etapa é testar: colocar o modelo para analisar PDFs, vídeos, gráficos e ver se o tal RLCS realmente compensa o hype.

No fim das contas, estudar IA é um pouco como usar os próprios LLMs: você nunca sabe tudo, mas sabe o suficiente para continuar curioso.

👉 Ficarei devendo: o que diabos é um Mixture of Experts e por que os modelos estão tão apaixonados por isso?

Referências

https://medium.com/data-science-in-your-pocket/glm-4-5v-best-open-sourced-vision-model-51454f2ab21a

O truque técnico (sem ficar técnico demais)De forma simplificada, os VLLMs — e especialmente o GLM-4.5V — são como um time coordenado que transforma imagem em texto com raciocínio:

O que diferencia o GLM-4.5V?

Onde ele brilha?

E o que isso significa na prática?

Conclusão (ou quase)

Deixe um comentário Cancelar resposta