👀 GLM-4.5V e o que aprendi sobre Vision Language Models

Se você acha que Vision Language Models (VLLMs), como o GLM-4.5V, são só “IA com olhos”, respira fundo porque a história é bem mais interessante. Esses modelos não estão aqui para roubar o emprego das redes neurais mais famosas nos anos de 2012 a 2021 para a análise de imagens, as CNNs. Estas redes conhecidas por classificar gatinhos no ImageNet seguem sendo importante em tarefas como detecção de objetos nas imagens. As VLLMs jogam em outro campo: o da interpretação.

Enquanto uma CNN é boa em dizer “isso é um gato” (com precisão quase ofensiva para quem só vê um borrão cinza), um VLLM vai além e descreve: “um gato cinza deitado em cima do teclado, atrapalhando o dono que tenta escrever um blog sobre IA”. Ou seja, não é só ver, é entender o contexto — quase como um narrador esportivo, só que menos emotivo (ainda).

Neste post quero descorrer sobre alguns insights que tive ao estudar em blogs e no Youtube sobre o Vision LLM chamado GLM-4.5V. Minha intensão não é detalhar afundo esse modelo, mas principalmente trazer uma compreensão sobre:

Para que serve os Vision LLMs?


O truque técnico (sem ficar técnico demais)De forma simplificada, os VLLMs — e especialmente o GLM-4.5V — são como um time coordenado que transforma imagem em texto com raciocínio:

  • Um vision transformer (ViT) converte a imagem em embeddings (aquele resumo numérico esperto).
  • Um MLP adapter faz o acabamento fino nesses embeddings antes de serem enviadas ao texto.
    • A maioria dos Vision Language Models usa o CLIP como “ponte multimodal”: ele gera embeddings visuais que depois são traduzidos pelo LLM. É como se o CLIP fosse o tradutor automático entre “a língua das imagens” e “a língua das palavras”. O GLM-4.5V, por outro lado, não segue esse caminho. Ele constrói suas próprias representações visuais com um Vision Transformer (ViT) e um MLP adapter, sem depender do CLIP. Isso dá mais liberdade na forma de aprender com os dados — e talvez explique por que ele se saiu tão bem em benchmarks fora do “território clássico” do CLIP.
  • Um poderoso decoder LLM interpreta tudo e gera respostas com raciocínio embutido.

Mas o verdadeiro pulo do gato do GLM-4.5V está nos bastidores.


O que diferencia o GLM-4.5V?

O time por trás do modelo não quis só inflar parâmetros (apesar de existir uma versão com 106B, eles também liberaram uma “fit” com 9B, bem mais usável). O segredo foi:

  1. Curadoria de dados – mais de 10 bilhões de pares imagem-texto cuidadosamente anotados (incluindo PDFs, gráficos, telas de celular, OCR, diagramas, artigos científicos e possivelmente aquele print vergonhoso que você esqueceu de apagar).
  2. Aprendizado por reforço refinado — RLCS: um reforço que aprende numa progressão curricular e em múltiplas tarefas ao mesmo tempo, deixando o modelo afiado em STEM, GUI, vídeos, gráficos e mais.
  3. Justificativa à la escola: os prompts usam markup como <think>…</think><answer>…</answer>, fazendo o modelo literalmente “mostrar seu raciocínio” antes de responder.

Traduzindo: em vez de só aprender a falar bonito, o GLM-4.5V aprendeu a pensar antes de falar (às vezes até com tag <think> para sinalizar o raciocínio interno). É um reasoning model de visão.


Onde ele brilha?

Os benchmarks mostram que o GLM-4.5V bate de frente (e em alguns casos supera) gigantes como GPT-4V e Claude Opus 3, mesmo sendo menor. Ele performa bem em datasets variados:

  • VQA geral (MMStar, HallusionBench);
  • Math & STEM (MathVista, AI2D, MMMU Pro);
  • OCR e gráficos (OCRBench, ChartQAPro, ChartMuseum);
  • Vídeo (VideoMME, LVBench);
  • Agentes GUI (AndroidWorld, WebVoyager);
  • Coding multimodal (Design2Code, Flame-React-Eval).

E o que isso significa na prática?

Esse talvez seja o maior insight: VLLMs como o GLM-4.5V não são para detecção de objetos ou segmentação (deixa isso com o YOLO meus amigos). Eles são para:

  • Compreensão de documentos (papers, PDFs, relatórios com tabelas e gráficos);
  • Análise de vídeo com raciocínio passo a passo (time-indexed reasoning);
  • Interfaces – entender telas para auxiliar em geração de código (tipo um copiloto que olha a UI e gera o React de volta);
  • Gráficos complexos – extrair insights sem você precisar sofrer no Excel;
  • Prototipagem visual – gerar código a partir de esboços, wireframes ou até aquele desenho tosco no guardanapo.

Ou seja: menos “olha, um cachorro” e mais “esse gráfico de barras sugere que seu modelo está enviesado”.


Conclusão (ou quase)

O GLM-4.5V chamou minha atenção porque democratiza esse espaço com código aberto e aplicações reais. Claro, só lendo paper e assistindo vídeo não dá para saber se o reasoning “faz a diferença” mesmo. A próxima etapa é testar: colocar o modelo para analisar PDFs, vídeos, gráficos e ver se o tal RLCS realmente compensa o hype.

No fim das contas, estudar IA é um pouco como usar os próprios LLMs: você nunca sabe tudo, mas sabe o suficiente para continuar curioso.


👉 Ficarei devendo: o que diabos é um Mixture of Experts e por que os modelos estão tão apaixonados por isso?

Referências

Deixe um comentário