Resumo

Motivação & abordagem

Este trabalho apresenta o desenvolvimento do CoCAD, um sistema multimodal para geração de modelos CAD paramétricos a partir de entradas textuais e visuais, fundamentado em técnicas de inteligência artificial generativa. O objetivo principal foi investigar a viabilidade de integrar representações sequenciais de CAD, descrições em linguagem natural e informações visuais em um pipeline unificado capaz de produzir modelos geométrica e estruturalmente consistentes. A metodologia foi organizada em três módulos centrais: um autoencoder treinado para aprender um espaço latente robusto de sequências CAD; um módulo de condicionamento multimodal que extrai e combina representações de imagem e texto; e um gerador latente condicionado baseado em flow matching. Também foi desenvolvida uma interface interativa que integra todo o pipeline, permitindo gerar, visualizar e exportar sólidos CAD. Os resultados obtidos indicam que o autoencoder alcança elevado desempenho de reconstrução simbólica e geométrica, enquanto o gerador latente aproxima-se parcialmente do espaço latente real, apresentando melhor desempenho no modo multimodal. As sequências CAD geradas mostraram-se plausíveis e coerentes, embora ainda inferiores à fidelidade obtida pelo autoencoder, evidenciando limitações relacionadas à modelagem do espaço latente e à qualidade das descrições textuais disponíveis. Conclui-se que o CoCAD demonstra a viabilidade da geração multimodal de CAD paramétrico e estabelece fundamentos promissores para avanços futuros em modelos generativos estruturados, condicionamento texto-visual e integração com fluxos de engenharia digital.

Representação CAD

Sequências de Comandos sketch-extrude no formato DeepCAD

Representação sequencial CAD no formato DeepCAD
Figura – Representação sequencial paramétrica de modelos CAD utilizada no CoCAD, baseada no formato DeepCAD, em que sólidos são descritos como sequências ordenadas de comandos e parâmetros geométricos discretizados.

Arquitetura

Componentes do modelo & pipeline de treino

Diagrama da arquitetura do CoCAD
Figura 2 – Visão geral dos módulos de aprendizado de máquina do CoCAD (autoencoder CAD, codificadores multimodais e modelo generativo no espaço latente).

Resumo da arquitetura

  • Autoencoder CAD para codificação/decodificação de sequências de comandos paramétricos em um espaço latente.
  • Condicionamento multimodal com DINOv2 (imagem) e BERT (texto), seguidos de adaptadores leves e fusão.
  • Gerador latente condicionado baseado em flow matching para amostrar latentes CAD a partir do condicionamento.
  • Decodificação e validação com reconstrução da sequência CAD e checagens de validade geométrica (kernel CAD).
  • Interface interativa para gerar, visualizar e exportar sólidos CAD (e.g., STEP/STL).

A separação em módulos permite reaproveitar codificadores pré-treinados fortes (visão e linguagem) e manter o núcleo CAD controlável, com geração no espaço latente para equilibrar qualidade geométrica e consistência estrutural.

Conjunto de dados

Origem & quantitativos

O treinamento do CoCAD baseou-se em um conjunto extenso de modelos CAD e dados multimodais provenientes de DeepCAD e Text2CAD. As sequências CAD vêm do DeepCAD (178.238 modelos), seguindo a divisão padrão 95% treino, 5% validação e 5% teste, e são usadas para treinar o autoencoder e definir o espaço latente geométrico onde o gerador opera.

As imagens e textos vêm do Text2CAD: cada modelo possui múltiplas descrições e renderizações; neste trabalho, foram selecionadas 3 vistas por modelo (armazenamento e pré-processamento mais leves) e utiliza-se apenas 1 vista aleatória por iteração durante o treino, para refletir o uso real da interface e aumentar robustez. Após remoção de modelos inválidos e filtragem para manter apenas amostras com imagem e descrição não vazias, o conjunto final contém 175.993 modelos.

Tamanhos finais (Text2CAD filtrado)

Split Original (Text2CAD) Após filtro
Treino 159.049 159.026
Validação 8.925 8.922
Teste 8.046 8.045
Total 176.020 175.993

Apesar de existirem 3 vistas selecionadas por modelo, o treino usa 1 vista aleatória por amostra, alinhando com o cenário de uso (uma imagem) e favorecendo generalização.

Resultados

Avaliação end-to-end

Métricas

  • Command Accuracy: porcentagem de comandos CAD (tipos/ordem) previstos corretamente.
  • Parameter Accuracy: acerto dos parâmetros geométricos (com tolerância) para comandos corretamente previstos.
  • Chamfer Distance (Mediana): distância geométrica típica (mediana) entre nuvens de pontos do sólido reconstruído e o alvo.
  • Invalid Ratio: fração de gerações inválidas (falhas de reconstrução/validação geométrica).
Método / Modo ACCcmd ACCparam Med. CD ↓ IR ↓
CoCAD — Somente Imagem 71,21% 54,27% 0,1939 13,13%
CoCAD — Somente Texto 66,79% 50,72% 0,1885 14,43%
CoCAD — Imagem + Texto 73,89% 56,82% 0,1554 12,53%
CADCrafter (Imagem, single-view) 83,23% 71,82% 0,049 4,20%
Text2CAD (Texto, nível L3 expert) 0,000370 0,93%

O modo multimodal (imagem + texto) supera os modos unilaterais em todas as métricas, sugerindo que a fusão reduz ambiguidades e fornece condicionamento mais informativo. No conjunto de teste, o CoCAD mantém > 85% de modelos válidos em todos os modos (IR entre 12,53% e 14,43%). Métodos especializados (CADCrafter e Text2CAD) obtêm melhores resultados em seus cenários-alvo, o que é esperado por serem otimizados para uma única modalidade e por utilizarem etapas adicionais de refinamento e/ou descrições mais ricas.

Vídeo de apresentação

Demonstração do sistema CoCAD

Assista abaixo ao vídeo de apresentação e demonstração do CoCAD, contendo demonstrações da interface, exemplos de entrada (imagem + texto) e visualizações dos modelos CAD gerados.

Contato

Entre em contato

Para dúvidas sobre o CoCAD, oportunidades de colaboração ou acesso ao conjunto de dados e código, sinta-se à vontade para entrar em contato.

BibTeX

Como citar este trabalho

Se este trabalho foi útil para sua pesquisa ou projeto, utilize a citação BibTeX abaixo:

@mastersthesis{freitas2025cocad,
  author       = {Lucas Palmiro de Freitas},
  title        = {CoCAD: Sistema Generativo Multimodal para Modelos CAD Paramétricos},
  school       = {Escola Politécnica da Universidade de S{\~a}o Paulo},
  address      = {S{\~a}o Paulo, Brasil},
  year         = {2025},
  type         = {Trabalho de Conclus{\~a}o de Curso},
}

Acknowledgment

Agradecimentos

Este trabalho foi desenvolvido na Escola Politécnica da Universidade de São Paulo (Poli-USP). O autor agradece ao orientador, aos colegas de pesquisa e aos professores que contribuíram com discussões técnicas, feedbacks e apoio ao longo do desenvolvimento deste projeto.

O autor também agradece à família e amigos pelo suporte contínuo durante o período de realização do TCC. Qualquer erro ou omissão remanescente é de inteira responsabilidade do autor.