Projeto CoCAD — Sistema Generativo Multimodal de CAD Paramétrico

Este trabalho apresenta o desenvolvimento do CoCAD, um sistema multimodal para geração de modelos CAD paramétricos a partir de entradas textuais e visuais, fundamentado em técnicas de inteligência artificial generativa. O objetivo principal foi investigar a viabilidade de integrar representações sequenciais de CAD, descrições em linguagem natural e informações visuais em um pipeline unificado capaz de produzir modelos geométrica e estruturalmente consistentes. A metodologia foi organizada em três módulos centrais: um autoencoder treinado para aprender um espaço latente robusto de sequências CAD; um módulo de condicionamento multimodal que extrai e combina representações de imagem e texto; e um gerador latente condicionado baseado em flow matching. Também foi desenvolvida uma interface interativa que integra todo o pipeline, permitindo gerar, visualizar e exportar sólidos CAD. Os resultados obtidos indicam que o autoencoder alcança elevado desempenho de reconstrução simbólica e geométrica, enquanto o gerador latente aproxima-se parcialmente do espaço latente real, apresentando melhor desempenho no modo multimodal. As sequências CAD geradas mostraram-se plausíveis e coerentes, embora ainda inferiores à fidelidade obtida pelo autoencoder, evidenciando limitações relacionadas à modelagem do espaço latente e à qualidade das descrições textuais disponíveis. Conclui-se que o CoCAD demonstra a viabilidade da geração multimodal de CAD paramétrico e estabelece fundamentos promissores para avanços futuros em modelos generativos estruturados, condicionamento texto-visual e integração com fluxos de engenharia digital.

Representação sequencial CAD no formato DeepCAD — Figura – Representação sequencial paramétrica de modelos CAD utilizada no CoCAD, baseada no formato DeepCAD, em que sólidos são descritos como sequências ordenadas de comandos e parâmetros geométricos discretizados.

Diagrama da arquitetura do CoCAD — Figura 2 – Visão geral dos módulos de aprendizado de máquina do CoCAD (autoencoder CAD, codificadores multimodais e modelo generativo no espaço latente).

Resumo da arquitetura

Autoencoder CAD para codificação/decodificação de sequências de comandos paramétricos em um espaço latente.
Condicionamento multimodal com DINOv2 (imagem) e BERT (texto), seguidos de adaptadores leves e fusão.
Gerador latente condicionado baseado em flow matching para amostrar latentes CAD a partir do condicionamento.
Decodificação e validação com reconstrução da sequência CAD e checagens de validade geométrica (kernel CAD).
Interface interativa para gerar, visualizar e exportar sólidos CAD (e.g., STEP/STL).

A separação em módulos permite reaproveitar codificadores pré-treinados fortes (visão e linguagem) e manter o núcleo CAD controlável, com geração no espaço latente para equilibrar qualidade geométrica e consistência estrutural.

O treinamento do CoCAD baseou-se em um conjunto extenso de modelos CAD e dados multimodais provenientes de DeepCAD e Text2CAD. As sequências CAD vêm do DeepCAD (178.238 modelos), seguindo a divisão padrão 95% treino, 5% validação e 5% teste, e são usadas para treinar o autoencoder e definir o espaço latente geométrico onde o gerador opera.

As imagens e textos vêm do Text2CAD: cada modelo possui múltiplas descrições e renderizações; neste trabalho, foram selecionadas 3 vistas por modelo (armazenamento e pré-processamento mais leves) e utiliza-se apenas 1 vista aleatória por iteração durante o treino, para refletir o uso real da interface e aumentar robustez. Após remoção de modelos inválidos e filtragem para manter apenas amostras com imagem e descrição não vazias, o conjunto final contém 175.993 modelos.

Tamanhos finais (Text2CAD filtrado)

Split	Original (Text2CAD)	Após filtro
Treino	159.049	159.026
Validação	8.925	8.922
Teste	8.046	8.045
Total	176.020	175.993

Apesar de existirem 3 vistas selecionadas por modelo, o treino usa 1 vista aleatória por amostra, alinhando com o cenário de uso (uma imagem) e favorecendo generalização.

Métricas

Command Accuracy: porcentagem de comandos CAD (tipos/ordem) previstos corretamente.
Parameter Accuracy: acerto dos parâmetros geométricos (com tolerância) para comandos corretamente previstos.
Chamfer Distance (Mediana): distância geométrica típica (mediana) entre nuvens de pontos do sólido reconstruído e o alvo.
Invalid Ratio: fração de gerações inválidas (falhas de reconstrução/validação geométrica).

Método / Modo	ACC_cmd ↑	ACC_param ↑	Med. CD ↓	IR ↓
CoCAD — Somente Imagem	71,21%	54,27%	0,1939	13,13%
CoCAD — Somente Texto	66,79%	50,72%	0,1885	14,43%
CoCAD — Imagem + Texto	73,89%	56,82%	0,1554	12,53%
CADCrafter (Imagem, single-view)	83,23%	71,82%	0,049	4,20%
Text2CAD (Texto, nível L3 expert)	—	—	0,000370	0,93%

O modo multimodal (imagem + texto) supera os modos unilaterais em todas as métricas, sugerindo que a fusão reduz ambiguidades e fornece condicionamento mais informativo. No conjunto de teste, o CoCAD mantém > 85% de modelos válidos em todos os modos (IR entre 12,53% e 14,43%). Métodos especializados (CADCrafter e Text2CAD) obtêm melhores resultados em seus cenários-alvo, o que é esperado por serem otimizados para uma única modalidade e por utilizarem etapas adicionais de refinamento e/ou descrições mais ricas.

Assista abaixo ao vídeo de apresentação e demonstração do CoCAD, contendo demonstrações da interface, exemplos de entrada (imagem + texto) e visualizações dos modelos CAD gerados.

Para dúvidas sobre o CoCAD, oportunidades de colaboração ou acesso ao conjunto de dados e código, sinta-se à vontade para entrar em contato.

Se este trabalho foi útil para sua pesquisa ou projeto, utilize a citação BibTeX abaixo:

@mastersthesis{freitas2025cocad,
  author       = {Lucas Palmiro de Freitas},
  title        = {CoCAD: Sistema Generativo Multimodal para Modelos CAD Paramétricos},
  school       = {Escola Politécnica da Universidade de S{\~a}o Paulo},
  address      = {S{\~a}o Paulo, Brasil},
  year         = {2025},
  type         = {Trabalho de Conclus{\~a}o de Curso},
}

Este trabalho foi desenvolvido na Escola Politécnica da Universidade de São Paulo (Poli-USP). O autor agradece ao orientador, aos colegas de pesquisa e aos professores que contribuíram com discussões técnicas, feedbacks e apoio ao longo do desenvolvimento deste projeto.

O autor também agradece à família e amigos pelo suporte contínuo durante o período de realização do TCC. Qualquer erro ou omissão remanescente é de inteira responsabilidade do autor.

CoCAD

CAD a partir de imagens & texto

Resumo

Representação CAD

Arquitetura

Resumo da arquitetura

Conjunto de dados

Tamanhos finais (Text2CAD filtrado)

Resultados

Métricas

Vídeo de apresentação

Contato

BibTeX

Acknowledgment