Este trabalho apresenta o desenvolvimento do CoCAD, um sistema multimodal para geração de modelos CAD paramétricos a partir de entradas textuais e visuais, fundamentado em técnicas de inteligência artificial generativa. O objetivo principal foi investigar a viabilidade de integrar representações sequenciais de CAD, descrições em linguagem natural e informações visuais em um pipeline unificado capaz de produzir modelos geométrica e estruturalmente consistentes. A metodologia foi organizada em três módulos centrais: um autoencoder treinado para aprender um espaço latente robusto de sequências CAD; um módulo de condicionamento multimodal que extrai e combina representações de imagem e texto; e um gerador latente condicionado baseado em flow matching. Também foi desenvolvida uma interface interativa que integra todo o pipeline, permitindo gerar, visualizar e exportar sólidos CAD. Os resultados obtidos indicam que o autoencoder alcança elevado desempenho de reconstrução simbólica e geométrica, enquanto o gerador latente aproxima-se parcialmente do espaço latente real, apresentando melhor desempenho no modo multimodal. As sequências CAD geradas mostraram-se plausíveis e coerentes, embora ainda inferiores à fidelidade obtida pelo autoencoder, evidenciando limitações relacionadas à modelagem do espaço latente e à qualidade das descrições textuais disponíveis. Conclui-se que o CoCAD demonstra a viabilidade da geração multimodal de CAD paramétrico e estabelece fundamentos promissores para avanços futuros em modelos generativos estruturados, condicionamento texto-visual e integração com fluxos de engenharia digital.
Resumo
Motivação & abordagem
Representação CAD
Sequências de Comandos sketch-extrude no formato DeepCAD
Arquitetura
Componentes do modelo & pipeline de treino
Resumo da arquitetura
- Autoencoder CAD para codificação/decodificação de sequências de comandos paramétricos em um espaço latente.
- Condicionamento multimodal com DINOv2 (imagem) e BERT (texto), seguidos de adaptadores leves e fusão.
- Gerador latente condicionado baseado em flow matching para amostrar latentes CAD a partir do condicionamento.
- Decodificação e validação com reconstrução da sequência CAD e checagens de validade geométrica (kernel CAD).
- Interface interativa para gerar, visualizar e exportar sólidos CAD (e.g., STEP/STL).
A separação em módulos permite reaproveitar codificadores pré-treinados fortes (visão e linguagem) e manter o núcleo CAD controlável, com geração no espaço latente para equilibrar qualidade geométrica e consistência estrutural.
Conjunto de dados
Origem & quantitativos
O treinamento do CoCAD baseou-se em um conjunto extenso de modelos CAD e dados multimodais provenientes de DeepCAD e Text2CAD. As sequências CAD vêm do DeepCAD (178.238 modelos), seguindo a divisão padrão 95% treino, 5% validação e 5% teste, e são usadas para treinar o autoencoder e definir o espaço latente geométrico onde o gerador opera.
As imagens e textos vêm do Text2CAD: cada modelo possui múltiplas descrições e renderizações; neste trabalho, foram selecionadas 3 vistas por modelo (armazenamento e pré-processamento mais leves) e utiliza-se apenas 1 vista aleatória por iteração durante o treino, para refletir o uso real da interface e aumentar robustez. Após remoção de modelos inválidos e filtragem para manter apenas amostras com imagem e descrição não vazias, o conjunto final contém 175.993 modelos.
Tamanhos finais (Text2CAD filtrado)
| Split | Original (Text2CAD) | Após filtro |
|---|---|---|
| Treino | 159.049 | 159.026 |
| Validação | 8.925 | 8.922 |
| Teste | 8.046 | 8.045 |
| Total | 176.020 | 175.993 |
Apesar de existirem 3 vistas selecionadas por modelo, o treino usa 1 vista aleatória por amostra, alinhando com o cenário de uso (uma imagem) e favorecendo generalização.
Resultados
Avaliação end-to-end
Métricas
- Command Accuracy: porcentagem de comandos CAD (tipos/ordem) previstos corretamente.
- Parameter Accuracy: acerto dos parâmetros geométricos (com tolerância) para comandos corretamente previstos.
- Chamfer Distance (Mediana): distância geométrica típica (mediana) entre nuvens de pontos do sólido reconstruído e o alvo.
- Invalid Ratio: fração de gerações inválidas (falhas de reconstrução/validação geométrica).
| Método / Modo | ACCcmd ↑ | ACCparam ↑ | Med. CD ↓ | IR ↓ |
|---|---|---|---|---|
| CoCAD — Somente Imagem | 71,21% | 54,27% | 0,1939 | 13,13% |
| CoCAD — Somente Texto | 66,79% | 50,72% | 0,1885 | 14,43% |
| CoCAD — Imagem + Texto | 73,89% | 56,82% | 0,1554 | 12,53% |
| CADCrafter (Imagem, single-view) | 83,23% | 71,82% | 0,049 | 4,20% |
| Text2CAD (Texto, nível L3 expert) | — | — | 0,000370 | 0,93% |
O modo multimodal (imagem + texto) supera os modos unilaterais em todas as métricas, sugerindo que a fusão reduz ambiguidades e fornece condicionamento mais informativo. No conjunto de teste, o CoCAD mantém > 85% de modelos válidos em todos os modos (IR entre 12,53% e 14,43%). Métodos especializados (CADCrafter e Text2CAD) obtêm melhores resultados em seus cenários-alvo, o que é esperado por serem otimizados para uma única modalidade e por utilizarem etapas adicionais de refinamento e/ou descrições mais ricas.
Vídeo de apresentação
Demonstração do sistema CoCAD
Assista abaixo ao vídeo de apresentação e demonstração do CoCAD, contendo demonstrações da interface, exemplos de entrada (imagem + texto) e visualizações dos modelos CAD gerados.
Contato
Entre em contato
Para dúvidas sobre o CoCAD, oportunidades de colaboração ou acesso ao conjunto de dados e código, sinta-se à vontade para entrar em contato.
- E-mail: lfreitasp2001@gmail.com
- GitHub: github.com/LPFreitas
- LinkedIn: linkedin.com/in/lucas-palmiro
BibTeX
Como citar este trabalho
Se este trabalho foi útil para sua pesquisa ou projeto, utilize a citação BibTeX abaixo:
@mastersthesis{freitas2025cocad,
author = {Lucas Palmiro de Freitas},
title = {CoCAD: Sistema Generativo Multimodal para Modelos CAD Paramétricos},
school = {Escola Politécnica da Universidade de S{\~a}o Paulo},
address = {S{\~a}o Paulo, Brasil},
year = {2025},
type = {Trabalho de Conclus{\~a}o de Curso},
}
Acknowledgment
Agradecimentos
Este trabalho foi desenvolvido na Escola Politécnica da Universidade de São Paulo (Poli-USP). O autor agradece ao orientador, aos colegas de pesquisa e aos professores que contribuíram com discussões técnicas, feedbacks e apoio ao longo do desenvolvimento deste projeto.
O autor também agradece à família e amigos pelo suporte contínuo durante o período de realização do TCC. Qualquer erro ou omissão remanescente é de inteira responsabilidade do autor.