🧊 3D Vision¶

💬 ACL2026 · 1 paper notes

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook: CodeBind enhances ImageBind/ViT-Lens style multimodal alignment using shared-specific representation decoupling and a unified compositional VQ codebook. It simultaneously improves cross-modal classification/retrieval across nine modalities while preserving stronger modality-specific fine-grained information.