multi-modality

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created by https://twitter.com/advadnoun

deep-learning transformers artificial-intelligence siren text-to-image multi-modality implicit-neural-representation

Updated Mar 13, 2022
Python

Luodian / Otter

Star

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

machine-learning deep-learning embodied multi-modality artificial-inteligence embodied-ai egocentric-vision gpt-4 foundation-models large-scale-models visual-language-learning chatgpt instruction-tuning apple-vision-pro

Updated Dec 2, 2023
Python

InternLM / InternLM-XComposer

Star

foundation multimodal lmm multi-modality gpt-4 visual-language-learning chatgpt instruction-tuning mllm vision-language-model internlm gpt4v

Updated Nov 29, 2023
Python

DLR-RM / 3DObjectTracking

Star

Algorithms and Publications on 3D Object Tracking

tracking real-time computer-vision paper object-tracking rgbd pose-estimation ijcv multi-modality articulated tpami multi-body accv2020 cvpr2022 iros2023

Updated Jun 6, 2023
C++

kyegomez / Sophia

Sponsor

Star

Effortless plugin and play Optimizer to cut model training costs by 50%. New optimizer that is 2x faster than Adam on LLMs.

deep-learning neural-network optimizer artificial-intelligence multi-modality chatgpt

Updated Nov 8, 2023
Python

ziqihuangg / Collaborative-Diffusion

Star

Collaborative Diffusion (CVPR 2023)

image-editing image-generation face-generation multi-modality face-editing diffusion-models aigc stable-diffusion latent-diffusion-models gen-ai

Updated Nov 28, 2023
Python

OpenGVLab / Multi-Modality-Arena

Star

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model

Updated Nov 11, 2023
Python

kyegomez / swarms

Sponsor

Star

Build, Deploy, and Scale Reliable Swarms of Autonomous Agents. Join our Community: https://discord.gg/DbjBMJTSWD

Updated Dec 2, 2023
Python

researchmm / MM-Diffusion

Star

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

Updated May 10, 2023
Python

ZwwWayne / mmMOT

Star

[ICCV2019] Robust Multi-Modality Multi-Object Tracking

mot multi-modality iccv2019

Updated Dec 7, 2019
Python

DerrickWang005 / CRIS.pytorch

Star

An official PyTorch implementation of the CRIS paper

multi-modality referring-image-segmentation contrastive-learning

Updated May 30, 2023
Python

dvlab-research / UVTR

Star

Unifying Voxel-based Representation with Transformer for 3D Object Detection (NeurIPS 2022)

pytorch 3d-detection multi-modality

Updated Oct 19, 2022
Python

jackyjsy / CVPR21Chal-SLR

Star

This repo contains the official code of our work SAM-SLR which won the CVPR 2021 Challenge on Large Scale Signer Independent Isolated Sign Language Recognition.

sign-language-recognition-system sign-language-recognition multi-modality cvpr2021 skeleton-features