multimodality

Here are 100 public repositories matching this topic...

lucidrains / big-sleep

A simple command line tool for text to image generation, using OpenAI's CLIP and a BigGAN. Technique was originally created by https://twitter.com/advadnoun

deep-learning artificial-intelligence multimodality generative-adversarial-networks text-to-image

Updated Feb 6, 2022
Python

PreferredAI / cornac

Star

A Comparative Framework for Multimodal Recommender Systems

collaborative-filtering matrix-factorization recommendation-system recommendation-engine recommender-system recommendation-algorithms multimodality multimodal-learning

Updated Dec 1, 2023
Python

fnzhan / Generative-AI

Star

[TPAMI 2023] Multimodal Image Synthesis and Editing: The Generative AI Era

gans multimodality diffusion-model nerfs aigc

Updated Nov 21, 2023
TeX

ArrowLuo / CLIP4Clip

Star

An official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"

search retrieval ranking clip multimodality multimodal-learning multimodal activitynet retrieval-model msvd msrvtt video-text-retrieval lsmdc didemo video-clip-retrieval

Updated Nov 27, 2023
Python

roboflow / multimodal-maestro

Star

Effective prompting for Large Multimodal Models like GPT-4 Vision or LLaVA. 🔥

object-detection cross-modal multimodality instance-segmentation lmm gpt-4 visual-prompting prompt-engineering vision-language-model llava segment-anything gpt-4-vision

Updated Dec 1, 2023
Python

aimclub / FEDOT

Star

Automated modeling and machine learning framework FEDOT

machine-learning automation genetic-programming hyperparameter-optimization evolutionary-algorithms multimodality automl automated-machine-learning parameter-tuning structural-learning fedot

Updated Dec 1, 2023
Python

afiaka87 / clip-guided-diffusion

Star

A CLI tool/python module for generating images from text using guided diffusion and CLIP from OpenAI.

deep-learning artificial-intelligence openai image-generation multimodality text-to-image diffusion multimodal text-to-image-synthesis openai-clip

Updated Feb 8, 2022
Python

BradyFU / Woodpecker

Star

✨✨Woodpecker: Hallucination Correction for Multimodal Large Language Models. The first work to correct hallucinations in MLLMs.

multimodality hallucination hallucinations large-language-models llm mllm multimodal-large-language-models

Updated Nov 29, 2023
Python

zengyan-97 / X-VLM

Star

X-VLM: Multi-Grained Vision Language Pre-Training (ICML 2022)

multimodality vision-and-language x-vlm

Updated Nov 25, 2022
Python

HazyResearch / fonduer

Star

A knowledge base construction engine for richly formatted data

machine-learning multimodality knowledge-base-construction

Updated Jun 23, 2021
Python

lium-lst / nmtpytorch

Star

Sequence-to-Sequence Framework in PyTorch

deep-learning cnn pytorch speech-recognition seq2seq neural-machine-translation nmt multimodality asr

Updated Jan 5, 2023
Jupyter Notebook

jshilong / GPT4RoI

Star

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

computer-vision gpt roi multimodality llm

Updated Sep 21, 2023
Python

microsoft / UniVL

Star

An official implementation for " UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation"

video localization caption alignment segmentation coin multimodality joint multimodal-sentiment-analysis pretrain pretraining msrvtt video-text-retrieval video-text video-language youcookii retrieval-task caption-task

Updated Nov 28, 2022
Python

soujanyaporia / multimodal-sentiment-analysis

Star

Attention-based multimodal fusion for sentiment analysis

natural-language-processing sentiment-analysis tensorflow lstm attention attention-mechanism multimodality dialogue-systems sentiment-classification conversational-agents

Updated Aug 28, 2021
Python

kyegomez / CM3Leon

Sponsor

Star

An open source implementation of "Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning", an all-new multi modal AI that uses just a decoder to generate both text and images

attention multimodality attention-is-all-you-need multimodal-learning multimodal imagegeneration dalle