llava

Here are 29 public repositories matching this topic...

haotian-liu / LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards GPT-4V level capabilities.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

Updated Dec 2, 2023
Python

chenking2020 / FindTheChatGPTer

Star

ChatGPT爆火，开启了通往AGI的关键一步，本项目旨在汇总那些ChatGPT的开源平替们，包括文本大模型、多模态大模型等，为大家提供一些便利

Updated Aug 14, 2023

roboflow / multimodal-maestro

Star

Effective prompting for Large Multimodal Models like GPT-4 Vision or LLaVA. 🔥

object-detection cross-modal multimodality instance-segmentation lmm gpt-4 visual-prompting prompt-engineering vision-language-model llava segment-anything gpt-4-vision

Updated Dec 1, 2023
Python

"Video-ChatGPT" is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted for spatiotemporal video representation. We also introduce a rigorous 'Quantitative Evaluation Benchmarking' for video-based conversational models.

chatbot llama clip mulit-modal vision-language vicuna gpt-4 vision-language-pretraining llava video-chatboat video-conversation

Updated Nov 14, 2023
Python

SkalskiP / awesome-foundation-and-multimodal-models

Star

👁️ + 💬 + 🎧 = 🤖 Curated list of top foundation and multimodal models! [Paper + Code]

nlp computer-vision image-captioning clip blip multimodal zero-shot-detection foundational-models llava segment-anything open-vocabulary-detection open-vocabulary-segmentation grounding-dino

Updated Nov 22, 2023
Python

SALT-NLP / LLaVAR

Star

Code/Data for the paper: "LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding"

ocr chatbot multimodal vision-and-language gpt-4 chatgpt instruction-tuning llava

Updated Sep 5, 2023
Python

trzy / llava-cpp-server

Star

LLaVA server (llama.cpp).

llama multimodal vision-transformer llm llava llama2

Updated Oct 20, 2023
C++

FuxiaoLiu / LRV-Instruction

Star

Aligning Large Multi-Modal Model with Robust Instruction Tuning

evaluation vision vqa llama object-detection gpt evaluation-metrics multimodal vision-and-language hallucination vicuna gpt-4 foundation-models prompt-engineering chatgpt llava vicuna-7b minigpt4 mplug-owl

Updated Nov 1, 2023
Python

tianyi-lab / HallusionBench

Star

HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models