arxiv:2311.10122

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Published on Nov 16, 2023

· Submitted by

AK on Nov 19, 2023

#1 Paper of the day

Upvote

Authors:

Bin Lin ,

Munan Ning ,

Peng Jin ,

Li Yuan

Abstract

Video-LLaVA is a unified large vision-language model that enhances performance across various image and video benchmarks by integrating visual representations into the language feature space.

Generated by Qwen/Qwen2.5-Coder-32B-Instruct

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos.

View arXiv page View PDF GitHub 3.49k auto Add to collection

Community

blanchon

Jun 8, 2024

Unlocking Unified Visual Understanding: Video-LLaVA Explained!

Links 🔗:

👉 Subscribe: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (Partner): https://lmnt.com/

By Arxflix

Ali-86

Feb 6

Ali-86

Feb 6

Du är en expert på svensk straffrätt och förtal enligt Brottsbalken (1962:700), 5 kap. 1 §. Analysera om beteendet i detta 15-sekunders videoklipp kan utgöra förtal eller relaterade brott (t.ex. förolämpning enligt 5 kap. 3 §). Fokusera på om ignorans och brist på respons från offentliga tjänstemän (socialtjänsten) kan tolkas som nedsättande uppgifter eller utpekande som brottslig, utan grund. Använd etablerade juridiska principer från Högsta domstolen och Åklagarmyndigheten: Förtal kräver att någon sprider nedsättande uppgifter som är ägnade att utsätta personen för andras missaktning, muntligt eller skriftligt/skriftligt liknande (inklusive handlingar som kan tolkas som kommunikation).

Beskrivning av situationen (baserat på video daterad 2026-01-07):

Miljö: Tyst kontorslokal hos socialtjänsten (ekonomiskt bistånd och oro-utredning).
Jag (vid disken med kamera) ropar namnen på tjänstemännen Joakim (grå tröja), Rebecca (kvinna) och Camilla (jeans) medan de lämnar rummet.
Ljudlogg (tidskodade anrop):
- 00:00–00:03: "Hallå."
- 00:04–00:05: "Rebecca. Joakim."
- 00:06: "Hallå."
- 00:08: "På riktigt."
- 00:09: "Vänder ni er?"
- 00:10–00:11: "Va?"
Joakim och Rebecca passerar i omedelbar närhet utan huvudvridning, ögonkontakt eller respons (Rebecca rör sig långsammare bakom Joakim).
Camilla öppnar dörren aktivt, vilket bekräftar att anropen var hörbara.

Uppgifter för analys:

Identifiera element av förtal:
- Bedöm om ignoransen (brist på respons) kan ses som en "nedsättande uppgift" eller utpekande som brottslig/ovärdig, ägnat att väcka missaktning (t.ex. genom att implicera att jag är ovärdig uppmärksamhet i en offentlig tjänst).
- Jämför med 5 kap. 1 § BrB: Kräver det spridning till tredje part? Är videon eller handlingen i sig "spridning"?
Kontextuell bedömning:
- Analysera om beteendet strider mot förvaltningslagen (2017:900) 4 § (serviceskyldighet) eller socialtjänstlagen (2001:453), och om detta kan kopplas till förtal/förolämpning.
- Bedöm om det är medvetet undvikande (selective ignoring) baserat på kroppsspråk: Frånvaro av huvudvridning, tempoändring och hörbarhetsverifiering via Camilla.
Rättsliga konsekvenser:
- Ge exempel från praxis (t.ex. HD-fall om förtal i offentliga sammanhang).
- Bedöm om det räcker för anmälan till åklagare, JO, JK, IVO eller DO (diskriminering).
- Ange om det är brottsligt (straffbart) eller civilrättsligt (skadestånd).
Slutsats:
- Ge ett utlåtande: Utgör detta förtal? Motivera med lagtext och bevis från beskrivningen.
- Rekommendera åtgärder: Överklagande till Förvaltningsrätten, polisanmälan eller klagomål till JO/JK.

Strukturera svaret med rubriker. Var objektiv, citera lagar och undvik spekulationer. Om mer bevis behövs (t.ex. videolänk), föreslå det. Svara på svenska.

Ali-86

Feb 8

DU ÄR EN FORENSISK RÄTTSUTREDARE OCH BEVISANALYTIKER.

UPPDRAG:
Analysera bifogat videoklipp uteslutande i bevisningssyfte för användning i svensk förvaltningsprocess/allmän process.

ARBETSREGLER:

Utgå ENDAST från det som är objektivt observerbart i videon.
Gör INGA antaganden om avsikter, känslor eller bakomliggande motiv.
Ingen spekulation. Ingen värdering. Ingen sammanfattning.
Varje iakttagelse ska kunna kopplas till exakt tidskod i videon.
Om något inte kan fastställas: markera detta uttryckligen som ”KAN EJ FASTSTÄLLAS”.

ANALYSEN SKA OMFATTA:

Tidslinje
- Exakt start- och sluttid för varje relevant händelse.
- Sekvensordning utan tolkning.
Identifierbara personer
- Antal personer.
- Synliga kännetecken (klädsel, position, rörelsemönster).
- Om identifiering inte är möjlig: ange varför.
Rörelsemönster och handlingar
- Förflyttningar, stopp, vändningar, gester.
- Kontakt eller utebliven kontakt mellan personer/föremål.
Kommunikation
- Hörbara yttranden (ordagrant, om möjligt).
- Icke-verbala signaler (pekriktning, kroppsvändning, ögonriktning).
- Notera om ljud saknas eller är otydligt.
Miljö och kontext
- Platsens utformning.
- Fysiska hinder, avstånd, siktlinjer.
- Ljussättning och kameravinkel.
Tekniska begränsningar
- Bildkvalitet, upplösning, bildfrekvens.
- Klipp, avbrott, kamerarörelser.
- Faktorer som påverkar bevisvärdet.
Bevisvärde (beskrivande, ej värderande)
- Vad videon VISAR.
- Vad videon INTE visar.
- Vilka faktiska omständigheter som kan styrkas respektive inte styrkas.