## 할일 ### 월 - [ ] writing / figure 대충 마무리 - [ ] vss 결과내기 - [ ] daam 다돌려서 eval 돌리기 ### 화 - [ ] video matting 같은 간단한 application - [ ] writing - [ ] Writing - Experiments - [x] Fig. 4. pipeline 초안그리기 - [ ] Fig. 3. Q-K matching (head-frame-verb) 잘된다는 figure - [x] Wan 구현 (완료) 1.3B: 16GB (RTX4090), 14B: A100 사용 - [x] 토의: Cross-attention 기반 모델 특징 vs Joint-attention 기반 - [x] 토의: VOS가 아니라 VSS를 해야하는것 아닐지? ~~데이터셋만 VOS로 하고 실험은 VSS로 하기? ConceptAttention도 paper에는 Image segmentation이라고만 했음~~ VSS dataset으로 하기 - [x] Writing - Intro (대충 내용만) - [x] Writing - Related work (대충 내용만) - [x] [yj] HunyuanVideo 구현 (A6000이상 사용) - [x] [yj] DAVIS (video 90개) 전처리 - [x] [yj] MeViS motion 1개로 줄이기 - [x] [yj] Writing - Methods (내용 흐름 + 논리 위주) (하는중) - [x] Writing - Abstract / Submission open - [x] Writing - Figure / Table 위치잡기 + Table 생성해두기 - [x] [yj] wan tile별 normalize 해보기 - [x] VSPW val 전처리 (video 343개) - [x] Fig. 2. layer 고르기 (lambda 2) (Hunyuan까지 나오면 바로 그려버리기) - [x] VSPW eval 코드 (github에서 다운받아서 돌리게 해놓기) - [x] VSPW 돌리기 - Cog2B, 5B - [x] VSPW 돌리기 - Hunyuan - [x] 2B layer 찾기 (51개 생성 & EVD) - [x] Hunyuan layer 찾기 (51개 생성 & EVD) - [x] MeViS 돌리기 - Cog2B, 5B - [x] MeViS 돌리기 - Hunyuan, Wan 1.3B - [x] [wj] ViCLIP - MeViS 돌리기 [mask, score] - [ ] [wj] DAVIS 2017 baseline 표 정리 + bib 추가ib 추가 (train/free or seg/non-seg) - [ ] [wj] DAVIS 같은 segmentation dataset 정리 - [x] [si] MeViS Eval - [ ] [wj] Application (실험) - video matting ? - [ ] Writing - Conclustion (대충 내용만) - [x] [si] Fig. 5 실험 (motion score vs sep score) - [ ] Fig. 5. head 중에 sep score 높은게 진짜 motion head라는 걸 보여주는 figure / table (motion map score vs sep score) - [ ] Fig. 6. result (vos) - [ ] Fig. 7. result (motion) - [ ] Fig. 8. ablation - [x] 코드공유 - [x] 오버리프공유 - [ ] (시간남으면) 최고 parameter 찾기 (topk, renoise_timestep) - [x] timestep 1개만의 성능 확인 ## Cautions - [x] MTBench는 A100에서만! (GPU가 바뀌면 시드도 바뀌는듯, L40S나 A6000Ada에서는 다른게 생성됨, RTX4090은 테스트 아직) - [x] 시간없다 시간없어 # TODO ### Idea - [ ] APPLICATIONS 어디에? ### Writing (DRAFT라도) - [x] Introduction - [x] Related Work - [ ] Analysis - [ ] Methods - [ ] Experiments ### Figures - [ ] Pipeline Figure - [ ] Results - [ ] Ablation ### Experiments - [ ] VLM Evalution Pipeline (MeViS-51개/453개, MTBench-100개) - [x] CogVideoX 2B 구현은 완료 - [x] Wan2.1-1.3B, 14B 구현은 완료 - [ ] Human Evaluation - [ ] APPLICATIONS ### DETAIL TODO - [x] ~~Negative head reversion~~ - [x] QK-Matching (Concept & Visual token) - [ ] VLM Evaluation pipeline (API, GPT-5) - [x] CogVideoX-5B 마무리하기!!! # Memo - layer 선택의 정당성: DTMC lambda_2 (informative attention propagation -> informative layer?) (main에 피규어?) - timestep: generation=맨앞만 빼고 (memorized feature, noisy feature) 평균 (서플에 피규어) - head: frame별 visual token간 seperate score - visual token: QK Matching ## Abstract ## 1. Introduction - Video DiTs 잘해 - Video DiTs를 이용한 findings (visual features, motion transfer, segmentation, temporal correspondence) - (DiTFlow) motion의 상하좌우 방향 - (DiffTrack) 특정 layer의 temporal correspondence - (ConceptAttention) 특정 concept의 saliency maps - We: 어떤 object가 어떤 motion을 어느 시점에 어떤 방향으로 보이는지에 대한 구체적인 motion feature에 대한 탐구 - SOWHAT: ??도 돼 (APPLICATIONS) generative dynamics, vqa, video editing, motion transfer, video generation boosting, map fine tuning, **motion-activity control**, physic-iq - 기존 transformer: head별로 달라, 등등 그래서 ~~ 분석해. - Analysis Results 1. QK Matching -> concept localization이 가능해 (TODO) 2. QKV hidden -> rich motional information, 근데 head별로 달라 3. QKV hidden self product -> motion 정보가 많아져, 근데 어떤 token select할지에 따라 달라 - Methods 1. 그래서 우리 head 골라. visual token의 seperation score로 2. 그래서 우리 hidden state self product할거야. 근데 token 골라야해 3. 그래서 우리 token 골라. QK Matching으로 - Exps 1. 그래서 motion-attentive map를 얻어. 이거 interpretable해. 2. VLM 기반 평가 framework를 만들어서 평가했더니 잘해. 3. (APPLICATIONS) 도 해 그래서 잘돼. 신기해 - 정리하자면, object의 motion이 언제 어디서 발생하는지를 보여주는 IMAM이라는걸 만들었어. > Diffusion transformers (DiTs)는 Transformer backbone을 활용한 diffusion models의 일종으로 우월한 scalability로 인해 vision 생성 모델의 토대가 되어왔다. Image와 Video 생성에서, Multi-modal DiTs는 large datasets를 이용, 모델을 scale up 하여 주어진 text descriptions로부터 높은 품질과 충실도를 보이는 visual form을 생성하고 있다. 이러한 성능 향상에 불구하고 black box 모델인 Multi-modal DiTs 내부의 생성 과정 메커니즘의 이해도는 뒤쳐져 있다. 이러한 MM DiTs 작동 원리의 인간의 이해를 높이는 것은 model의 human alignment를 제고하는 데 필수적이다. > 기존 MM-DiTs의 대부분의 해석적 연구는 Image domain에 한정되었다. Video는 Image의 cohesive sequence로 temporal movement가 추가적으로 도입되어 Image보다 많은 정보를 전달하는 매체이다. 따라서 Video DiTs에서는 text description이 visual token에 어떤 영향을 미치는 지 뿐만 아니라, visual tokens 간의 복잡한 mechanism이 내재된다. V-DiTs를 해석적으로 분석하는 것을 통해 Video 생성과정을 이해할 뿐만 아니라 주요 Video feature를 획득할 수 있다. > 기존 연구들은 주로 frame 사이 visual token의 relation에 초점 맞춰왔다. DiTFlow는 cross-frame attention을 이용해서 displace matrix를 구성하여 motion flows를 찾고자 하였고, DiffTrack은 frame간 query-key matching을 이용하여 temporal correspondance를 발견하였다. 우리는 주어진 motion에 대해 video 내의 어떤 object가 어느 시점에 어떤 방향으로 motion을 보이는지에 대한 구체적인 motion feature에 대한 탐구를 한다. 이러한 motion map은 motion이 일어나는 순간에만 highlight되기 때문에 근본적으로 optical flow나 temporal correspondance와는 다른 성질을 띈다. motion map은 motion이 언제 어디서 발생하는지에 대한 중요한 정보를 제공하므로, V-DiTs가 video를 어떻게 이해하고 있는지 뿐만 아니라 video 자체를 이해하는 데 효과적인 interpretable feature로서 작동한다. + SOWHAT > 우리는 V-DiTs가 주어진 motion concept에 대해 해당 motion을 spatially뿐만 아니라 temporally localize할 수 있는지 탐구한다. 이를 위해 1) spatio-temporally localized motion feature가 존재하는지 분석하고, 2) motion feature를 saliency map 형태로 시각화하는 self-projection 방법을 제안한다. 또한, 3) frame-wise seperate score를 통해 temporal expert head를 찾고, motion feature를 automatically aggregate하는 algorithm을 제시한다. 이 모든 과정은 light-weight한 training-free 방법이며, DiT structure의 attention type (joint attention or cross attention)에 무관하게 적용가능하다. 우리는 이렇게 획득된 motion saliency maps을 interpretable motion-attentive maps (IMAM)라 명명한다. > 우리는 self-projection 기반의 IMAM의 효과를 zero-shot video object segmentation과 temporal motion localization의 측면에서 평가한다. 우리의 self-projection 방법은 기존의 concept projection방법에 비해 timestep, layer에 무관하게 항상 뚜렷한 highlight map을 제공하며 zero-shot VOS에서 우월한 성능을 보였다. 게다가 concept-wise softmax operation의 제거로 concept engineering을 제거하여 편의성을 제고한다. 또한 IMAM은 motion을 spatial측면 뿐만 아니라 temporal측면에서도 localization하여 temporal하게 dynamic한 interpretable feature를 제공한다. > 우리의 contributions를 정리하자면, 1. Video DiTs에 내재된 spatial, temporal feature를 뚜렷하게 visualize하는 self-projection 방법을 제안한다. 2. motion temporal localization을 탐색하여 interpretable motion-attentive maps 를 발견하고 획득한다. 3. zero-shot VOS에서 sota 성능을 보였으며, 새롭게 제안한 temporal motion localization 평가에서도 최고의 성능을 보였다. ## 2. Related Work - Video의 feature - Video DiT 내의 feature > - Diffusion Model Interpretablity > -- memorizaiton > -- segmentation > -- Interpretable Attribution Maps in Diffusion Models > Cross attention (DAAM) > Image editing > Concept attention, > TokenRank, ... > -- motion transfer > DiTFlow, DiffTrack, ConceptAttention > - Multi-Head Attention Analysis > MoH > SparseVideoGen, Sparse-vDiT, ... > YourLVLM, InterpretAttnHeads, ... > Diffusion Model Interpretabilty > Diffusion Models (DMs)는 iterative denoising을 통해 data를 생성하는 모델로, image, video, point cloud, 3d, language 등 다양한 분야에서 두각을 나타내고 있어, 이 모델의 작동 원리를 interpret하려는 많은 시도가 있었다. > Analytic Lens. > Manifold contrained gradient, CFG++에서는 manifold의 local linearity 가정을 기반으로 diffusion process를 manifold상에서의 geometric interpretation을 제안하였다. AutoGuidance, Guidance interval 에서는 multi-modal generation의 핵심인 classifier-free guidance의 원리를 분석하고 high density region으로의 편향을 개선하려는 시도를 하였다. 이러한 sampling bias는 minority groups에 대한 opportunity를 restrict하여 fairness를 저해한다는 시각도 있었다. 한편으로는, DMs가 데이터를 create하는 것인지 duplicate하는 것인지에 대한 우려도 있었다. Carlini et al.은 DMs로부터 training data를 extract하는 것이 가능하다는 문제를 제기하며 memorization의 단서를 발견했다. Somepalli et al.은 data replication 현상을 training dataset 규모가 작을때 심화된다고 밝혔다. Wen et al.은 memorization을 detecting하고 어떤 token이 memorize의 요인인지 explain한다. > Visual Control Lens. > DAAM 에서는 cross attention mechanism을 이용하여 noun, verb, adjective, adverb, proper noun, number에 대한 attribution maps을 획득하였다. ConceptAttention에서는 prompt에 없는 임의의 concept에 대하여 concept feature를 이용한 saliency map을 구해 zero-shot image segmentation에서 우수한 성능을 입증했다. TokenRank에서는 attention map을 discrete time Markov chain의 transition matrix로서 해석하는 관점을 제시하고, one-hot text token의 transition을 통해 segmentation을 수행하였다. Temporal feature에 관련해서는, cross-frame attention을 이용하려는 시도가 있었다. DiTFlow에서는 cross-frame attention으로 displacement matrix를 구해 reference video에서 target video로의 motion transfer를 했다. DiffTrack에서는 특정 layer의 cross-frame query-key matching에서 temporal correspondence를 발견했다. > 기존 연구들은 spatial segmentation 또는 temporal continuity에 대해 이루어졌고, 우리는 motion을 spatially localize할 뿐만 아니라 temporally localize하는 motion map을 찾는 것을 목표로 한다. > Multi-Head Attention Analysis > SparseVideoAttention papers, > LVLM - YourLVLM, InterpretAttnHeads > Mixture of Head > Multi-Head Attention in Transformers > Multi-head attention (MHA)는 transformers의 핵심 mechanism으로 여러개의 head로 이루어진 attention mechanism이다. heads들은 서로 independent한 matrix multiplication 과정을 거치기 때문에, 서로 독립적인 information flow를 지니게 된다. 따라서 여러 head의 역할이 다르다는 발견이 있었다 Large language models, large vision-language models (LVLMs), vision transformers (ViTs), diffusion transformers 연구들에서. 여러 연구들은 특정 head가 주요한 정보를 전달함을 발견하여 head의 중요도를 평가하고자 했다. DNIO series에서는 ViT의 일부 head가 자연스럽게 객체 경계를 따라 주의맵을 형성한다는 것을 발견하였으며, Kang et al.은 LVLM의 특정 a few heads가 visual grounding에 필요한 feature를 제공함을 발견하였다. 특히, Video DiTs에서는 visual token간의 attention computational cost를 줄이기 위해 spatial heads와 temporal heads를 찾아 서로 다른 방식으로 sparsify하는 방법들이 연구되었다. > temporally 특화된 heads가 존재한다는 기존 연구에서 나아가, 우리는 temporally motion을 localize하는 heads를 선별적으로 선택하여 motion map을 형성한다. ## 3. Feature Analysis ~~- (Prelim) Concept Attention~~ 1. QK Matching 2. QKV hidden 3. QKV hidden self product > Preliminary > Multi-modal Diffusion Transformers (MM-DiTs) > CogVideoX, HunyuanVideo와 같은 video DiTs들는 Diffusion scheduler 또는 Rectified flow scheduler를 사용하는 Diffusion Models이다.\footnote{Gao et al.과 같이 diffusion models와 flow models는 동등성을 띄며, 편의를 위해 diffusion models로 통칭한다.} 이러한 video DiTs들은 multi-modal Diffusion Transformer (MM-DiT) Blocks가 층층이 쌓여 있는 architecture이다. MM-DiTs는 text와 visual hidden states가 독립적인 stream (double stream)으로 처리되며, Multi-modal attention (MM-Attn)은 MM-DiTs에서 text conciditon을 visual tokens로 통합하는 핵심 모듈이다. > 각 MM-DiT block 내에서 MM-Attn의 joint attention만 text와 visual token이 상호종속적이기 때문에, MM-Attn은 joint attention mechanism을 통해 text-text, visual-text, text-visual, visual-visual attention을 통합하는 역할을 한다. 이러한 MM-Attn은 잘 알려진 multi-head self attention operation으로 작동하며, Q, K, V를 query key value projection matrix, projection된 concat된 visual, text embedding을 q_xp, k_xp, v_xp라 할 때, self attention operation은 다음과 같이 이뤄진다: > 수식 > 한편, Video DiTs는 patchify된 frames를 이어붙여 하나의 visual token으로 활용하기 때문에 각 visual hidden states는 frame별 hidden state를 concatenate한 형태가 된다. 따라서 MM-Attn에서는 모든 frame의 visual token들이 text token과의 attention score를 각각 계산한다: > 수식 > Problem setting > 우리의 목표는 Video DiTs 내에 주어진 text token에 대한 visual region을 spatially 그리고 temporally localize하는 것이다. 구체적으로 Video DiTs에서 1) 주어진 prompt 내의 token 또는 외부에서 주입된 concept token에 대해 spatially localized attributuion map과, 2) 주어진 verb 또는 motion token에 대해 spatially, temporally localized motion map을 찾는 것이 목표이다. 우리는 spatially localize하기 위해 QK circuit을, spatially localized feature 중 temporal feature를 포함한 feature를 추출하기 위해 OV circuit 각각 분석한다. 이때, head 별 분석을 위해 OV circuit에서 output matrix를 곱하지 않은 상태의 hidden states를 다룬다. > Subject of Analysis > DiTs는 diffusion models이기 때문에 Layer (i.e., MM-DiT Block)뿐만 아니라 Timestep에 따라 서로 다른 behavior를 보인다. 한편, early timestep에서의 latent space의 조작만으로 memorization이 완화된다는 기존 연구들의 의견과, 실험적으로 early timestep에서 watermark를 나타내는 feature가 포착되며, diffusion schedule 상 noisy input이 사용되기 때문에, early timestep의 feature는 다루지 않는다. 추가적인 정보는 supplementary materials를 참고해라. > Transformers가 layer별로 서로 다른 역할을 한다는 기존 결과와 상응하게, DiTs 또한 layer별로 특화된 정보가 다르다. 따라서 우리는 spatio-temporal한 semantic feature에 대해 informative한 layer를 선택한다. discrete-time Markov chain (DTMC) framework를 기반으로 해석하면, 각 token은 state, attention weight matrix은 state transition probability matrix가 된다. 이때 TokenRank와 유사하게, randomly sampled transition probailities가 small 2nd largest eigenvalue lambda2가 매우 작고 metastable states가 거의 없다는 점에 기안하여, head별로 평균적으로 larger lambda2 (평균 lambda2, h는 head)를 가지는 MM-Attn을 선정하여 layer를 선택한다. > Fig.~2는 CogVideoX-2B, 5B와 HunyuanVideo 에서의 layer별 평균 lambda 2를 나타낸다. 실제로 평균 lambda 2가 높은 layer를 사용한 video segmentation score도 더 높았다. Fig. 1: layer 고르기 (lambda 2) Fig. 2: Q-K matching (head-frame-verb) 잘된다는 figure Fig. 3: head 중에 sep score 높은게 진짜 motion head라는 걸 보여주는 figure / table (motion map score vs sep score) Fig. 4: pipeline Fig. 5: result (vos) Fig. 6: result (motion) Fig. 7: ablation > QK Matching > Query Key matching으로 이루어지는 Attention score는 ~에서 많은 연구가 이루어졌다. 특히 text token에 맞는 image token을 localizaion하는 데 많이 사용되며 interpretable한 visualize tool로서 사용되었다. 우리는 query key matching이 video DiTs에서 motional words를 localize하는 데 어떤 효과를 보이는지 확인한다. 이를 확인하는 방법은 cross attention map에서 특정 text key에 대한 attention scores를 Frames x Height x Width 로 전환하여 시각적으로 확인하는 것 (Cross attention map)이다. > Fig. 2와 같이 Cross attention map은 concept을 spatially localize하기에는 blurry하고 경계가 불분명한 unclear한 map을 준다. 하지만, attention scores가 가장 큰 visual token을 보면 매우 정확하게 시각적 위치를 특정할 수 있는 도구가 된다. 이러한 결론은 기존 연구들 (\citation 이빠이)와 상응하는 결과이다. > ConceptAttention > ConceptAttention (ConceptAttn)은 image hidden state와 concept hidden state의 곱으로 만들어지는 visualize map이다. ConceptAttn은 > timestep: early timestep의 경우 noisy, memorized feature가 있어서 제외. 자세한 내용은 supplementary materials에 있음. (figure) > layer: dtmc 관점 + figure에서 선택 (avg lambda2 > 0.7) > head: 역할 다름 (temporal, spatial, motional, semantic, reverse) > Autoprojection > Self-projection based map > QK-Matching은 구별력있는 map을 얻는 데 효과적이지는 않지만, 주어진 text token을 가장 신뢰도있게 표현하는 visual token을 고를 수 있다: > argmax 어쩌구 수식 > 우리는 이 text surrogate token과 전체 visual tokens과의 inner product인 Autoprojection을 구한다. Autoprojection에서 text surrogate token이 각 head별로, frame별로 선택되기 때문에, head별 discrepancy에 대응할 수 있으며 temporally 변화하는 spatial concept을 tracking할 수 있다. 게다가 visual token의 self-projection 기반 map이기 때문에 highlight하는 부분이 항상 positive가 되어 특정 head의 negative highlight를 방지할 수 있어 뚜렷성을 확보한다. > 그래서 우리는 이를 선택된 timestep, layer에서 Autoprojection을 평균하여 Spatial최종 Autoprojection map을 구한다: > 수식 > Remark > ConceptAttention은 image hidden state와 concept hidden state를 곱하는 방법론이다: > 수식 > ConceptAttention은 image domain에서 성공적인 attributuion map을 구하는 방법론이지만, 몇가지 한계점이 있다. 첫째, fixed concept hidden state가 visual token에 곱해지기 때문에, frame별 specificity가 고려되지 않는다. 둘째, visual hidden state와 concept hidden state 간의 product로 이루어지기 때문에, 모든 head에서 positivity를 보장하지 못한다. 셋째, 주입된 concept간의 softmax operation에 의존하기 때문에 spatially segmentation은 가능하지만 motion (or action) concept을 처리하는 데 한계가 있다. 한편, Autoprojection은 frame별로 서로 다른 index의 visual token을 활용할 수 있어 video-적합하며, image hidden state간의 곱이기 때문에 positivity가 보장된다. 게다가 이러한 성질로 인해 softmax 없이도 분별력있는 saliency map을 획득할 수 있다. 우리는 Sec. 5.2에서 Autoprojection maps의 spatial localize performance를 video semantic segmentation task를 통해 검증한다. ## 4. Interpretable Motion-Attentive Maps 1. head selection 2. hidden state self product 3. token selection > Fig. 4와 같이 Autoprojection map은 spatial localization은 잘 하지만, temporal하게 motion이 일어나는 frame을 포착하지는 못한다. 한편, 지금까지의 Video DiTs의 연구들에서 MM-Attn의 head별로 spatial / temporal 역할을 담당한다는 attention pattern 관점에서의 단서들이 발견되었다. 따라서, 우리는 head별 특성을 파악하여 temporal head를 추출하여 temporal localizaiton을 달성한다. 이 section에서는 temporal localization을 다루기 때문에, verb token과 같이 시간적으로 변화하는 성질을 가지는 motion token에 특화하여 다룬다. > 각 head별 visual token embedding h_x는 frame별 visual token들이 concatenate되어 flatten되어있다. 이때, 우리는 frame별 visual token의 차이가 큰 head가 temporal information을 많이 가지고 있을 것이라 가정한다. 그리하여 frame별로 각 cluster로 취급하여 visual token들의 seperation score (e.g., Calinski–Harabasz index, Davies-Bouldin index, Fisher ratio, etc.)를 측정한다. seperation score가 크다면 frame간 visual tokens의 차이가 크므로 temporal discrepancy가 크다. 이러한 highly seperated head의 autoprojection map의 motion score (Section 5.1)를 평가하여 이러한 seperability가 temporal localization에 효과적인지 확인한다. Fig. 5는 CogVideoX-2B에서 우리가 다루는 Layer의 모든 head의 autoprojection map의 motion score와 seperation score를 plot한 결과이다. seperation score가 높을 수록 motion score가 높은 경향성을 나타내기 때문에, temporal discrepancy가 큰 highly seperated head는 motion을 localize하는 데 효과적이다. > seperation score가 높을 수록 temporal localization에 효과적이므로, 우리는 motion-attribute map을 얻기 위해 seperation score가 높은 head만 사용한다. na\"ive하게 seperation score를 모두 계산한 뒤 다시 처음 layer로 돌아가 선택하거나, 모든 autoprojection map을 저장하여 seperation score가 높은 map만 사용하는 것은 computationally inefficient하다. 따라서 우리는 각 layer별로 높은 seperation score를 가지는 head를 top k개 선택하여 Eq.~6에 따라 saliency map을 구한다. 우리는 이렇게 구한 motion token에 대한 spatio-temporal localization map을 interpretable motion-attentive map이라 부른다. > 최종적으로 spatial saliency map과 spatio-temporal saliency map은 다음과 같이 구할 수 있다 (Fig. 4). > Spatial Saliency Map (Autoprojection Map) > Video DiTs를 통과하며 layer마다 MM-Attn에서 각 text token과 visual token 사이의 QK-Matching을 통해, text token별 text-surrogate token을 선택한다. 이후 Eq.~(6)에 따라 Autoprojection을 계산한다. timesteps, layers, heads에 대하여 평균하면 Spatial saliency map인 Autoprojection map을 구할 수 있다. > Spatio-Temporal Motion Saliency Map (IMAM) > 각 layer마다 visual hidden state h_x를 이용하여 head별로 frame-wise seperation score를 계산한다. 이후 seperation score가 높은 top k개 head를 선택하여 Eq.~(6)에 따라 Autoprojection을 계산한다. timesteps, layers, selected heads에 대하여 평균하면 Interpretable Motion-Attentive Map (IMAM)을 얻는다. ## 5. Experiments 1. Setup (MeViS, VLM-Eval, Human-Eval) 2. Results 3. Ablations & Analysis (Head, token) > ## 6. Conclusion >