## 1. Executive Summary (Korean) - **main_claims**: 본 논문은 비디오 확산 트랜스포머(Video DiT) 내부에서 모션 개념(motion concept)을 시공간적으로 지역화하는 해석 가능한 어텐션 맵인 IMAP(Interpretable Motion-Attentive Maps)을 제안한다. 이를 위해 두 가지 핵심 기술을 제시한다: (1) 텍스트 개념을 대표하는 시각 토큰(text-surrogate token)과 시각 토큰 임베딩의 그람 행렬(Gram matrix)을 활용하여 모든 개념에 대한 공간적 saliency map을 생성하는 GramCol 방법론, (2) 프레임 간의 분리도 점수(separation score)를 기반으로 모션과 관련된 어텐션 헤드('motion heads')를 자동으로 선택하여 시간적 지역화 성능을 높이는 알고리즘. 이 모든 과정은 추가 학습이나 그래디언트 계산 없이 수행된다. - **strengths**: - **독창적인 방법론**: GramCol은 텍스트-시각 임베딩 간의 직접적인 내적(ConceptAttention) 대신, 가장 관련성 높은 시각 토큰을 '앵커'로 삼아 시각-시각 유사도 맵을 생성하는 새로운 접근 방식을 제시한다. 이는 더 깨끗하고 해석 가능한 맵을 생성하는 데 기여하는 것으로 보인다. - **모션에 대한 집중**: 기존 연구들이 주로 객체 지역화에 집중한 반면, 본 연구는 비디오 생성 모델의 핵심인 '모션'의 해석 가능성에 초점을 맞췄다는 점에서 시의적절하고 중요하다. '모션 헤드'라는 개념과 이를 정량적 지표(CHI)로 식별하려는 시도는 매우 흥미롭다. - **강력한 실험적 검증**: 제안된 벤치마크에서 IMAP은 기존 saliency map 방법론들(Cross Attention, ConceptAttention 등)을 큰 차이로 능가하는 성능을 보여준다. 다양한 모델(CogVideoX-2B/5B, HunyuanVideo)에 일관되게 적용되어 우수성을 입증한 점도 장점이다. - **체계적인 분석**: Ablation study를 통해 GramCol, layer selection, motion head selection 등 각 구성 요소의 기여도를 명확하게 분석하고 있다. - **weaknesses**: - **평가의 재현성 및 객관성 문제**: 핵심 성능 지표인 MLS(Motion Localization Score)가 LLM(o3-pro) 평가에 기반한다. 이는 평가 비용이 높고, 프롬프트에 따라 결과가 달라질 수 있으며, LLM 자체의 편향성 문제에서 자유롭지 않아 결과의 객관성과 재현성에 대한 우려를 낳는다. - **비표준 벤치마크 사용**: MeViS 데이터셋의 일부를 자체적으로 필터링하고 캡셔닝하여 벤치마크를 구축했다. 이는 제안된 방법론에 유리하게 구성되었을 가능성을 배제할 수 없으며, 향후 다른 연구와의 직접적인 비교를 어렵게 만든다. - **발견된 메커니즘에 대한 과도한 해석 가능성**: '모션 헤드'의 존재나 λ₂ 값이 높은 레이어의 중요성을 'Video DiT가 모션을 이해하는 방식'으로 설명하지만, 이는 강력한 상관관계일 뿐 인과관계로 입증된 것은 아니다. 발견된 현상에 대한 해석이 다소 단정적일 수 있다. - **overall_verdict**: 본 논문은 비디오 확산 모델의 해석 가능성 연구, 특히 모션 개념의 시공간적 지역화라는 중요한 문제에 대해 독창적이고 효과적인 해결책(GramCol, IMAP)을 제시했다. 실험 결과는 매우 인상적이지만, LLM 기반 평가와 자체 제작 벤치마크 사용으로 인한 신뢰성 문제는 아쉬운 부분이다. 그럼에도 불구하고, 제안된 방법론의 독창성과 중요성을 고려할 때, 강력한 수락(Strong Accept)을 추천한다. 단, 평가 방법론의 한계를 명확히 기술하고, 가능하면 소규모 인간 평가를 통해 LLM 평가를 보완하는 것을 권장한다. - **confidence**: 5/5 (매우 높음) --- ## 2. Claims-to-Evidence Map - **Claim 1**: "We propose GramCol that clearly visualizes any concept feature in Video DiTs, using a text-surrogate visual token and Gram matrix of the token embeddings." - **Supporting Evidence**: - Section 4.2: GramCol의 방법론이 Eq. (5), (6), (7)을 통해 상세히 설명됨. - Figure 1, Figure 8: 'Ours' 또는 'GramCol'로 표시된 맵이 ConceptAttention 등 다른 방법론에 비해 더 명확하고 집중된 saliency map을 보여줌. - Table 3: Zero-shot video semantic segmentation 태스크에서 GramCol이 다른 해석 가능성 기반 saliency map 방법들보다 높은 mIoU를 달성함 (25.0 -> 28.9). - **Gaps/Ambiguities**: 'clearly visualizes'라는 표현은 주관적이지만, 정성적/정량적 결과가 이를 뒷받침함. - **Claim 2**: "We discover Interpretable Motion-Attentive Maps (IMAP) that spatiotemporally localize motion concepts by leveraging motion attention heads." - **Supporting Evidence**: - Section 4.3: 'motion head'를 프레임 간 분리도 점수(CHI)로 식별하고, 이를 사용하여 IMAP을 계산하는 과정이 Eq. (9), (10)으로 설명됨. - Figure 5: 분리도 점수(CHI)와 모션 지역화 점수(MLS) 사이에 양의 상관관계(Pearson r = 0.60)가 있음을 보여줌으로써 'motion head' 선택 가설을 뒷받침함. - Table 1: 모든 실험 모델에서 IMAP이 다른 방법론들보다 월등히 높은 평균 MLS 점수를 기록함 (e.g., CogVideoX-5B에서 0.45 -> 0.62). - Figure 1, Figure 6: 'lightning strike', 'running', 'paddling', 'turning'과 같은 모션 개념에 대해 IMAP이 시공간적으로 정확하게 활성화됨을 시각적으로 보여줌. - **Gaps/Ambiguities**: 'discover'라는 표현은 이 메커니즘이 모델에 내재된 의도된 기능이라는 인상을 줄 수 있으나, 실제로는 저자들이 발견한 유용한 emergent property에 가깝다. 상관관계가 인과관계를 의미하지는 않는다. - **Claim 3**: "IMAP indicates when and where motion occurs and serves as an effective interpretable feature for understanding how Video DiTs understand a video." - **Supporting Evidence**: - Table 1: IMAP이 공간 지역화(SL)와 시간 지역화(TL) 두 지표 모두에서 높은 점수를 받음. - Figure 6: 'paddling' 예시에서 노를 젓는 동작이 일어나는 프레임과 팔/노 위치에서 맵이 강하게 활성화되는 것을 보여줌. - **Gaps/Ambiguities**: 'how Video DiTs understand a video'라는 주장은 강력한 해석이다. 이 방법이 모델의 특정 동작을 '해석'하는 효과적인 도구인 것은 맞지만, 이것이 모델의 '이해' 과정 그 자체라고 단정하기는 어렵다. --- ## 3. Novelty & Related Work - **Closest Prior Work**: 1. **ConceptAttention [28]**: 이미지 DiT에서 개념을 시각화하는 가장 직접적인 비교 대상. 텍스트-시각 임베딩의 내적을 사용한다. 2. **DiffTrack [43] & DiTFlow [51]**: 비디오 DiT의 시간적 특성을 분석한 연구. 하지만 이들은 주로 프레임 간의 대응 관계(correspondence)나 모션 플로우(flow)에 초점을 맞춰, 본 연구처럼 텍스트로 명시된 '의미론적 모션 개념'을 지역화하지는 않는다. 3. **DAAM [61]**: Stable Diffusion의 cross-attention map을 해석하는 연구. 동사(verb)에 대한 맵을 생성할 수 있지만, DiT 아키텍처와 비디오에 직접 적용되지는 않았다. - **Similarity/Delta Analysis**: - **vs. ConceptAttention**: ConceptAttention은 `h_x * h_c^T` (시각-텍스트)를 사용하지만, GramCol은 `argmax`로 찾은 `h_x[s]`를 기준으로 `h_x * h_x^T`의 열 (시각-시각)을 사용한다. 이 'text-surrogate' 아이디어와 동일 모달리티 내의 유사도를 활용하는 것이 핵심적인 차이점이며, 저자들은 이것이 더 안정적이고 해석 가능한 맵을 만든다고 주장한다. 또한, ConceptAttention은 모션 헤드 선택과 같은 시간적 지역화 메커니즘이 없다. - **vs. DiffTrack/DiTFlow**: 이 연구들은 픽셀 수준의 움직임에 집중하는 반면, 본 연구는 '걷기', '치기'와 같은 고수준의 의미론적 모션 개념을 텍스트와 연결하여 지역화한다. 접근하는 문제의 수준이 다르다. - **Novelty Verdict**: 본 연구의 독창성은 상당하다. (1) 시각-시각 유사도를 활용하는 GramCol의 제안, (2) '모션 헤드'라는 개념을 도입하고 이를 정량적 지표(CHI)로 식별하려는 시도, (3) 이 둘을 결합하여 모션 개념의 시공간적 지역화를 달성한 IMAP 파이프라인은 기존 연구에서 명확하게 제시된 바 없는 새로운 기여이다. --- ## 4. Methodology & Theory Audit - **Re-derived Equations & Dimensional Checks**: - `s_fi^c = argmax_p(q_fi * k_c^T)`: `q_fi`는 `P x d_head`, `k_c`는 `1 x d_head` 이므로 `q_fi * k_c^T`는 `P x 1` 벡터. `argmax`는 스칼라 인덱스를 반환. 차원 일치. - `G = h_x * h_x^T`: `h_x`는 `P x d` (여기서 `d`는 전체 임베딩 차원). `G`는 `P x P` 행렬. 차원 일치. - `GramCol(G, c) = G[s_fi^c]`: `P x P` 행렬에서 `s_fi^c`번째 열을 선택. 결과는 `P x 1` 벡터. saliency map으로 재구성 가능. 차원 일치. - 모든 수식은 내부적으로 일관되며, 어텐션 메커니즘의 표준적인 연산에 기반하고 있다. - **Assumptions/Edge Cases**: - **Assumption 1**: QK-Matching의 `argmax`가 항상 개념을 가장 잘 나타내는 신뢰할 수 있는 'text-surrogate' 토큰을 찾는다는 가정. Figure 4는 이것이 완벽하지는 않지만 peak는 정확하다고 주장한다. 만약 여러 위치에 동일한 개념이 존재하거나 개념이 매우 분산되어 있다면, 단일 `argmax`는 정보를 잃을 수 있다. - **Assumption 2**: 높은 λ₂ 값을 가진 레이어가 의미론적으로 더 풍부하다는 가정. 이는 TokenRank [20]에서 가져온 휴리스틱이며, Figure 3의 시각화로 뒷받침되지만, 모든 모델과 태스크에 일반화될 수 있는 이론적 보장은 없다. - **Assumption 3**: 프레임 간 임베딩의 높은 분리도(CHI)가 '모션' 특징과 강하게 연관된다는 가정. Figure 5의 상관관계(r=0.60)가 이를 뒷받침한다. 하지만, 이는 의도된 모션 외에 조명 변화나 카메라 움직임 같은 다른 종류의 시간적 변화에도 높게 반응할 수 있다. 이 가설의 강건성에 대한 논의가 부족하다. - **Minimal Pseudocode**: ```python def get_IMAP(video_di_model, video_latents, concept_token, motion_concept_token): saliency_maps = [] motion_saliency_maps = [] for t in selected_timesteps: for l in selected_layers: # Get embeddings from l-th MM-DiT block h_x, h_c, q_f, k_c = model.get_intermediate_states(l, t, ...) # --- GramCol for any concept --- s_idx = argmax(q_f @ k_c.T) # Text-surrogate token index G = h_x @ h_x.T # Gram matrix gram_col_map = G[:, s_idx] saliency_maps.append(gram_col_map) # --- IMAP for motion concept --- head_chis = [] head_embeddings = model.get_head_wise_embeddings(l, t, ...) for head_h_x in head_embeddings: # Treat each frame's tokens as a cluster labels = create_frame_labels(head_h_x.shape[0]) chi = calinski_harabasz_score(head_h_x, labels) head_chis.append(chi) top_k_head_indices = argsort(head_chis)[-k:] # Compute GramCol only on selected motion heads for head_idx in top_k_head_indices: head_h_x = head_embeddings[head_idx] # ... compute GramCol for this head ... motion_saliency_maps.append(motion_gram_col_map) final_map = average(saliency_maps) final_motion_map = average(motion_saliency_maps) return final_map, final_motion_map ``` --- ## 5. Experiments & Statistical Audit - **Dataset/Metrics Assessment**: - **Dataset**: 자체 구축한 벤치마크(MeViS 기반 504개 비디오)를 사용. 데이터셋 구축 과정(Qwen3-VL 캡셔닝, 정적 비디오 필터링)은 합리적이나, 이 과정에서 발생할 수 있는 편향(e.g., 특정 유형의 모션이나 캡션 스타일에 편향)에 대한 분석이 없다. 데이터셋이 공개되지 않으면 후속 연구와의 비교가 불가능하다. - **Metrics (MLS)**: LLM(o3-pro)을 평가자로 사용한 것은 혁신적이지만 심각한 단점을 내포한다. - **재현성 부족**: 동일한 프롬프트라도 LLM의 확률적 특성상 결과가 다를 수 있다. 평가에 사용된 정확한 프롬프트와 루브릭이 부록에 제공된다고 하지만, 완전한 재현은 어렵다. - **편향성**: LLM은 위치 편향, 장황함 선호 등 여러 편향을 가질 수 있다. Saliency map의 특정 시각적 패턴(e.g., 더 부드럽거나 더 뚜렷한 경계)을 선호할 수도 있다. - **통계적 유의성 부재**: Table 1, 2, 3의 점수에는 신뢰구간이나 표준편차가 제시되지 않았다. LLM 평가의 변동성을 고려할 때, 점수 차이가 통계적으로 유의미한지 판단하기 어렵다. - **Baseline Fairness**: - 선정된 베이스라인(ViCLIP, DAAM, Cross Attention, ConceptAttention)은 적절하며, 다양한 모델 아키텍처를 포괄한다. - ConceptAttention과의 비교 시, softmax 유무에 따른 성능 차이를 Table 2에서 보여준 것은 공정한 비교를 위한 좋은 시도이다. - **Result Commentary**: - Table 1의 결과는 IMAP의 압도적인 우위를 보여준다. 특히 TL(Temporal Localization) 점수가 다른 방법론에 비해 크게 향상된 점이 눈에 띈다 (e.g., HunyuanVideo에서 0.26 -> 0.41). 이는 motion head selection의 효과를 명확히 보여준다. - Table 2의 ablation study는 각 구성요소의 기여를 논리적으로 증명한다. GramCol 자체도 ConceptAttention보다 우수하며(0.37 -> 0.41), layer 선택과 motion head 선택이 점진적으로 성능을 향상시킨다. - Table 3에서 GramCol이 segmentation 전문 모델보다 성능이 낮은 것은 당연하지만, 다른 saliency map 방법보다 우수하다는 것을 보여줌으로써 공간 지역화 능력의 우수성을 입증했다. - **Robustness**: - 여러 시드(seed)에 대한 실험 결과가 없어, 결과의 안정성을 평가하기 어렵다. - Figure 5의 상관관계 계수(r=0.60)는 '보통' 수준의 상관관계를 의미한다. 이는 CHI가 유용한 지표임을 시사하지만, 완벽한 지표는 아니며 다른 요인들도 MLS에 영향을 미침을 암시한다. top-k (k=5) 값의 민감도 분석이 없다. --- ## 6. Reproducibility Checklist - **Code Availability**: 논문에 코드 공개 여부가 명시되어 있지 않다. **[Missing]** - **Dataset Completeness**: 벤치마크 구축 방법은 설명되어 있으나, 최종적으로 사용된 비디오 목록, 생성된 캡션, 필터링 기준 등은 제공되지 않았다. **[Missing]** - **Training Details**: 본 방법론은 학습이 필요 없으므로 해당 없음. 하지만, saliency map 추출에 사용된 하이퍼파라미터(분석할 timestep 범위, λ₂ 임계값, motion head 선택을 위한 k값 등)는 명시되어 있다. - **Determinism**: LLM 기반 평가는 비결정적이다. 방법론 자체는 결정론적으로 구현될 수 있다. - **Minimal Replication Plan**: 1. CogVideoX-5B 또는 HunyuanVideo의 사전 학습된 가중치를 확보한다. 2. 논문에서 설명한 concept-token stream을 구현하여 임의의 개념 토큰을 모델에 주입할 수 있도록 한다. 3. Section 4.1의 가이드라인(λ₂ > 0.75 등)에 따라 분석할 레이어를 선택한다. 4. 선택된 레이어에서 어텐션 헤드별 시각 토큰 임베딩을 추출한다. 5. 프레임을 클러스터 레이블로 사용하여 각 헤드의 CHI 점수를 계산하고, 상위 5개 헤드를 'motion heads'로 선택한다. 6. Eq. (5-7, 9-10)에 따라 GramCol과 IMAP을 계산하는 로직을 구현한다. 7. MeViS 데이터셋에서 임의의 비디오 클립을 추출하고 Qwen3-VL로 캡션을 생성하여 유사한 테스트 샘플을 만든다. 8. 정성적 비교를 위해 베이스라인인 ConceptAttention을 구현한다. 9. *정량적 복제는 LLM API 비용과 비결정성 때문에 거의 불가능하다.* --- ## 7. Risks, Ethics, Impact - **Misuse Vectors**: 이 기술 자체는 해석 가능성에 초점을 맞추고 있어 직접적인 악용 위험은 낮다. 오히려 모델의 실패 사례나 편향을 분석하고 디버깅하는 데 사용될 수 있어 긍정적이다. 예를 들어, 특정 인종 그룹에 대해 '폭력적인' 모션이 더 강하게 활성화되는 편향을 발견하는 데 사용될 수 있다. - **Data Bias**: 사용된 Video DiT 모델들(CogVideoX, HunyuanVideo)은 대규모 웹 데이터로 학습되었을 가능성이 높으므로, 데이터에 내재된 사회적, 문화적 편향을 그대로 가질 수 있다. IMAP은 이러한 편향을 시각적으로 드러낼 수 있는 도구가 될 수 있다. - **Societal Impact**: 모델의 내부 작동 방식을 투명하게 만들어 AI 시스템에 대한 신뢰를 높이는 데 기여할 수 있다. 이는 AI 안전성 및 정렬(alignment) 연구에 긍정적인 영향을 미칠 수 있다. --- ## 8. Scores (1–10) - **Originality**: 9 - **Quality**: 8 - **Clarity**: 9 - **Significance**: 8 - **Reproducibility**: 4 - **Overall**: 8 --- ## 9. Prioritized Action Items - **Priority 1**: **Strengthen Evaluation Rigor.** - **Issue**: The core metric (MLS) relies on a non-reproducible, potentially biased LLM evaluator. - **Rationale**: The paper's central claims rest on these scores. Their validity is paramount. - **Expected Impact**: Acknowledging the limitations of LLM evaluation and ideally supplementing it with a small-scale human study would significantly increase the credibility and perceived rigor of the experimental results. Releasing the benchmark data and evaluation prompts is a minimum requirement. - **Priority 2**: **Release Code and Benchmark Data.** - **Issue**: Lack of code and data prevents verification and extension by the community. - **Rationale**: Reproducibility is a cornerstone of scientific progress. Given the novelty of the method, enabling others to build upon it is crucial. - **Expected Impact**: Would solidify the paper as a foundational work in video DiT interpretability and foster future research. - **Priority 3**: **Refine Claims about "Understanding".** - **Issue**: The paper frames its findings as discovering how DiTs "understand" motion, which implies a cognitive process. - **Rationale**: This language is an over-interpretation of a correlational finding. A more neutral framing would be more accurate. - **Expected Impact**: Change phrasing from "how DiTs understand motion" to "a mechanism that correlates with motion generation" or "an effective feature for localizing motion concepts". This improves scientific precision without diminishing the contribution's value. --- ## 10. Questions for Authors 1. **On Motion Head Robustness**: How sensitive are the results to the choice of separation score? Have you experimented with other metrics like the Davies-Bouldin index or Fisher ratio, and do they identify a similar set of 'motion heads'? 2. **On Hyperparameter Sensitivity**: The paper uses top-5 heads for motion head selection. How does the performance (MLS score) change as `k` (the number of selected heads) varies? Is there a clear optimal point, or is the performance robust across a range of `k` values? 3. **On LLM Evaluation Bias**: Could you elaborate on any steps taken to mitigate potential biases in the LLM-based evaluation? For instance, were the orders of examples/methods randomized? Did you observe any systematic preference of the LLM for certain visual styles of saliency maps (e.g., sharper vs. smoother)? 4. **On the Limits of CHI**: The CHI score measures any temporal variation. Could it be that 'motion heads' are simply 'temporal change heads' that might also activate strongly for non-agentive changes like flickering lights, camera pans, or rapid color shifts? Have you tested IMAP on videos with such distractors? --- ## 11. Appendix Cross-References The paper states that the following details are provided in the supplementary material: - Further discussion on timestep selection and memorization phenomena. - More details on layer selection via λ₂. - Application to cross-attention-based models. - Detailed criteria, scoring prompts, and examples for the LLM-based MLS metric. - More qualitative comparisons. - Faithfulness validation of motion head selection via random head experiments. - Implementation details. The review assumes these materials are present and of good quality. The validity of the MLS metric, in particular, heavily depends on the quality of the prompts and rubric provided in the supplement. --- ## 12. Critical Counter-Perspective: Intuitive Rebuttals to the Authors’ Intent - **The "Motion Head" Narrative is a Seductive Oversimplification.** The authors present a clean story: some heads do space, some do time, and they've found the special "motion heads." But is this really how a distributed system like a Transformer works? It's more plausible that motion processing is a complex, distributed phenomenon across many heads and layers. The CHI metric is simply a clever filter that picks up heads sensitive to *any* significant temporal change. These heads might not be specialized "motion" processors but rather "high-frequency temporal feature" detectors. The strong correlation found might exist because agent-based motion is a very common and strong source of temporal change in videos, making it the dominant signal captured by the CHI filter. The framework risks creating a modern phrenology for attention heads, assigning simple labels to what are likely complex, polysemantic functions. - **GramCol is a Latent Space Template Matching Hack, Not a Deeper Insight.** The paper contrasts GramCol with ConceptAttention, arguing for the superiority of operating on a single (visual) manifold. A simpler, less charitable interpretation is that the abstract text embedding `h_c` is often a poor, noisy representation of a visual concept. GramCol's success comes from a brute-force trick: find the *single best example* of the concept in the image (`argmax(QK)`) and then use that patch's embedding as a template to find all other similar-looking patches. It's an effective form of latent-space template matching. While useful, this doesn't necessarily reveal a deeper truth about how the model *composes* concepts, but rather how it clusters visually similar features. - **The Evaluation is a Self-Fulfilling Prophecy.** The authors design a method to produce clean, sparse maps that highlight a specific text concept. They then use an LLM, a text-based evaluator, to judge the maps based on their "Prompt Relevance" and "Specificity/Sparsity." The evaluation metric is almost perfectly tailored to reward the exact properties the proposed method is designed to exhibit. This creates a closed loop where the method is almost guaranteed to win. The impressive quantitative gap in Table 1 might reflect the method's alignment with the evaluation protocol more than a fundamental superiority in capturing the model's "true" internal state. - **The Method Interprets the Output, Not the Process.** The paper claims to shed light on how DiTs *generate* motion. However, the analysis is performed on the denoised latents during the reverse process. It's an interpretation of the *resulting features* at each step, not necessarily the *generative logic* itself. It shows *what* features in the latent space correspond to a motion concept, but not *how* the model synthesizes those features from noise, conditioned on text, to create a coherent dynamic sequence. The title "I'm a Map!" is fitting—it provides a map of the final landscape, but not the geological forces that created it.