# Reference Set ## 相关工作 比较相关的数据集工作: * **FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset (NeurIPS Datasets and Benchmarks 2021)** 这是一个公开的音视频deepfake数据集, 生成数据的过程和我们相似, 包含音频伪造, 口型伪造, 换脸 * **Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization (2022的预印本)** 这是一个未公开音视频deepfake数据集, 生成数据集的过程和我们相似, 包含音频伪造, 口型伪造, 且有可以针对部分文稿内容进行伪造. (先针对文稿内容进行特定伪造, 再合成音频, 最后对口型) 我们关注的是观点一致性, 他们虽然也关注去篡改同一个身份说的内容(比如特朗普说:"我**反对**建边境围墙"), 但更关注的是伪造视频中哪一部分是假的(他们想只替换内容的一两个词(即例子中的"反对"), 然后训练temporal forgery localization), deepfake检测并不是他们唯一的重点. 此外, 他们没有利用说话人表达的信息, 也没有利用reference set. 还值得一提的是, 感觉他们那个temporal forgery localization不是很靠谱, 因为可以说, 虽然说只想改原视频文稿的一两个词, 但因为要重新合成音频, 重新对口型, 所以理论上假视频整段都是假的... 硬要检测一两个造假词的边界就emm... 和他们的区别: * 我们强调对伪造人物的identity和观点进行伪造, 强调利用音视频中表达的信息, 符合现实伪造视频应用的情境 * 利用reference set, 更符合现实鉴伪场景 * 我们的合成声音是finetune过的, 质量更高. ## 制作数据集时可能的困难 * 做伪造检验的音视频数据集,同时强调对观点信息的利用 -> 但这样会不会太偏向NLP的了, 或像[音频鉴伪+人脸鉴伪+虚假观点检测]三者纯粹的堆叠? (即我们的造假技术不够, 导致在我们的数据集上, 随便拿三者之一的sota方法独立使用, 都能很好地完成任务, 无法通过消融实验) * 目前我们使用的伪造方法, 很难一次合成较长的音频, 因此很难承载类似NLP任务的文字观点容量. -> 可以通过拼接多段合成语音来组成一段长的, 质量可以保证. -> 不过就要找对应subject的很多段长视频, 用来配口型. 如果长视频数量太少, 则场景可能会被模型记住, 有作弊嫌疑. 此外我觉得可以通过短视频(比较少观点)和长视频可以混合在一起来缓解. * 上下文不多, 对内容信息的检测难以正确分清是朝令夕改还是虚假. -> 我们如果只是要证明使用reference的有效性, 或许虚假观点可以直接从真实文稿中篡改就行了, 使用简单的正反对调, 不用弄成和NLP中谣言检测任务中那种精心设计的谣言. 我们对文稿篡改可以有以下几个方面: * 肯定与否定互换 * 情感极性互换 * 数字随机篡改 * 日期随机篡改 * 国家/政要姓名随机篡改 * 即使考虑简单的观点检测, 我们的reference set对于一个subject来说, 也应该要做得很大, 才能尽可能收集够多某个subject的观点. ## 训练集真假的形式 数据集结构: * Dev Set * 待检测部分: * 假1: 音频伪造, 口型伪造, 长/短文稿观点伪造 > example: 伪造特朗普观点:"我**反对**建造边境围墙" -> 合成音频 -> 合成口型 > > > 鼓励[音频鉴伪+人脸鉴伪+虚假观点检测]联合伪造鉴别 * 假2: 音频伪造, 长/短文稿观点伪造, 真视频 > example: 伪造特朗普观点:"我**反对**建造边境围墙" -> 合成音频 * 假3: 音频伪造, 口型伪造 > example: 真实特朗普观点:"我要建造边境围墙" -> 合成音频 -> 合成口型 * 假4: 音频伪造, 真视频 > example: 真实特朗普观点:"我要建造边境围墙" -> 合成音频 > > > 鼓励[音频鉴伪+人脸鉴伪]联合伪造鉴别 * 假5: 真音频, 真视频画面替换 (类似新闻上有时会剪成音视不同步的转场效果) > example: 真实特朗普音频:"我要建造边境围墙"拼接特朗普会见他国领导人的画面 > > > 鼓励[虚假观点检测] * 真: 音频,口型,文稿观点全真 * 参考部分: 每个subject下有很多个真实音视频. * Test Set: * 同上 ## reference set怎么用 给一个identity的视频$v$, 和Reference Set的full access, Reference Set有好几个subjects, 每个subjects下都有一系列真实视频$V$ 通过检测视频$v$和, 去找到reference set中对应的subject, 然后检测$v$与$V$的一致性, 包括声音, 脸, 内容(信息/观点)风格是否一致, 判断视频是否是假的