2025-01-22 23:12
其實之前就出現在 NeurIPS2024 的 ATTRIB Workshop 了,但還是再推廣一下
這篇的貢獻大概有:
1. 定義了 Threat Models,涵蓋了大多數實際 Data Attribution 被應用的場景
2. 對於不同的 Threat Models,分別設計了 Attack 並且做了完整的實驗
3. 在理論假設良好的 Thread Model 下,證明和解釋 Attack 的構造思路
TLDR: TDA score can be manipulated!!!