Task 소개

기존 모델

기존 모델의 한계점

  1. 변형된 데이터를 포함한 데이터셋에 의존 : 수동적인 방식의 경우 학습 과정에서 변형된 데이터를 포함한 데이터셋을 사용하는데, 이러한 방식으로 인하여 모델이 경험하지 못한 새로운 공격 모델로 멀티미디어의 내용이 바뀔 경우, 제대로 localization 하지 못하는 문제가 발생합니다.
  2. 인공적인 요소에 대한 의존 : 수동적인 방식의 경우, 변형되지 않은 부분과 변형된 부분 사이의 변칙적인 요소를 발견하여 조작된 부분을 찾아냅니다. 하지만 해당 방식의 경우 현실 데이터와 구분할 수 없을 정도로 발전한 생성 모델에 대해서는 제대로 동작하기 어렵습니다.
  3. 하나의 모달리티에 대한 의존 : 기존의 방법론들은 모두 타겟이 되는 하나의 모달리티에만 의존한 채 localization을 시도합니다. 해당 방식은 특정 부분을 변형하기 위해 미디어 전체를 재생성하는 공격기법에 대해서는 약한 모습을 보일 수밖에 없습니다.
  4. 내용 보존 공격에 대한 취약성 : 악의적인 공격이 아닌 변형에 대해서는 기존 방법론들은 취약한 모습을 보여줌. 예를 들어 이미지의 화질을 높이기 위해 딥러닝 모델을 활용할 경우, 주도적인 방식과 수동적인 방식 모두 이미지의 전체가 공격받았다는 결과를 도출해 냄. 해당 경우 이미지 전체가 공격 받은 것은 맞으나 악의적인 공격이 아니었다는 점에서 localization을 하지 않는 것이 당연해 보임.

방법론