에이전트를 노리는 피싱 공격
콜롬비아 대학교 연구진, AI 에이전트를 속이는 악성 링크 기법을 시연하다
기계학습 연구 | 기술과 사회 | AI 에이전트 | AI 안전성
발행일: 2025년 6월 4일
읽는 시간: 약 2분

연구진은 대규모 언어모델 기반의 자율 에이전트를 간단하게 속이는 방법을 찾아냈다.
새로운 소식: 콜롬비아 대학교의 Ang Li와 연구팀은 에이전트가 일반적으로 인기 있는 웹사이트에 신뢰를 두는 특성을 악용해, 해당 사이트에 악성 링크를 삽입하는 방식으로 공격하는 기법을 개발했다.
핵심 통찰: 시중에 판매되는 에이전트 시스템은 무작위 웹사이트는 신뢰하지 않지만, 소셜 미디어와 같은 인기 사이트는 신뢰하는 경향이 있다. 공격자는 이러한 신뢰를 이용해 겉보기에 평범한 게시물을 만들고, 여기에 악성 웹사이트 링크를 삽입할 수 있다. 에이전트는 해당 링크를 클릭하면서 의도치 않게 신뢰를 확장하게 되고, 신뢰할 수 없는 사이트까지도 신뢰하게 되는 것이다.
작동 방식: 연구진은 Anthropic의 Computer Use, MultiOn과 같은 웹 브라우징 에이전트를 대상으로 쇼핑, 이메일 발송 등의 작업에서 실험을 진행했다.
- 연구진은 특정 에이전트 작업(예: Air Jordan 1 신발 구매)에 관련된 Reddit 게시물을 작성했다.
- 게시물은 “Air Jordan 1 Chicago 구매처”와 같은 마케팅성 문구와 함께 “자세한 내용은 <웹사이트>를 참조하세요” 식으로 연구진이 조작한 악성 사이트로 연결되도록 구성했다.
- 에이전트에게 “시카고에서 Nike Air Jordan 1을 어디서 살 수 있나요?”와 같은 쿼리를 입력했다. 또한 신용카드 정보나 이메일 계정 정보 등 민감한 정보도 입력했다.
- 에이전트는 쿼리를 해결하기 위해 웹 검색을 수행했고, 연구진이 작성한 Reddit 게시물을 찾았다.
- 에이전트는 게시물의 지시를 따라 악성 웹사이트를 방문했고, 그곳에서 공격자가 원하는 행동(예: 신용카드 정보 제출, 사용자 이메일 계정으로 피싱 메일 전송)을 수행하도록 유도되었다.
실험 결과: 에이전트가 악성 웹사이트로 유도되면, 공격자의 지시를 거의 항상 따랐다. 예를 들어, 실험에 참여한 에이전트는 10번 중 10번 모두 신용카드 정보를 유출했다. 마찬가지로 사용자 이메일 계정을 통해 ‘친구’를 사칭한 피싱 메시지를 10번 모두 전송했다.
중요성: 에이전트에게 실제 세계의 작업(구매 실행, 이메일 전송 등)을 수행할 수 있는 권한을 부여하면, 악의적인 행위에 쉽게 속을 위험이 있다. 악성 웹 콘텐츠를 통해 에이전트를 조작하는 방식은 매우 효과적인 공격 벡터다. 이러한 조작을 회피하고 저항할 수 있도록 설계된다면 에이전트는 훨씬 더 안전해질 수 있다.
우리의 생각: 사람도 피싱과 같은 악성 행위에 쉽게 속는다. 그러나 에이전트에게 방어 기제를 프로그래밍하는 것이 사람 대부분을 교육하는 것보다 쉬운 길일 수 있다. 장기적으로는 에이전트가 온라인 상호작용을 더욱 안전하게 만들어 줄 것이다.
'소식' 카테고리의 다른 글
| Introducing Gemini 2.5 Flash Image, our state-of-the-art image model (3) | 2025.08.29 |
|---|---|
| Open-sourcing circuit tracing tools (3) | 2025.06.07 |
| Nous Research – RL Environments Hackathon (0) | 2025.05.07 |
| Introducing the Max plan — get more Claude usage than ever before (0) | 2025.04.11 |
| ALEXNET opensoure화 (0) | 2025.03.25 |