Thinking with images
https://openai.com/index/thinking-with-images/
OpenAI o3와 o4‑mini는 이미지 기반 사고 과정을 활용해 시각적 지각 영역에서 획기적인 진전을 이뤄 냈습니다.
OpenAI o3와 o4‑mini는 o‑시리즈의 최신 시각 추론 모델로, 모델이 단순히 이미지를 “보는 것”을 넘어 내부 chain‑of‑thought (사고 연쇄) 속에서 이미지를 함께 “생각”할 수 있게 된 것은 이번이 처음입니다.
초기 모델인 OpenAI o1과 마찬가지로 o3와 o4‑mini는 답변 전 긴 사고 과정을 거치도록 학습되었습니다. 여기에 더해, 사용자 업로드 이미지를 도구로 변환해 자르기·확대·회전 등 간단한 이미지 처리를 스스로 수행하며, 그 결과를 사고 과정에 바로 활용합니다. 더욱 중요한 점은 이러한 능력이 별도의 특화 모델에 의존하지 않고 모델 내부에 기본 탑재되어 있다는 것입니다.
향상된 시각 지능을 갖춘 ChatGPT는 이미지 분석을 통해 더 까다로운 문제도 이전보다 정확하고 신뢰성 있게 해결합니다. 웹 검색이나 이미지 조작 같은 도구와 고급 추론을 자연스럽게 결합해, 흐릿하거나 불완전한 사진이라도 자동으로 확대·크롭·반전·보정하여 통찰을 끌어냅니다. 예를 들어 경제학 문제 세트 사진을 올리면 단계별 해설을 받을 수 있고, 빌드 오류 스크린샷을 공유하면 신속하게 근본 원인을 분석해 줍니다.
이 접근 방식은 시각 및 텍스트 추론을 융합해 테스트 시점 계산 자원을 확장하는 새로운 축을 열었으며, 멀티모달 벤치마크에서 최첨단 성능을 달성해 멀티모달 추론 분야에서 의미 있는 진전을 이뤘습니다.
시각적 추론, 실제 활용 모습
이미지와 함께 사고하는 기능 덕분에 ChatGPT와의 상호작용이 훨씬 간단해집니다. 사진 한 장만 찍어 올리면 — 텍스트가 거꾸로 되어 있든, 한 사진에 물리 문제 여러 개가 담겨 있든, 물체 배치가 엉켜 있든 — 걱정할 필요가 없습니다. 첫눈에 잘 보이지 않는 대상이라도 모델이 자동으로 확대해 선명하게 파악할 수 있기 때문입니다.
모든 예시는 OpenAI o3 모델로 수행되었습니다.
최신 시각적 추론 모델(o3 및 o4‑mini)은 Python 데이터 분석, 웹 검색, 이미지 생성 같은 도구와 긴밀히 연동되어 더욱 복잡한 문제를 창의적 · 효과적으로 해결합니다. 이를 통해 사용자에게 최초의 멀티모달 에이전트 경험을 제공합니다.
벤치마크 성능
시각 추론 능력의 향상을 확인하기 위해, 우리는 OpenAI o3와 o4‑mini를 다양한 실제 시험 문제와 머신러닝 벤치마크에 대해 평가했습니다. 그 결과, 두 신규 모델은 우리가 테스트한 모든 멀티모달 과제에서 기존 모델을 크게 능가했습니다.
- 모든 모델은 ChatGPT의 ‘o4‑mini‑high’와 유사한 높은 추론 강도(high reasoning effort) 설정에서 평가되었습니다.
- 특히 이미지를 활용한 사고(Thinking with images)—웹 검색에 의존하지 않고—는 우리가 측정한 모든 지각(vision) 벤치마크에서 큰 성능 향상을 이끌어 냈습니다.
새롭게 달성한 SOTA

이처럼, o3와 o4‑mini의 시각 추론 접근 방식은 멀티모달 벤치마크 전반에서 새로운 기준을 세우며, 이전 세대 모델 대비 의미 있는 도약을 이루었습니다.
한계점과 향후 과제
Thinking with images(이미지 기반 사고) 기능은 여전히 다음과 같은 제약을 가지고 있습니다.
- 지나치게 긴 추론 사슬
모델이 필요 이상으로 도구를 호출하거나 이미지 조작 단계를 중복 실행해 사고 연쇄가 불필요하게 길어질 수 있습니다. - 지각(perception) 오류
도구 호출 자체는 올바르게 이뤄져도 시각 정보를 잘못 해석해 최종 답이 틀릴 수 있습니다. - 신뢰성 문제
동일한 문제를 여러 번 시도할 때 서로 다른 시각적 추론 과정을 택해 일부 시도가 오답으로 이어질 수 있습니다.
OpenAI o3와 o4‑mini는 시각 추론(SOTA) 능력을 크게 끌어올리며, 이전에는 불가능했던 문제까지 해결할 수 있게 만들었습니다. 그러나 우리는 다음과 같은 방향으로 모델을 지속적으로 개선하고 있습니다.
- 추론을 더 간결하고 덜 중복적으로
- 시각 해석 오류를 줄이고 일관성을 높이는 방향으로
멀티모달 추론 연구를 이어 가며, 이러한 개선이 일상 업무를 어떻게 향상시킬 수 있을지 탐구해 나가고자 합니다.
2025년 4월 16일 업데이트
CharXiv‑r, MathVista, VLMs are Blind에 대한 o3 결과가 시스템 프롬프트 변경을 반영하도록 수정되었습니다.