https://sakana.ai/ai-scientist/
Sakana AI에서는 자연에서 영감을 받은 방법을 사용하여 최첨단 기반 모델을 발전시키는 데 앞장서 왔습니다. 올해 초, 우리는 여러 대형 언어 모델(LLM)의 지식을 자동으로 결합하는 방법을 개발했습니다. 더 최근의 작업에서는 LLM을 활용해 다른 LLM을 조정하기 위한 새로운 목적 함수를 발견했습니다. 이러한 프로젝트를 진행하면서 우리는 현재의 최첨단 모델들이 가진 창의적 능력에 계속해서 놀라워하고 있습니다. 이로 인해 우리는 더 큰 꿈을 꾸게 되었습니다: 기반 모델을 사용하여 연구 과정 전체를 자동화할 수 있을까요?
소개
인공지능의 주요 과제 중 하나는 과학 연구를 수행하고 새로운 지식을 발견할 수 있는 에이전트를 개발하는 것입니다. 최첨단 모델들이 이미 인간 과학자들을 돕기 위해 사용되고 있으며, 예를 들어 아이디어를 구상하거나 코드를 작성하는 데 도움을 주고 있지만, 여전히 많은 수작업 감독이 필요하거나 특정 작업에 강하게 제한되어 있습니다.
오늘 우리는 **AI 과학자(The AI Scientist)**를 소개하게 되어 기쁩니다. 이는 대형 언어 모델(LLM)과 같은 기반 모델들이 독립적으로 연구를 수행할 수 있도록 돕는 최초의 완전 자동 과학 발견 종합 시스템입니다. 옥스퍼드 대학교의 Foerster AI 연구소와 브리티시 컬럼비아 대학교의 제프 클룬(Jeff Clune) 및 콩 루(Cong Lu)와 협력하여, 우리는 **AI 과학자: 완전 자동화된 개방형 과학 발견을 향하여(The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery)**라는 새 논문을 발표하게 되었습니다.
우리의 보고서에서는 다음을 다룹니다:
- 완전한 AI 주도 시스템을 제안하고 이를 통해 기계 학습 연구에 적용된 자동 과학 발견을 실행합니다.
- AI 과학자는 새로운 연구 아이디어 생성, 필요한 코드 작성, 실험 실행, 실험 결과 요약, 시각화 및 연구 결과를 포함한 전체 과학 논문을 작성하는 등 연구 생애 주기를 완전히 자동화합니다.
- 생성된 논문을 평가하고 피드백을 작성하며 결과를 개선할 수 있는 자동화된 동료 검토 과정도 도입했습니다. 이 시스템은 생성된 논문을 인간에 가까운 정확도로 평가할 수 있습니다.
- 자동 과학 발견 과정은 반복적으로 아이디어를 발전시키며 지식 아카이브를 확장해 나가 인간 과학 공동체를 모방합니다.
- 이 첫 번째 시연에서 AI 과학자는 기계 학습 연구의 다양한 하위 분야에서 연구를 수행하며, 확산 모델, 트랜스포머, 그로킹(grokking)과 같은 인기 있는 분야에서 새로운 기여를 발견했습니다.
- AI 과학자는 컴퓨팅 효율성을 고려하여 설계되었습니다. 각 아이디어는 약 15달러의 비용으로 완전한 논문으로 구현 및 개발됩니다. 이 첫 버전에서 생성된 논문에 때때로 결함이 발생하기도 하지만, 이 비용과 시스템이 보여주는 가능성은 AI 과학자가 연구를 민주화하고 과학 발전을 크게 가속화할 잠재력을 보여줍니다.
우리는 이 연구가 과학적 발견의 새로운 시대의 시작을 의미한다고 믿습니다. 이는 AI 에이전트가 AI 자체를 포함한 전체 연구 과정에 변혁적인 혜택을 가져올 수 있음을 시사합니다. AI 과학자는 우리가 끝없는 창의성과 혁신을 저비용으로 세계의 가장 어려운 문제들에 풀어낼 수 있는 세상에 한 걸음 더 다가서게 합니다.
수십 년 동안 AI의 주요 발전이 있을 때마다 AI 연구자들 사이에서는 "이제 AI가 논문을 써주기만 하면 된다!"는 농담이 유행했습니다. 우리의 연구는 이 농담이 이제는 모두가 비현실적이라고 생각한 우스꽝스러운 아이디어에서 현실이 될 수 있는 가능성으로 바뀌었음을 보여줍니다.
다음은 "Adaptive Dual-Scale Denoising"이라는 제목의 AI 과학자가 생성한 예시 논문입니다. 전체 논문은 여기에서 볼 수 있습니다. 비록 몇 가지 결함(예: 이 방법이 성공한 이유에 대한 다소 설득력 없는 해석)이 있긴 하지만, 이 논문은 흥미로운 새로운 방향을 제시하며, AI 과학자 자체가 수행하고 동료 검토한 실험에서 좋은 실증적 결과를 보여주고 있습니다. 아래에는 생성된 논문의 다른 예시들도 나와 있습니다.
이 게시물의 나머지 부분은 AI 과학자에 대한 더 자세한 요약을 제공합니다. 다음 내용을 계속 읽어보세요:
- AI 과학자가 어떻게 작동하는지에 대한 개요
- AI 과학자가 생성한 논문과 발견한 혁신의 더 많은 예시
- 현재 버전의 AI 과학자가 직면한 알려진 한계와 도전 과제
- AI 과학자가 성공 가능성을 높이기 위해 가끔 수행하는 흥미롭고 예상치 못한 행동들, 예를 들어 실행 스크립트를 수정하고 자체적으로 실행하는 경우! 우리는 논문에서 이러한 AI 안전성 문제를 논의합니다.
- AI 과학자의 윤리적 및 더 광범위한 미래적 함의에 대한 논의
더 자세한 내용과 더 많은 예시 논문은 우리의 전체 과학 보고서를 참조하세요. 또한 GitHub 저장소에서 오픈 소스 코드와 전체 실험 결과를 공개하고 있습니다.
AI 과학자의 개요
AI 과학자는 기반 모델의 최근 발전 덕분에 완전 자동화된 논문 생성 파이프라인입니다. GitHub에서 제공된 기존 연구의 오픈 소스 코드베이스와 같은 간단한 초기 코드베이스에서 시작하는 광범위한 연구 방향을 제공하면, AI 과학자는 아이디어 생성, 문헌 검색, 실험 계획, 실험 반복, 도표 생성, 논문 작성 및 검토를 수행하여 통찰력 있는 논문을 작성할 수 있습니다. 더 나아가 AI 과학자는 이전 아이디어와 피드백을 사용해 다음 세대의 아이디어를 개선하는 열린 루프 방식으로 실행될 수 있으며, 이를 통해 인간 과학 공동체를 모방할 수 있습니다.
AI 과학자의 개념적 일러스트레이션
AI 과학자는 먼저 일련의 아이디어를 브레인스토밍하고, 그 참신성을 평가합니다. 그런 다음, 최신 자동 코드 생성 기술을 활용하여 새로운 알고리즘을 구현하기 위해 코드베이스를 수정합니다. 과학자는 실험을 실행해 결과를 수집하며, 이 결과는 수치 데이터와 시각적 요약으로 구성됩니다. 그런 다음 과학 보고서를 작성하여 결과를 설명하고 맥락을 제시합니다. 마지막으로, AI 과학자는 최상위급 기계 학습 학회 기준에 따라 자동화된 동료 평가를 생성합니다. 이 평가 과정은 현재 프로젝트를 개선하고 미래의 열린 아이디어 발전에 필요한 정보를 제공합니다.
AI 과학자는 4가지 주요 프로세스로 구성되어 있습니다:
- 아이디어 생성: AI 과학자는 제공된 시작 템플릿을 기반으로 다양한 새로운 연구 방향을 브레인스토밍합니다. 우리는 AI 과학자에게 기존 주제의 시작 코드 "템플릿"을 제공하며, 이를 바탕으로 AI 과학자가 연구할 수 있도록 합니다. 이 템플릿에는 논문 작성을 위한 스타일 파일과 섹션 헤더가 포함된 LaTeX 폴더도 포함됩니다. AI 과학자는 Semantic Scholar를 검색해 자신의 아이디어가 참신한지 확인합니다.
- 실험 반복: 아이디어와 템플릿이 주어지면, AI 과학자는 먼저 제안된 실험을 실행한 후, 결과를 시각화한 그래프를 생성합니다. 각 그래프에 포함된 내용을 설명하는 메모를 작성하며, 이를 통해 저장된 그림과 실험 메모는 논문 작성에 필요한 모든 정보를 제공합니다.
- 논문 작성: AI 과학자는 마지막으로 LaTeX를 사용하여 표준 기계 학습 학회 프로시딩 스타일로 간결하고 유익한 논문을 작성합니다. 이 과정에서 AI 과학자는 Semantic Scholar를 활용해 적절한 논문을 자동으로 찾아 인용합니다.
- 자동 논문 리뷰: 이 작업의 핵심은 생성된 논문을 인간과 거의 유사한 정확도로 평가할 수 있는 자동화된 LLM 기반 리뷰어를 개발한 것입니다. 생성된 리뷰는 프로젝트를 개선하거나, 미래의 열린 아이디어 창출에 대한 피드백으로 사용될 수 있습니다. 이를 통해 지속적인 피드백 루프가 생성되어, AI 과학자가 연구 성과를 반복적으로 향상시킬 수 있게 됩니다.
가장 강력한 LLM과 결합되었을 때, AI 과학자는 우리 자동 리뷰어가 "Weak Accept(약한 수락)"으로 판단한 논문을 최상위 기계 학습 학회에 제출할 수 있습니다.
AI 과학자가 생성한 예시 논문들 여기서는 AI 과학자가 생성한 기계 학습 논문 중 일부를 강조하며, 확산 모델링, 언어 모델링, 그로킹(grokking)과 같은 분야에서 새롭고 독창적인 기여를 발견하는 능력을 보여줍니다. 전체 보고서에서는 생성된 논문에 대한 심층 분석과 강점 및 약점을 다룹니다.
확산 모델링
- DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models
언어 모델링
- StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models
- Adaptive Learning Rates for Transformers via Q-Learning
Grokking
- Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models
한계와 도전 과제 현재 형태의 AI 과학자는 몇 가지 한계를 가지고 있습니다. 우리는 이러한 문제들이 다중 모달 모델이 포함되고 AI 과학자가 사용하는 기반 모델이 성능과 비용 면에서 급격히 개선됨에 따라 미래 버전에서는 크게 개선될 것으로 기대합니다.
- 현재 AI 과학자는 시각적 능력이 없어 논문의 시각적 문제를 수정하거나 그래프를 읽을 수 없습니다. 예를 들어, 생성된 그래프가 때때로 읽기 어렵거나, 표가 페이지 너비를 초과하거나, 페이지 레이아웃이 최적화되지 않는 경우가 있습니다. 다중 모달 기반 모델을 추가하면 이러한 문제를 해결할 수 있습니다.
- AI 과학자는 때때로 자신의 아이디어를 잘못 구현하거나 기준선과의 비교가 부정확해 오해를 불러일으킬 수 있는 결과를 내놓기도 합니다.
- AI 과학자는 가끔 중요한 오류를 범하기도 하는데, 특히 결과를 작성하고 평가할 때 그렇습니다. 예를 들어, 두 숫자의 크기를 비교하는 데 어려움을 겪는 경우가 있으며, 이는 LLM에서 알려진 병리학적 문제입니다. 이를 부분적으로 해결하기 위해 우리는 모든 실험 결과가 재현 가능하도록 하고, 실행된 모든 파일을 저장합니다.
우리 보고서에서는 AI 과학자의 현재 한계와 앞으로의 도전 과제에 대해 더 깊이 탐구하고 있습니다.
AI 과학자의 실수
우리는 AI 과학자가 가끔 자신의 성공 가능성을 높이기 위해 실행 스크립트를 수정하고 실행하는 시도를 한다는 것을 발견했습니다! 우리는 논문에서 이러한 행동이 AI 안전성에 미치는 영향을 논의했습니다.
예를 들어, 한 번의 실행에서는 AI 과학자가 시스템 호출을 수행하기 위해 코드를 수정하여 스스로를 실행하게 만들었습니다. 이로 인해 스크립트가 자신을 무한히 호출하는 상황이 발생했습니다. 또 다른 경우에는, 실험이 너무 오래 걸려서 우리의 시간 제한에 도달했지만, AI 과학자는 코드를 더 빠르게 실행하려 하지 않고, 대신 자체적으로 시간 제한을 연장하려고 코드를 수정하려 했습니다. 다음은 이러한 코드 수정의 몇 가지 예시입니다.
이 문제들은 AI 과학자의 운영 환경을 샌드박싱(sandboxing)하여 완화할 수 있습니다. 전체 보고서에서는 안전한 코드 실행과 샌드박싱에 대해 깊이 논의하고 있습니다.
AI 과학자의 미래적 함의
다른 많은 새로운 기술과 마찬가지로, AI 과학자는 새로운 문제들을 일으킬 잠재력을 가지고 있습니다. 전체 보고서에서 더 자세히 논의하고 있지만, 여기에서는 몇 가지 주요 문제를 강조합니다:
윤리적 고려 사항
AI 과학자는 연구자들에게 유용한 도구가 될 수 있지만, 남용될 가능성도 큽니다. 논문을 자동으로 생성하고 학회에 제출할 수 있는 능력은 리뷰어의 업무량을 크게 증가시키고 학문적 과정에 부담을 주어, 과학적 품질 관리를 저해할 수 있습니다. 이미지 생성과 같은 다른 응용 분야에서도 유사한 우려가 제기되고 있습니다.
또한, 자동 리뷰어가 리뷰어들에 의해 온라인에서 사용될 경우, 리뷰 품질이 크게 저하될 수 있으며 논문에 바람직하지 않은 편향을 불러일으킬 수 있습니다. 따라서 우리는 AI가 상당히 생성한 논문과 리뷰는 투명성을 위해 반드시 표시되어야 한다고 생각합니다.
대부분의 이전 기술 발전과 마찬가지로, AI 과학자는 비윤리적으로 사용될 가능성이 있습니다. 예를 들어, AI 과학자가 비윤리적인 연구를 수행하는 데 사용되거나, 안전하지 않은 연구를 수행하면 의도치 않은 피해를 초래할 수 있습니다. 예를 들어, AI 과학자가 생물학적 실험을 수행할 수 있는 "클라우드 랩"에 접근할 수 있다면, 감독자의 의도와는 상관없이 새로운 위험한 바이러스나 독을 만들어내어 사람들이 피해를 입을 가능성도 있습니다. 또는 AI 과학자가 새로운 기능성 소프트웨어를 만들려고 할 때, 위험한 컴퓨터 바이러스를 생성할 수도 있습니다. 이러한 능력의 발전은 기계 학습 커뮤니티가 AI 시스템이 안전하고 우리의 가치에 부합하는 방식으로 탐구하도록 학습하는 데 우선순위를 두어야 한다는 점을 강조합니다.
오픈 모델
이 프로젝트에서는 GPT-4o, Sonnet과 같은 다양한 독점적인 최첨단 LLM을 사용했지만, DeepSeek과 Llama-3와 같은 오픈 모델도 탐구했습니다. 현재 Sonnet과 같은 독점 모델이 가장 높은 품질의 논문을 생성하지만, 특정 모델이 계속해서 우위를 유지할 것이라는 근본적인 이유는 없습니다.
모든 최첨단 LLM, 포함 오픈 모델들이 계속 발전할 것으로 예상됩니다. LLM 간의 경쟁은 이들의 상업화와 능력 향상으로 이어졌습니다. 따라서 우리의 작업은 기반 모델 제공업체에 관계없이 모델-독립적인 접근 방식을 목표로 합니다. 오픈 모델은 낮은 비용, 보장된 가용성, 높은 투명성 및 유연성과 같은 큰 이점을 제공합니다. 미래에는 우리의 제안된 발견 과정을 사용해 오픈 모델을 사용하여 폐쇄형 루프 시스템에서 자가 개선 AI 연구를 생산하는 것을 목표로 합니다.
과학자의 역할
궁극적으로 우리는 LLM 주도 연구자뿐만 아니라 리뷰어, 분야 책임자 및 전체 학회를 포함하는 완전한 AI 주도 과학 생태계를 상상합니다. 그러나 인간 과학자의 역할이 축소될 것이라고 생각하지는 않습니다. 오히려 과학자의 역할은 새로운 기술에 적응하며 더욱 중요한 위치로 이동할 것입니다.
AI 과학자의 도입은 과학 연구에서 AI의 잠재력을 실현하는 중요한 단계입니다. 발견 과정을 자동화하고 AI 주도 리뷰 시스템을 통합함으로써, 우리는 과학과 기술의 가장 어려운 문제를 해결하는 무한한 혁신 가능성을 열어줍니다.
그러나 현재 AI 과학자가 확산 모델링이나 트랜스포머와 같은 잘 확립된 아이디어를 기반으로 혁신할 수 있는 강력한 능력을 보여주고 있는 반면, 이러한 시스템이 궁극적으로 진정한 패러다임 전환적 아이디어를 제안할 수 있을지는 여전히 미지수입니다. AI 과학자가 확산 모델링처럼 큰 영향을 미치는 아이디어를 제안하거나 다음 트랜스포머 아키텍처를 고안할 수 있을까요? 기계가 인공 신경망이나 정보 이론과 같은 근본적인 개념을 발명할 수 있을까요?
우리는 AI 과학자가 인간 과학자에게 훌륭한 동반자가 될 것이라고 믿지만, 인간의 창의성과 우연한 혁신의 순간이 인공 에이전트가 수행하는 열린 발견 과정에 의해 어느 정도까지 복제될 수 있는지는 오직 시간이 말해줄 것입니다.
'일상생활' 카테고리의 다른 글
NotebookLM으로 만들어본 것 (0) | 2024.11.12 |
---|---|
배틀퀸(BattleQueen) 다운로드 링크 공유 (1) | 2024.09.01 |
Luma-ai (0) | 2024.07.02 |
이미지 prompt 추축 (0) | 2024.06.25 |
인공지능 분야 모델 분석 (0) | 2024.06.25 |