본문 바로가기

인공지능

GraphCast: Learning skillful medium-range global weather forecasting

https://arxiv.org/abs/2212.12794

 

GraphCast: Learning skillful medium-range global weather forecasting

Global medium-range weather forecasting is critical to decision-making across many social and economic domains. Traditional numerical weather prediction uses increased compute resources to improve forecast accuracy, but cannot directly use historical weath

arxiv.org

 

전 세계 중기 기상 예보는 많은 사회적, 경제적 분야에서 의사 결정을 내리는 데 매우 중요합니다. 전통적인 수치 예보는 계산 자원을 증가시켜 예보 정확도를 향상시키지만, 기존의 모델을 개선하기 위해 과거 기상 데이터를 직접 사용할 수는 없습니다. 우리는 "GraphCast"라는 기계 학습 기반 방법을 소개합니다. 이는 재분석 데이터로부터 직접 학습할 수 있습니다. GraphCast는 전 세계적으로 0.25° 해상도로 10일 동안 수백 가지 기상 변수를 1분 이내에 예측합니다. 우리는 GraphCast가 1380개의 검증 목표 중 90%에서 가장 정확한 운영적 결정론적 시스템을 크게 능가하며, 열대성 저기압, 대기 강수, 극한 온도와 같은 심각한 사건 예측을 개선하는 데 도움이 된다는 것을 보여줍니다. GraphCast는 정확하고 효율적인 기상 예보에서 중요한 발전을 이루었으며, 복잡한 동적 시스템을 모델링하는 데 있어 기계 학습의 잠재력을 실현하는 데 도움을 줍니다.

 

키워드: 기상 예보, ECMWF, ERA5, HRES, 학습 시뮬레이션, 그래프 신경망

 

서론

2022년 10월 중순, 이탈리아 볼로냐에서는 세계 중기 기상 예보 센터(ECMWF)의 새로운 고성능 컴퓨팅 시설이 운영을 시작했습니다. 지난 몇 시간 동안 통합 예보 시스템(IFS)은 지구의 기상을 예측하기 위해 정교한 계산을 수행해 왔으며, 그 첫 예측 결과가 이제 사용자들에게 전파되기 시작했습니다. 이 과정은 매일 6시간마다 반복되어 전 세계에 가장 정확한 기상 예보를 제공합니다.

 

IFS와 현대 기상 예보는 과학과 공학의 승리입니다. 기상 시스템의 역학은 지구에서 가장 복잡한 물리적 현상 중 하나이며, 개인, 산업 및 정책 결정자들이 매일 수많은 결정을 내리는 데 정확한 기상 예보에 의존합니다. 예를 들어, 사람들이 자켓을 입을지, 위험한 폭풍을 피할지 결정하는 것부터 산업계의 운영에 이르기까지 말입니다. 오늘날 기상 예보의 지배적인 접근법은 "수치 예보(NWP)"로, 이는 슈퍼컴퓨터를 사용하여 기상의 지배 방정식을 푸는 것입니다. NWP의 성공은 기상 현상을 점점 더 자세하게 설명하는 엄격하고 지속적인 연구 관행과, 더 큰 계산 자원으로 더 높은 정확도를 달성할 수 있는 NWP의 확장성에 달려 있습니다. 그 결과, 기상 예보의 정확도는 해마다 증가하여, 수십 년 전에는 상상할 수 없었던 여러 날 앞의 지표면 온도나 허리케인의 경로를 예측할 수 있게 되었습니다.

 

그러나 전통적인 NWP는 계산 자원과 잘 맞아떨어지지만, 역사적인 데이터의 증가로 정확도가 향상되지는 않습니다. ECMWF의 MARS와 같은 방대한 기상 및 기후 데이터 아카이브가 있지만, 최근까지 이러한 데이터를 직접 예측 모델의 품질을 개선하는 데 사용할 수 있는 실질적인 방법은 거의 없었습니다. 오히려 NWP 방법은 고도로 훈련된 전문가들이 더 나은 모델, 알고리즘 및 근사를 혁신하여 개선되며, 이는 시간과 비용이 많이 드는 과정이 될 수 있습니다.

 

기계 학습 기반 기상 예보(MLWP)는 전통적인 NWP에 대한 대안을 제공합니다. 이 방법은 역사적인 데이터로부터 직접 학습하여 예측 모델을 훈련시키며, 명시적인 방정식으로 쉽게 표현되지 않는 데이터의 패턴과 스케일을 포착하여 예측 정확도를 향상시킬 잠재력을 가지고 있습니다. 또한 MLWP는 슈퍼컴퓨터가 아닌 현대의 딥 러닝 하드웨어를 활용하여 더 큰 효율성을 제공하고, 속도-정확도 간의 더 유리한 균형을 추구합니다. 최근 MLWP는 전통적인 NWP가 상대적으로 약한 영역에서 NWP 기반 예측을 개선하는 데 도움을 주고 있습니다. 예를 들어, 아열대 폭염 예측 및 레이더 이미지로부터의 강수량 예측에서 정확한 방정식과 견고한 수치 방법이 잘 제공되지 않는 경우입니다.

 

중기 기상 예보, 즉 10일 이내의 대기 변수를 예측하는 경우, IFS와 같은 NWP 기반 시스템이 여전히 가장 정확합니다. 세계 최고의 결정론적 운영 시스템은 ECMWF의 고해상도 예보(HRES)로, IFS의 구성 요소로서 약 한 시간 동안 0.1° 위도/경도 해상도로 전 세계 10일 예보를 생성합니다. 그러나 지난 몇 년 동안 중기 예보를 위한 MLWP 방법은 꾸준히 발전해 왔으며, WeatherBench와 같은 벤치마크로 촉진되었습니다. 합성곱 신경망(CNN)과 트랜스포머 기반의 딥 러닝 아키텍처는 1.0°보다 낮은 위도/경도 해상도에서 유망한 결과를 보여주었으며, 최근 그래프 신경망(GNN), 푸리에 신경 연산자 및 트랜스포머를 사용한 연구들은 일부 변수와 최대 7일의 리드 타임에 대해 IFS의 성능에 접근하는 결과를 보고하고 있습니다.

기상 변수 및 수준

     
표면 변수 (5) 대기 변수 (6) 기압 수준 (37)
2미터 온도 (2t) 온도 (t) 1, 2, 3, 5, 7, 10, 20, 30, 50, 70,
10미터 u풍 성분 (10u) U 풍 성분 (u) 100, 125, 150, 175, 200, 225,
10미터 v풍 성분 (10v) V 풍 성분 (v) 250, 300, 350, 400, 450, 500,
평균 해수면 기압 (msl) 지위고도 (z) 550, 600, 650, 700, 750, 775,
총 강수량 (tp) 특정 습도 (q) 800, 825, 850, 875, 900, 925,
  수직 풍속 (w) 950, 975, 1000

표 1 | GraphCast가 모델링하는 기상 변수 및 수준. 괄호 안의 숫자는 해당 열의 항목 수를 나타냅니다. 굵게 표시된 변수 및 수준은 점수 카드 평가에 포함된 항목입니다.

 

GraphCast

여기서는 "GraphCast"라는 전 세계 중기 기상 예보를 위한 새로운 기계 학습 기반 예보 접근 방식을 소개합니다. GraphCast는 Google Cloud TPU v4 장치 하나에서 1분 이내에 정확한 10일 예보를 생성하며, 열대성 저기압 경로, 대기 강수, 극한 온도 예측을 포함한 다양한 응용 프로그램을 지원합니다.

 

GraphCast는 지구 기상의 최근 두 상태(현재 시각과 6시간 전)를 입력으로 받아, 6시간 후의 다음 기상 상태를 예측합니다. 단일 기상 상태는 위도/경도 0.25° 그리드(721 × 1440)로 표현되며, 이는 적도에서 약 28 × 28킬로미터 해상도에 해당합니다(Figure 1a). 각 그리드 포인트는 표 1에 나열된 표면 및 대기 변수를 나타냅니다. 전통적인 NWP 시스템과 마찬가지로, GraphCast는 자회귀적입니다. 즉, 자신의 예측을 다시 입력으로 사용하여 임의의 길이의 기상 상태 경로를 생성할 수 있습니다(Figure 1b–c).

 

그림 1 | 모델 도식

(a) 입력 기상 상태는 위도-경도 0.25° 그리드에 정의되며, 총 721 × 1440 = 1,038,240 포인트로 구성됩니다. 확대된 팝업 창의 노란색 층은 5개의 표면 변수를 나타내고, 파란색 층은 37개의 기압 수준에서 반복되는 6개의 대기 변수를 나타냅니다(총 5 + 6 × 37 = 227 변수). 이로 인해 상태 표현은 총 235,680,480 값을 갖게 됩니다.

(b) GraphCast는 그리드의 다음 기상 상태를 예측합니다.

(c) 예보는 GraphCast를 각 이전 예측 상태에 반복적으로 적용하여 연속적인 리드 타임에서 기상을 나타내는 상태 시퀀스를 생성합니다.

(d) GraphCast 아키텍처의 인코더 구성 요소는 입력의 지역 영역(녹색 상자)을 다중 메시 그래프 표현의 노드로 매핑합니다(녹색, 위쪽 화살표가 녹색-파란색 노드에서 끝남).

(e) 프로세서 구성 요소는 학습된 메시지 전달을 사용하여 각 다중 메시 노드를 업데이트합니다(굵은 파란색 화살표가 노드에서 끝남).

(f) 디코더 구성 요소는 처리된 다중 메시 특성(보라색 노드)을 그리드 표현으로 다시 매핑합니다(빨간색, 아래쪽 화살표가 빨간 상자에서 끝남).

(g) 다중 메시는 기본 메시(𝑀0, 12개 노드)에서 가장 세밀한 해상도(𝑀6, 40,962개 노드)까지 증가하는 해상도의 이십면체 메시로부터 파생됩니다. 전 세계적으로 균일한 해상도를 가집니다. 여기에는 𝑀6의 노드 집합과 𝑀0에서 𝑀6까지의 모든 에지가 포함됩니다. 서로 다른 메시의 에지를 통한 학습된 메시지 전달은 동시에 이루어지며, 각 노드는 모든 수신 에지에 의해 업데이트됩니다.

 

GraphCast

GraphCast는 "인코드-프로세스-디코드" 구성의 GNN(그래프 신경망)을 기반으로 하는 신경망 아키텍처로 구현되었으며, 총 3,670만 개의 매개변수를 가지고 있습니다. 이전의 GNN 기반 학습 시뮬레이터는 복잡한 유체 역학 및 기타 시스템의 부분 미분 방정식을 모델링하는 데 매우 효과적이었으며, 이는 기상 역학을 모델링하는 데 적합함을 시사합니다.

인코더 (Figure 1d)

인코더는 단일 GNN 레이어를 사용하여 입력 그리드의 노드 속성으로 표현된 변수를 내부 "다중 메시" 표현의 학습된 노드 속성으로 매핑합니다. 이때 변수는 평균이 0이고 분산이 1이 되도록 정규화됩니다.

다중 메시 (Figure 1g)

다중 메시는 전 세계적으로 높은 공간 해상도를 가진 그래프로, 공간적으로 균일합니다. 이는 정규 이십면체(12개의 노드, 20개의 면, 30개의 에지)를 여섯 번 반복하여 정제함으로써 정의됩니다. 각 정제 단계에서 각 삼각형을 네 개의 작은 삼각형으로 나누고, 노드를 구면에 재투영합니다. 다중 메시에는 가장 높은 해상도 메시에서 40,962개의 노드와 중간 그래프에서 생성된 모든 에지의 합집합이 포함되어 있으며, 다양한 길이를 가진 평탄한 계층 구조를 형성합니다.

프로세서 (Figure 1e)

프로세서는 16개의 공유되지 않은 GNN 레이어를 사용하여 다중 메시에서 학습된 메시지 전달을 수행하여, 소수의 메시지 전달 단계로 효율적인 지역 및 장거리 정보 전파를 가능하게 합니다.

디코더 (Figure 1f)

디코더는 다중 메시 표현의 최종 프로세서 레이어에서 학습된 특성을 위도-경도 그리드로 다시 매핑합니다. 단일 GNN 레이어를 사용하며, 가장 최근의 입력 상태에 대한 잔여 업데이트로 출력을 예측합니다(출력 정규화를 통해 목표 잔여의 분산을 1로 맞춤). 추가적인 아키텍처 세부 사항은 보충 자료 섹션 3에서 확인할 수 있습니다.

모델 개발 및 훈련

모델 개발 중, ECMWF의 ERA5 재분석 아카이브에서 39년간(1979-2017)의 역사적 데이터를 사용했습니다. 훈련 목표로서, 수직 수준에 따라 가중된 평균 제곱 오차(MSE)를 평균했습니다. GraphCast의 예측 상태와 해당 ERA5 상태 간의 오차는 𝑁 자회귀 단계에서 계산되었습니다. 훈련 과정에서 𝑁 값은 1에서 12(즉, 6시간에서 3일)까지 점진적으로 증가했습니다. GraphCast는 그래디언트 디센트와 역전파를 사용하여 훈련 목표를 최소화하도록 훈련되었습니다. GraphCast의 훈련은 배치 병렬 처리를 사용하여 32개의 Cloud TPU v4 장치에서 약 4주가 소요되었습니다. 추가적인 훈련 세부 사항은 보충 자료 섹션 4에서 확인할 수 있습니다.

평가

실제 배포 시나리오와 일치하게, 모델 개발을 위해 미래 정보를 사용할 수 없는 경우를 고려하여, GraphCast는 2018년 이후의 보유된 데이터에서 평가되었습니다(보충 자료 섹션 5.1 참조).

검증 방법

GraphCast의 예보 능력은 많은 변수, 수준 및 리드 타임에 걸쳐 HRES와의 정확성을 비교하여 포괄적으로 검증됩니다. GraphCast, HRES 및 기계 학습 기반 모델들의 능력을 두 가지 기술 지표로 정량화합니다: 평균 제곱근 오차(RMSE)와 이상 상관 계수(ACC).

 

GraphCast는 각 그리드 포인트에서 227개의 변수 및 수준 조합을 예측하는데, 우리는 WeatherBench[27]의 13개 수준과 ECMWF 스코어카드[9]의 변수를 기준으로 69개의 조합에서 HRES와의 능력을 평가했습니다. 평가 기간 동안 운영된 HRES 주기는 표 1과 보충 자료 섹션 1.2에 나와 있는 굵게 표시된 변수와 수준을 참조하십시오. 참고로, ERA5 강수 데이터에는 알려진 편향이 있기 때문에 총 강수량은 평가에서 제외했습니다[15]. 본문에 보고된 종합 성과 외에도, 보충 자료 섹션 7에는 기타 변수, 지역 성과, 위도 및 기압 수준 효과, 스펙트럼 특성, 블러링, 다른 기계 학습 기반 예보와의 비교 및 모델 설계 선택의 효과를 포함한 더 자세한 평가가 포함되어 있습니다.

 

이러한 비교를 할 때, 두 가지 주요 선택이 능력을 어떻게 설정하는지에 영향을 미칩니다: (1) 비교를 위한 기준 진리의 선택과 (2) 관측값으로 데이터를 보정하기 위해 사용된 데이터 동화 창의 신중한 고려입니다. GraphCast를 평가할 때는 ERA5를 기준 진리로 사용했습니다. 왜냐하면 GraphCast는 ERA5 데이터를 입력으로 받아 ERA5 데이터를 출력으로 예측하도록 훈련되었기 때문입니다. 그러나 HRES 예보를 ERA5와 비교하면 초기 예보 단계에서 비영 제로 오차가 발생할 수 있습니다. 대신, HRES의 초기화 단계에서의 입력을 포함하는 "HRES 예보 단계 0"(HRES-fc0) 데이터셋을 기준 진리로 구성했습니다. HRES-fc0에는 향후 초기화 시점의 HRES 예보 입력이 포함되어 있어 각 데이터 포인트가 최신 관측값에 의해 보정되며, HRES 예보의 0단계에서 제로 오차가 보장됩니다.

 

공정한 방법 간 비교를 위해, 어떤 방법도 다른 방법이 사용할 수 없는 특권 정보를 가져서는 안 됩니다. 기상 예보 데이터의 특성상, 이는 ERA5와 HRES 데이터 동화 창의 차이를 신중하게 제어하는 것을 의미합니다. 매일 HRES는 00z, 06z, 12z 및 18z를 중심으로 하는 4개의 +/-3시간 창을 사용하여 관측값을 동화시키는 반면, ERA5는 00z와 12z를 중심으로 하는 2개의 +9시간/-3시간 창, 또는 06z와 18z를 중심으로 하는 2개의 +3시간/-9시간 창을 사용합니다. 우리는 06z와 18z 초기화를 사용하여 GraphCast의 예보를 평가하기로 선택하여, HRES의 입력과 일치하는 +3시간의 미래 관측 정보를 포함하도록 했습니다. ERA5 입력의 +9시간 선행과 HRES 입력의 +3시간 선행 간 불일치를 피하기 위해 00z와 12z 초기화에서 GraphCast를 평가하지 않았습니다. 동일한 논리를 적용하여 목표 리드 타임을 선택하고 목표를 12시간마다 평가하여 기준 진리인 ERA5와 HRES가 동일한 +3시간 선행을 갖도록 했습니다(보충 자료 섹션 5.2 참조).

 

HRES의 06z와 18z 초기화 예보는 3.75일의 범위만 실행됩니다(HRES의 00z와 12z 초기화는 10일 동안 실행됩니다). 따라서, 우리의 그림은 점선으로 전환을 표시하며, 점선 전의 3.5일은 06z와 18z에서 초기화된 HRES와의 비교이고, 점선 후는 00z와 12z에서 초기화된 예보와의 비교입니다. 보충 자료 섹션 5에는 추가적인 검증 세부 사항이 포함되어 있습니다.

 

예보 검증 결과

GraphCast는 위도/경도 0.25°의 수평 해상도와 13개의 수직 수준에서 10일 예보를 평가했을 때 HRES보다 더 뛰어난 기상 예보 능력을 보였습니다.

Figure 2a–c

Figure 2a–c는 z500 (500 hPa에서의 지위고도) "헤드라인" 필드에서 GraphCast(파란 선)가 RMSE 기술, RMSE 기술 점수(RMSE 차이를 모델 A와 기준 B 사이의 정규화된 차이로 정의한 것), 그리고 ACC 기술 측면에서 HRES(검은 선)를 능가하는 방법을 보여줍니다. z500은 종관 규모의 기압 분포를 나타내며, 기상학적으로 중요한 변수로 문헌에서 자주 사용됩니다. 그래프는 모든 리드 타임에서 GraphCast가 더 나은 기술 점수를 가지고 있으며, 약 7%–14%의 기술 점수 개선을 보여줍니다. 추가적인 헤드라인 변수에 대한 도표는 보충 자료 섹션 7.1에 있습니다.

Figure 2d

Figure 2d는 10일 예보에 걸쳐 평가된 1380개의 변수 및 기압 수준 전체에 대한 RMSE 기술 점수를 ECMWF 스코어카드와 유사한 형식으로 요약합니다. 셀의 색상은 기술 점수에 비례하며, 파란색은 GraphCast가 더 나은 기술을 보였음을, 빨간색은 HRES가 더 나은 기술을 보였음을 나타냅니다. GraphCast는 1380개의 목표 중 90.3%에서 HRES를 능가했으며, 통계적으로 유의미하게(𝑝 ≤ 0.05, 표본 크기 𝑛 ∈ {729, 730}) 89.9%의 목표에서 HRES를 능가했습니다. 방법론은 보충 자료 섹션 5.4에, 𝑝 값, 테스트 통계 및 유효 표본 크기는 보충 자료 표 5에 나와 있습니다.

Figure 2

  • (a) GraphCast(파란 선)와 HRES(검은 선)의 z500에서의 RMSE 기술(RMSE skill, y축)로 리드 타임(x축)의 함수로 표현됩니다. 오차 막대는 95% 신뢰 구간을 나타냅니다. 수직 점선은 HRES 06z/18z 예보의 마지막 12시간 증가인 3.5일을 나타냅니다. 검은 선은 HRES를 나타내며, 리드 타임이 3.5일 이전과 이후는 각각 06z/18z와 00z/12z 초기화에서 나온 것입니다.
  • (b) GraphCast와 HRES의 z500에서의 RMSE 기술 점수(y축)로 리드 타임(x축)의 함수로 표현됩니다. 오차 막대는 기술 점수에 대한 95% 신뢰 구간을 나타냅니다. GraphCast의 곡선에서 불연속성이 관찰되는데, 이는 기술 점수가 3.5일 까지는 06z/18z 초기화된 GraphCast와 HRES의 06z/18z 초기화 간의 비교로 계산되고, 3.5일 이후는 HRES의 00z/12z 초기화에 대해 계산되기 때문입니다.
  • (c) GraphCast(파란 선)와 HRES(검은 선)의 z500에서의 ACC 기술(y축)로 리드 타임(x축)의 함수로 표현됩니다.
  • (d) HRES에 대한 GraphCast의 RMSE 기술 점수 스코어카드입니다. 각 서브플롯은 각각 u, v, z, t, q, 2t, 10u, 10v, msl 변수에 해당합니다. 각 히트맵의 행은 50 hPa에서 1000 hPa까지 13개의 기압 수준을 나타내고, 각 히트맵의 열은 12시간 간격으로 20개의 리드 타임을 나타냅니다. 각 셀의 색상은 (b)와 같이 기술 점수를 나타내며, 파란색은 음수 값(GraphCast가 더 나은 기술을 가짐)을, 빨간색은 양수 값(HRES가 더 나은 기술을 가짐)을 나타냅니다.

성층권에서의 성능 비교

HRES가 GraphCast보다 더 나은 성능을 보인 대기 지역(스코어카드에서 상단 빨간색 행)은 성층권에 국한되어 있으며, 훈련 손실 가중치가 가장 낮았습니다(보충 자료 섹션 7.2.2 참조). 50 hPa 수준을 제외하면 GraphCast는 남은 1280개 목표 중 96.9%에서 HRES를 능가합니다. 50 hPa와 100 hPa 수준을 제외하면 GraphCast는 남은 1180개 목표 중 99.7%에서 HRES를 능가합니다. 지역별 평가를 실시한 결과, 이러한 결과는 전 세계적으로 대체로 일관되게 나타났습니다(보충 자료 그림 16~18 참조).

자동 회귀 단계 증가의 효과

MSE 손실에서 자동 회귀 단계 수를 증가시키면 긴 리드 타임에서 GraphCast의 성능이 향상되고(보충 자료 섹션 7.3.2 참조), 공간적으로 부드러운 출력을 예측함으로써 불확실성을 표현하도록 유도하여 긴 리드 타임에서 더 흐릿한 예보를 생성합니다(보충 자료 섹션 7.5.3 참조). 그러나 HRES의 기본 물리 방정식은 흐릿한 예측으로 이어지지 않습니다. HRES도 예측을 흐리게 할 수 있는 경우 GraphCast의 RMSE 기술 우위를 유지할 수 있는지 평가하기 위해, 각 모델의 기준 진리에 대해 RMSE를 최소화하는 방식으로 GraphCast와 HRES에 흐림 필터를 적용했습니다. 최적의 흐릿한 GraphCast는 최적의 흐릿한 HRES보다 1380개의 검증 목표 중 88.0%에서 더 뛰어난 기술을 보였으며, 이는 위의 결론과 일치합니다(보충 자료 섹션 7.4 참조).

기계 학습 기반 모델과의 비교

GraphCast의 성능을 상위 경쟁 ML 기반 기상 모델인 Pangu-Weather[4]와 비교한 결과, GraphCast는 252개의 목표 중 99.2%에서 Pangu-Weather를 능가했습니다(세부 사항은 보충 자료 섹션 6 참조).

심각한 사건 예측 결과

GraphCast의 예보 기술을 다양한 변수와 리드 타임에 걸쳐 HRES와 비교하는 것 외에도, 열대성 저기압, 대기 강수 및 극한 온도를 포함한 심각한 사건 예측을 지원하는 예보의 성능을 평가했습니다. 이러한 예측은 GraphCast가 특정적으로 훈련된 것은 아니지만, 인간 활동에 매우 중요한 주요 하류 응용 프로그램입니다.

 

열대성 저기압 경로

열대성 저기압 예보의 정확성을 향상시키는 것은 부상과 생명 손실을 피하는 데 도움을 줄 수 있으며 경제적 피해를 줄일 수 있습니다. 저기압의 존재, 강도 및 경로는 지위고도(z), 수평 바람(10u/10v, u/v), 평균 해수면 기압(msl)의 예측에 추적 알고리즘을 적용하여 예측됩니다. 우리는 ECMWF의 공개된 프로토콜을 기반으로 추적 알고리즘을 구현하고 이를 GraphCast의 예보에 적용하여 저기압 경로 예측을 생성했습니다(보충 자료 섹션 8.1 참조). 비교를 위한 기준으로는 TIGGE 아카이브에 저장된 HRES의 0.1° 예보에서 얻은 운영 경로를 사용하고, 두 모델의 오류를 다양한 분석 및 관측 소스에서 집계된 별도의 재분석 데이터셋인 IBTrACS의 경로와 비교하여 측정했습니다. 확립된 열대성 저기압 예측 평가 방법과 일치하게, GraphCast와 HRES가 모두 저기압을 감지한 모든 경로를 평가하여 두 모델이 동일한 이벤트에 대해 평가되도록 하고, 각 모델의 진양성률이 유사함을 확인했습니다.

그림 3a

그림 3a는 2018-2021년 동안 GraphCast가 HRES보다 낮은 중간 경로 오류를 가지고 있음을 보여줍니다. HRES와 GraphCast의 경로별 오류가 상관관계가 있기 때문에, 두 모델 간의 경로별 짝 오류 차이도 측정했으며, 그림 3b에서 보이는 바와 같이 GraphCast가 18시간에서 4.75일의 리드 타임에서 HRES보다 유의미하게 더 나은 성능을 보임을 발견했습니다. 오류 막대는 중간값에 대한 부트스트랩된 95% 신뢰 구간을 나타냅니다(자세한 내용은 보충 자료 섹션 8.1 참조).

그림 3 | 심각한 사건 예측

  • (a) GraphCast와 HRES의 저기압 예보 성능. x축은 리드 타임(일 단위)을, y축은 중간 경로 오류(킬로미터 단위)를 나타냅니다. 오류 막대는 중간값에 대한 부트스트랩된 95% 신뢰 구간을 나타냅니다.
  • (b) GraphCast와 HRES의 저기압 예보 짝 오류 차이. x축은 리드 타임(일 단위)을, y축은 중간 짝 오류 차이(킬로미터 단위)를 나타냅니다. 오류 막대는 중간값 차이에 대한 부트스트랩된 95% 신뢰 구간을 나타냅니다(보충 자료 섹션 8.1 참조).
  • (c) GraphCast와 HRES의 대기 강수(ivt) 예측 기술. x축은 리드 타임(일 단위)을, y축은 RMSE를 나타냅니다. 오류 막대는 95% 신뢰 구간을 나타냅니다.
  • (d) GraphCast와 HRES의 극한 고온 예측 정밀도-재현율. x축은 재현율을, y축은 정밀도를 나타냅니다. 곡선은 예보 신호에 적용된 이득을 조정할 때의 다양한 정밀도-재현율 트레이드오프를 나타냅니다(보충 자료 섹션 8.3 참조).

대기 강수

대기 강수는 중위도 지역에서 극지로 이동하는 수증기의 대부분을 운반하는 대기의 좁은 영역으로, 미국 서부 해안의 연간 강수량의 30%-65%를 생성합니다. 대기 강수의 강도는 수직 통합 수증기 수송(ivt)으로 나타낼 수 있으며, 이는 이벤트가 유익한 강수를 제공할지 혹은 치명적인 피해를 유발할지를 나타냅니다. ivt는 수평 풍속(u와 v)와 특정 습도(q)의 비선형 결합으로 계산할 수 있으며, 이는 GraphCast가 예측합니다. 우리는 대기 강수가 가장 빈번한 추운 달(10월-4월) 동안 북미 해안과 동태평양에서 GraphCast의 예보를 평가했습니다. 대기 강수를 구체적으로 특성화하도록 훈련되지 않았음에도 불구하고, Figure 3c는 GraphCast가 HRES보다 ivt 예측을 단기 리드 타임에서 25%, 장기 리드 타임에서 10% 개선했음을 보여줍니다(자세한 내용은 보충 자료 섹션 8.2 참조).

극한 고온 및 한파

극한 고온 및 한파는 일반적인 기후와 비교하여 큰 이상을 특징으로 하며, 위험하고 인간 활동을 방해할 수 있습니다. 우리는 북반구와 남반구의 여름철 육지 지역에서 12시간, 5일, 10일 리드 타임에 대해 위치, 시간 및 월에 걸쳐 기후의 상위 2% 이상 이벤트를 예측하는 HRES와 GraphCast의 기술을 평가했습니다. 정밀도-재현율 곡선을 그려 거짓 양성(높은 정밀도) 감소와 거짓 음성(높은 재현율) 감소 간의 다양한 트레이드오프를 반영했습니다. 각 예보에 대해 "이득" 매개변수를 조정하여 2t 예보의 중간 기후에 대한 편차를 스케일링하여 곡선을 얻었습니다.

 

Figure 3d는 5일 및 10일 리드 타임에서 GraphCast의 정밀도-재현율 곡선이 HRES보다 우수함을 보여주며, 이는 GraphCast의 예보가 장기적인 극한 분류에서 HRES보다 일반적으로 우수함을 시사합니다. 반면, HRES는 12시간 리드 타임에서 더 나은 정밀도-재현율을 가지고 있으며, 이는 Figure 2d에서 GraphCast의 2t 기술 점수가 HRES와 거의 차이가 없음을 일관되게 보여줍니다. 이러한 결과는 t850 및 z500와 같은 극한 고온 관련 다른 변수, 기타 극한 임계값(5%, 2% 및 0.5%) 및 겨울철 극한 한파 예측에서도 일관되게 나타납니다. 자세한 내용은 보충 자료 섹션 8.3 참조.

훈련 데이터 최신성의 효과

GraphCast는 최신 데이터를 사용하여 주기적으로 재훈련할 수 있으며, 이는 시간이 지남에 따라 변화하는 기상 패턴(예: ENSO 주기 및 기타 진동, 기후 변화의 영향)을 포착할 수 있게 합니다. 우리는 1979년에 시작하여 2017, 2018, 2019, 2020년에 종료된 데이터를 사용하여 GraphCast의 네 가지 변형을 훈련했습니다(2017년에 종료된 변형은 "GraphCast:<2018"으로 표기). 우리는 이들의 성능을 2021년 테스트 데이터에서 HRES와 비교했습니다.

 

그림 4 | 더 최근 데이터로 GraphCast 훈련

그림 4는 z500에 대한 네 가지 변형과 HRES의 기술 점수(정규화하여 GraphCast:<2018과 비교)를 보여줍니다. 2018년 이전에 훈련된 GraphCast의 성능도 2021년 HRES와 경쟁할 수 있지만, 2021년 이전에 훈련된 GraphCast는 기술 점수를 더욱 향상시킵니다(자세한 내용은 보충 자료 섹션 7.1.3 참조). 우리는 이 최신성 효과가 최근 기상 트렌드를 포착하여 정확도를 향상시킬 수 있다고 추측합니다. 이는 더 최근 데이터로 재훈련하여 GraphCast의 성능을 개선할 수 있음을 보여줍니다.

각 색상 선은 다른 연도 이전에 종료된 데이터로 훈련된 GraphCast를 나타냅니다(2018년: 파란색, 2021년: 보라색). y축은 2021년 테스트 데이터에 대한 RMSE 기술 점수를, x축은 리드 타임을 나타냅니다. 수직 점선은 HRES 06z/18z 예보가 종료되는 3.5일을 나타냅니다. 검은 선은 HRES를 나타내며, 리드 타임이 3.5일 이전과 이후는 각각 06z/18z와 00z/12z 초기화에서 나온 것입니다.

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

2019, 2020년도의 예측이 튀는 것은 놀라운 일은 아니다

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

결론

GraphCast의 예보 기술과 효율성은 HRES와 비교할 때 기계 학습 기반 기상 예보(MLWP) 방법이 전통적인 기상 예보 방법과 경쟁할 수 있음을 보여줍니다. 또한, GraphCast가 직접 훈련되지 않은 심각한 사건 예보에서도 높은 성능을 보인 것은 그 견고성과 잠재적인 가치를 입증합니다. 이는 저렴한 예측을 더 정확하고 접근 가능하게 하며, 특정 응용 프로그램에 적합하게 만들어, 개인과 산업의 기상 의존 의사결정의 폭을 넓히는 새로운 길을 열었다고 생각합니다.

 

GraphCast는 현대 ML 기준으로 비교적 작은 모델로, 메모리 사용량을 적절하게 유지하기 위해 3,670만 개의 매개변수를 가지고 있습니다. HRES는 0.1° 해상도, 137개 수준, 최대 1시간 시간 간격으로 배포되는 반면, GraphCast는 ERA5 훈련 데이터의 기본 해상도인 0.25° 해상도, 37개 수직 수준, 6시간 시간 간격으로 작동합니다. 이는 하드웨어 상의 고해상도 데이터 적재 문제 때문입니다. 일반적으로 GraphCast는 모델 군으로 간주되어야 하며, 현재 버전은 현 엔지니어링 제약 내에서 실제로 적합할 수 있는 가장 큰 모델이지만, 더 큰 계산 자원과 고해상도 데이터로 미래에는 더 확장할 수 있는 잠재력이 있습니다.

 

우리 접근 방식의 주요 한계 중 하나는 불확실성 처리 방법입니다. 우리는 결정론적 예보에 초점을 맞추고 HRES와 비교했지만, ECMWF의 IFS의 또 다른 축인 앙상블 예보 시스템(ENS)은 10일 이상의 예보에서 특히 중요합니다. 기상 역학의 비선형성은 리드 타임이 길어질수록 불확실성이 증가하며, 이는 단일 결정론적 예보로 잘 포착되지 않습니다. ENS는 여러 확률적 예보를 생성하여 미래 기상의 경험적 분포를 모델링하지만, 여러 예보를 생성하는 것은 비용이 많이 듭니다. 이에 반해, GraphCast의 MSE 훈련 목표는 예측을 공간적으로 흐리게 하여 불확실성을 표현하도록 장려하며, 이는 일부 응용 프로그램의 가치를 제한할 수 있습니다. 불확실성을 보다 명확하게 모델링하는 시스템 구축이 중요한 다음 단계입니다.

 

데이터 기반 MLWP는 대량의 고품질 데이터에 크게 의존하며, NWP를 통해 통합됩니다. ECMWF의 MARS 아카이브와 같은 풍부한 데이터 소스는 매우 귀중합니다. 따라서 우리의 접근 방식은 수십 년간 개발되고, 다양한 실제 상황에서 엄격하게 테스트된 전통적인 기상 예보 방법을 대체하는 것으로 간주되어서는 안 됩니다. 오히려 우리의 연구는 MLWP가 실제 예보 문제의 도전에 대응할 수 있으며, 현재 최고의 방법을 보완하고 개선할 잠재력이 있음을 증명하는 것으로 해석되어야 합니다.

 

기상 예보 외에도 GraphCast는 기후와 생태계, 에너지, 농업, 인간 및 생물 활동, 그리고 다른 복잡한 동적 시스템을 포함한 다른 중요한 지리적-시공간 예측 문제에 새로운 방향을 열 수 있습니다. 우리는 풍부한 실제 데이터를 기반으로 학습된 시뮬레이터가 물리학 분야에서 기계 학습의 역할을 발전시키는 데 중요한 역할을 할 것이라고 믿습니다.

데이터 및 자료 이용 가능성

GraphCast의 코드와 훈련된 가중치는 GitHub에서 공개적으로 이용할 수 있습니다. 이 연구는 유럽 중기 기상 예보 센터(ECMWF)에서 제공하는 공개 데이터를 사용했습니다. 우리는 ERA5, HRES, TIGGE 제품을 위한 ECMWF 아카이브(만료된 실시간) 제품을 사용했으며, 이는 크리에이티브 커먼즈 저작자표시 4.0 국제(CC BY 4.0)에 의해 규제됩니다. 우리는 IBTrACS 버전 4를 NOAA에서 사용했으며, 필요한 경우 [참고문헌 13, 12]를 참조합니다. 그림 1의 지구 텍스처는 Solar System Scope에서 CC BY 4.0 하에 사용했습니다.

감사의 말

알파벳 순으로, 우리의 작업에 대한 조언과 피드백을 준 Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, 그리고 Alphabet과 ECMWF의 수많은 사람들에게 감사를 표합니다. 또한 연구 커뮤니티에 귀중한 데이터 세트를 제공해준 ECMWF에게도 감사를 표합니다. 서문의 스타일은 D. Fan et al., Science Robotics, 4 (36), (2019)에서 영감을 받았습니다.