본문 바로가기

인공지능

Language models generalize beyond natural proteins

https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full

 

https://github.com/facebookresearch/esm

 

GitHub - facebookresearch/esm: Evolutionary Scale Modeling (esm): Pretrained language models for proteins

Evolutionary Scale Modeling (esm): Pretrained language models for proteins - facebookresearch/esm

github.com

 

요약

진화 과정에서 얻어진 단백질 서열로부터 디자인 패턴을 학습하는 것은 생성적 단백질 설계로의 가능성을 제시할 수 있다. 하지만 자연 단백질 서열로 훈련된 언어 모델이 기존 단백질 패밀리의 암기 그 이상을 할 수 있는지 여부는 알려지지 않았다. 여기서 우리는 언어 모델이 자연 단백질을 넘어 새로운 단백질을 생성할 수 있음을 보여준다. 우리는 두 가지 단백질 설계 작업에 초점을 맞춘다: 고정된 백본 설계, 즉 구조가 지정된 경우와 제약 없는 생성, 즉 구조가 모델에서 샘플링되는 경우이다. 놀랍게도 이 모델들이 단지 서열만으로 훈련되었음에도 불구하고, 구조를 설계할 수 있음을 확인하였다. 총 228개의 생성된 단백질을 실험적으로 평가하였고, 그 중 67% (152/228) 가 크기 배제 크로마토그래피를 통해 가용성과 단량체로 성공적으로 생산되는 것으로 확인되었다. 실험적으로 성공한 152개의 디자인 중 35개는 알려진 자연 단백질과 유의미한 서열 일치가 없었다. 나머지 117개의 경우, 가장 가까운 서열과의 서열 동일성은 중앙값 27%로, 6개의 디자인은 20% 이하, 3개의 디자인은 18%에 이르는 낮은 수준을 보였다. 고정된 백본 설계의 경우, 언어 모델은 실험적으로 평가된 8개의 인공적으로 생성된 고정 백본 목표에 대해 각각 성공적인 설계를 생성하였다. 제약 없는 생성의 경우, 샘플링된 단백질은 다양한 위상과 이차 구조 구성을 포함하며, 높은 실험적 성공률 (71/129, 즉 55%) 을 보였다. 설계된 단백질은 서열과 구조를 연결하는 깊은 패턴을 반영하며, 이는 관련된 자연 구조에서 발생하는 모티프와 알려진 단백질 패밀리의 유사한 구조적 맥락에서는 관찰되지 않는 모티프를 포함한다. 이러한 결과는 언어 모델이 단지 서열로만 훈련되었음에도 불구하고 단백질 구조를 설계할 수 있는 깊은 문법을 학습하며, 이는 자연 단백질을 넘어 확장된다는 것을 보여준다.

 

서론

생물학을 위한 생성형 인공지능은 자연 단백질을 넘어 단백질 설계의 새로운 가능성을 열어줄 잠재력이 있다. 아미노산 서열이 단백질의 근본적인 코드이기 때문에, 언어 모델을 사용하여 이 코드를 읽고 쓰는 법을 학습하는 것이 가능성을 제시할 수 있다. 언어 모델은 인공지능의 최근 발전에서 중심적인 역할을 해왔으며 (1), 복잡한 추론, 수학 문제 해결, 이미지 생성, 자연어 생성 등에서 큰 발전을 이루었다 (2–4). 스케일 법칙에 따르면 모델을 훈련하는 데 사용되는 계산 능력, 데이터, 파라미터 수와 성능 간의 관계가 존재하며 (5), 스케일이 증가함에 따라 고차원적인 능력이 출현한다는 것이 관찰된다 (6). 생물학 분야에서, 최근 단백질의 진화적 스케일 언어 모델에 관한 연구는 단백질 서열로 훈련하는 과정에서 생물학적 속성에 대한 깊은 지식이 출현한다는 것을 보여주었다 (7). 단백질의 접힌 삼차원 구조에 대한 정보는 원자 해상도 구조까지 모델 내에서 발전하며 (8), 이러한 정보는 단지 서열로 훈련함으로써 출현한다. 한편, 서열로 훈련한 결과로 나타나는 구조적 정보는 가용한 진화적 정보에 따라 달라지며, 이는 훈련 데이터에서 관련 단백질의 수에 따라 달라진다는 것이 입증되었다 (8, 9). 언어 모델이 훈련 데이터 외부의 일반화 능력을 어느 정도까지 갖고 있는지는 다양한 도메인에서 여전히 열린 질문이다. 생물학에서는 언어 모델이 자연 단백질을 넘어선 설계 공간을 탐구하는 데 사용될 수 있는지 여부가 밝혀지지 않았다.

 

여기에서 우리는 언어 모델이 자연 단백질을 넘어 새로운 서열과 구조를 갖는 de novo 단백질을 생성할 수 있음을 입증한다. 우리는 다양한 위상과 서열을 포함한 대규모 디자인을 실험적으로 검증하였다. 언어 모델이 단지 단백질 서열로만 훈련되었음에도 불구하고, 우리는 그 모델이 단백질 구조를 설계할 수 있음을 발견하였다. 여기에는 자연 단백질과는 구별되는 인공적으로 설계된 de novo 단백질의 구조도 포함된다. de novo 단백질 구조의 백본이 목표로 주어졌을 때, 언어 모델은 해당 구조로 접힐 것으로 예측되는 서열을 생성한다. 서열과 구조 모두 자유로운 경우, 언어 모델은 다양한 접힘 위상과 이차 구조 구성을 포함한 설계를 생성하여 자연 서열 분포와 겹치거나 그 범위를 넘어서는 단백질을 만든다. 설계는 실험적으로 샘플링된 단백질 전반에 걸쳐 성공하며, 특히 자연 단백질과 서열상 거리가 먼 많은 설계들도 성공한다. 모델은 서열과 구조 설계를 연결하는 모티프를 생성하고, 이를 새로운 서열 및 구조적 맥락에 적용할 수 있으며, 여기에는 서열이나 구조적으로 유사한 알려진 단백질에서 발견되지 않는 복잡한 수소 결합 네트워크와 같은 모티프들도 포함된다. 총 228개의 실험적으로 평가된 단백질 중 67%인 152개의 단백질이 크기 배제 크로마토그래피(SEC)를 통해 가용성과 단량체를 나타내며 성공적인 결과를 보였다. 높은 성공률은 자연 단백질과 거리가 먼 단백질에도 확장되었으며, 총 49개의 실험적으로 평가된 단백질 중 31개(63%)가 성공을 거두었다.

 

단백질 서열의 깊은 문법 우리는 단백질 서열 내에 언어 모델이 일반화할 수 있게 해주는 깊고 근본적인 문법이 존재한다고 가설을 세운다. 자연 단백질을 넘어 일반화하려면, 언어 모델은 자연 단백질 공간을 넘어서는 설계 패턴에 접근해야 한다. 고전적으로, 이러한 형태의 일반화는 물리적 에너지 함수에 의해 가능했는데, 이 함수는 고유의 접힌 상태를 포착하는 역할을 한다 (10). 최근에는 구조에 기반한 딥러닝 방법들이 구조 예측을 반전시키거나 (11, 12), 백본 구조에 조건을 두어 (13–15) 이 문제에 대한 새로운 접근법으로 제안되었다. 훈련 중 구조를 명시적으로 모델링함으로써, 새로운 딥러닝 접근법은 물리적 에너지와 유사한 무언가를 포착할 수 있을 것이다 (16). 언어 모델이 이 문제에서 성공한 것은 서열의 깊은 패턴이 물리적 기저의 명시적 모델과는 독립적인 대안적인 일반화 경로를 제공할 수 있음을 시사한다.

 

서열에서 진화적 추론을 하는 고전적인 관점은 단백질의 속성에 대한 정보가 보존과 공진화를 통해 진화적으로 관련된 단백질의 서열 패턴에 인코딩된다는 것이다. 이 관점은 단백질 패밀리의 통계가 서열의 진화에 작용하는 생물학적 구조와 기능 등의 제약을 반영한다는 관찰에서 비롯되었다 (17, 18). 이러한 통찰은 단백질 패밀리 내 서열로부터 구조와 기능을 추론하는 기초를 형성했으며 (19), 최근 생성 모델을 통해 기존 단백질 패밀리에서 새로운 예를 생성하는 데도 성공적으로 적용되었다 (20–22). 현재까지 단백질 설계를 위한 서열 기반 모델의 실험적 검증은 자연 단백질 패밀리로 제한되었다.

 

자연적으로 발생하는 단백질 패밀리와 거리가 먼 de novo 설계 공간에 접근하는 것은 근본적으로 더 어려운 문제이다. 정의상 이 문제는 자연적으로 발생하는 단백질 패밀리에서 새로운 샘플을 생성하는 것만으로는 해결될 수 없다. 서열에 기반한 모델로 이 문제를 해결하려면, 개별 단백질 패밀리를 넘어 일반화할 수 있는 서열 패턴을 학습할 필요가 있다. 진화적 스케일 언어 모델은 진화 전반에 걸쳐 다양한 서열을 학습함으로써 고전적인 단백질 패밀리 모델을 넘어선다. 이는 실험적 구조가 없는 곳에서도 모든 단백질에 대한 깊은 패턴을 학습할 잠재력을 갖고 있음을 의미한다. 개별 단백질 패밀리를 넘어 일반화되는 서열 내의 지역적 패턴에 대한 증거가 있는데, 이는 서열 내에서 국소적인 모티프의 형태로 존재하며 (23), 3차원 공간에서 국소적인 모티프의 형태로도 존재한다 (24). 그러나 서열과 구조 간의 매핑은 일대일이 아니며 (25), 잘 접힌 고유 상태에 도달하기 위해 서열을 설계하는 것은 상호작용하는 국소적 서열 패턴의 집합을 선택해야 하는, 지수적으로 큰 조합 문제를 해결하는 것을 필요로 한다 (26). 단백질 구조를 설계하기 위해, 언어 모델은 구조 설계와 서열을 연결하는 지역적 규칙뿐만 아니라 서열이 일관되고 고유 상태로 접히는지를 결정하는 전역적 규칙을 포함하여, 서열이 구조를 결정하는 방법에 대한 암묵적인 이해를 개발해야 한다.

 

생성적 단백질 설계와 언어 모델 우리는 언어 모델을 생성적으로 평가하며, 자연 단백질을 넘어선 일반화에 초점을 맞춘다. 진화에 의해 샘플링된 알려진 단백질 서열은 가능한 단백질의 방대한 수 중 일부분만을 나타낸다 (그림 1A). 진화에 의해 탐구된 단백질 공간을 넘어 일반화하려면, 이 공간을 벗어나는 단백질 설계의 깊은 패턴에 접근할 필요가 있다. 우리는 두 가지 생성적 단백질 설계 작업에 초점을 맞춘다. 첫 번째는 고정된 백본 설계로, 목표 구조로 접히는 서열을 생성하는 것이 목표이다. 이 작업은 오직 서열만을 훈련한 언어 모델이 단백질 구조를 설계할 수 있는지를 평가한다. 두 번째 작업은 자유 생성으로, 구조가 서열과 함께 자유롭게 변할 수 있게 한다. 이를 통해 모델이 접근할 수 있는 단백질 공간을 이해하기 위해 다양한 서열과 구조적 패턴에 걸친 모델의 전체 생성 능력을 특성화할 수 있다.

 

그림 1. 개요. (A) 단백질 서열 공간의 일러스트. 자연 서열(회색)은 가능한 단백질 서열의 일부만을 포함한다. 자연 서열을 넘어 일반화하려면 언어 모델은 기저 설계 패턴에 접근해야 한다. 우리는 언어 모델을 (i) 고정 백본 서열 설계 작업(녹색)과 (ii) 제약 없는 de novo 단백질 생성 작업(주황색)에서 평가한다. (B) 언어 모델 ESM2는 진화에 걸친 수백만 개의 다양한 자연 단백질을 대상으로 마스크드 언어 모델링을 사용하여 훈련되었다. (C) 훈련 후 모델의 내부 어텐션 상태에서 삼차 구조에 대한 정보를 식별할 수 있다. 선형 투사(linear projection)를 통해 서열 내 두 위치 간 어텐션을 잔여 간 거리 분포로 변환한다. (D) 서열의 확률. 모델은 단백질의 각 위치에서 각 아미노산에 대해 확률을 출력하며, 여기에서는 설계된 단백질 6W3W에 대해 보여주고 있다. 모델은 표면 잔기에서는 친수성 아미노산에 더 높은 확률을 부여하고, 코어 잔기에서는 소수성 아미노산에 더 높은 확률을 부여한다. (E) 서열에 따른 구조의 확률. 주어진 서열에서 투사(projection)는 언어 모델의 내부 표현과 구조 간의 호환성을 측정한다. 삼차 구조는 잔여 간 거리가 8Å 이하인 경우의 확률 질량으로 식별된다. 6W3W의 경우, 투사된 구조(대각선 위)와 실제 구조(대각선 아래) 사이에 좋은 일치가 있다. (F) 서열 및 구조의 확률을 사용하여 서열을 생성한다. 고정된 목표 설계의 경우, 우리는 특정 백본 구조가 주어졌을 때 서열의 조건부 분포에서 샘플링하여 MCMC를 사용하여 서열을 생성한다. (G) 제약 없는 생성의 경우, 서열과 구조 모두 자유롭게 변할 수 있게 한다. (H) 예측된 구조(AlphaFold 사용)는 단일 자유 생성 경로 전반에 걸쳐 일정한 간격으로 표시된다. 모델은 여러 가능한 위상을 샘플링한 후 하나의 위상을 정제하는 단계로 좁혀 나간다.

 

de novo로 설계된 인공 단백질의 테스트 세트를 사용하여 자연 단백질 구조를 넘어선 일반화 능력을 평가한다. 테스트 세트에는 다양한 선택지로 이루어진 39개의 구조적으로 검증된 인공 단백질 구조가 포함되어 있으며, 이는 단백질 데이터 뱅크(PDB)에서 제공된다 (27). 이들은 다양한 길이(67 ≤ L ≤ 184)와 위상(topology)을 가지고 있다 (그림 S1 및 부록 A.1). 중요한 점은 이러한 de novo 단백질들이 자연 접힘 구조에 속하는 단백질들과 구조적으로 유의미한 차이를 보인다는 점이다. 이는 이상성, 정확한 반복성, 그리고 요소들의 대칭성 등에 관련된 것이다. 언어 모델이 단백질 구조를 학습한 적이 없기 때문에 이러한 백본에 대한 설계를 생성하는 것은 모델이 자연 단백질과는 다른 구조에 일반화할 수 있는지를 평가하는 테스트가 된다.

 

언어 모델 ESM2는 진화적 스케일의 단백질 서열 모델로, 자연 단백질 서열 전반에 걸쳐 훈련되었다 (28). 훈련 데이터셋에는 인공 서열뿐만 아니라 평가에 사용된 de novo 단백질 테스트 세트와 유사한 서열이 포함되지 않는다 (부록 A.1). ESM2는 마스크드 언어 모델링 목표를 사용하여 훈련되었으며 (29), 서열 내 나머지 컨텍스트로부터 아미노산의 정체성을 복구하는 방식으로 훈련된다 (그림 1B). 이 훈련 목표는 모델의 내부 표현에서 단백질의 접힌 구조에 대한 정보를 형성하는 것으로 나타났다 (7–9, 30). 언어 모델의 훈련은 오직 서열을 기반으로 하기 때문에, 구조에 대한 정보는 서열 내 패턴의 비지도 학습 결과로 출현한 것이다.

 

언어 모델의 어텐션 맵으로부터의 선형 투사는 단백질 구조를 반영하는 내부 상태를 식별한다. 이전 연구에서는 ESM2와 같은 트랜스포머 단백질 언어 모델의 특정 어텐션 맵이 구조에서 잔기 쌍의 근접성을 인코딩한다는 것이 밝혀졌다 (9, 30). 우리는 단백질 서열 내 두 위치 사이의 어텐션을 가져와 쌍간 거리의 분포를 출력하는 선형 투사를 맞춘다 (그림 1C). 이는 모델의 660차원 내부 어텐션 상태를 잔기 간 거리의 18개의 빈으로 매핑한다. 이는 매개변수의 수가 제한적이기 때문에 (각 거리 빈에 대해 660개, 총 11,898개의 매개변수로 바이어스를 포함), 가능한 단백질 구조의 방대한 복잡성을 나타내기에는 너무 적으며, 출력은 모델의 내부 상태에 의해 포착된 구조의 투사로 해석될 수 있다. 이 투사는 (물리적 에너지 대신) 언어 모델의 표현 상태의 함수로서 에너지 경관을 정의하며, 주어진 구조와 언어 모델이 생성한 서열 표현 간의 호환성을 평가하는 데 사용할 수 있다. de novo 목표 세트에 적용한 결과 기존의 de novo 단백질에 대한 이해를 보여준다 (표 S1 및 그림 S2와 S3).

 

서열 모델과 서열이 주어졌을 때의 구조 모델은 언어 모델에 의해 정의된 단백질의 생성 모델을 명시한다. 서열 모델은 단백질의 각 위치에서 각 아미노산에 대해 확률을 부여함으로써 어떤 서열에도 확률을 할당한다 (그림 1D). 자연 단백질의 경우 이러한 확률은 돌연변이의 기능적 효과, 아미노산의 구조적 선호도, 생화학적 기능의 측면을 반영한다 (31). 구조의 투사는 언어 모델의 서열 표현과 삼차원 구조 간의 호환성을 제공한다 (그림 1E). 이 연구에서 우리는 이 모델들이 단백질 설계를 위한 생성 모델을 명시한다고 본다:

 

고정된 백본 설계의 경우, 특정 백본 구조가 주어졌을 때 서열의 조건부 분포에서 낮은 온도 샘플을 가져와 마코프 체인 몬테카를로(MCMC)와 시뮬레이티드 어닐링을 통해 서열을 생성한다 (그림 1F, 부록 A.3.1). 자유 생성은 구조에 대한 제약을 완전히 제거하고, 서열과 구조의 결합 분포에서 샘플링하여 새로운 단백질을 생성한다. 블록 기브스 샘플링(blocked Gibbs sampling) 접근법이 도입되었으며, 이는 현재 서열에 조건을 둔 새로운 구조를 샘플링하고, 현재 구조에 조건을 둔 새로운 서열을 샘플링하는 것을 번갈아 수행한다 (그림 1G, 부록 A.3.3). 자유 생성 경로의 예시는 그림 1H에 나와 있다. 온도가 낮아짐에 따라 경로는 가능한 다양한 위상을 샘플링하는 단계에서 시작하여 마지막 최적화 단계에서 하나의 위상을 정제하는 단계로 진행된다.

 

우리는 언어 모델에서 총 228개의 설계를 실험적으로 광범위하게 테스트하였다. 설계는 잘 발현되고, 가용하며, 크기 배제 크로마토그래피(SEC) 테스트를 통과하는 경우 성공으로 간주된다. SEC 테스트는 제대로 접힌 단량체의 분자(유체역학적) 반경을 나타낸다 (부록 A.7). 생성된 단백질 중 상당 부분의 실험적 성공과 구조의 독립적인 계산 평가 결과는 언어 모델이 자연 단백질을 넘어선 설계 공간에 접근할 수 있음을 보여준다.

 

언어 모델이 de novo 구조로 접히는 서열 설계 고정 백본 설계는 특정 목표 구조를 실현하기 위해 서열을 생성하는 것을 평가한다. de novo로 설계된 구조를 목표로 사용하는 것은 모델이 자연 단백질을 넘어 일반화하도록 요구하며, 구조 설계를 위한 더 일반적인 패턴의 사용을 필요로 한다. 이 작업에서의 성공은 모델이 자연 서열에 의해 암호화되지 않은 구조로 일반화할 수 있는 단백질 구조의 기저 설계 원칙을 이해하고 있음을 나타낸다.

 

총 39개의 인공적으로 설계된 de novo 단백질 구조로 구성된 테스트 세트 전반에 걸쳐, 언어 모델에 의해 생성된 고정 백본 설계는 AlphaFold의 고해상도 구조 예측 오라클에 의해 목표 구조와 밀접하게 일치할 것으로 예측되었다. 우리는 각 de novo 목표 구조에 대해 200개의 다른 설계를 생성한다 (부록 A.4). 생성 모델은 de novo 테스트 세트의 대다수 목표에 대해 낮은 RMSD 설계를 생성하는 데 성공하였다 (그림 2A). 언어 모델의 최적화 목표에 의해 선택된 상위 10개의 설계로 부분 집합을 설정했을 때, 목표의 84% (33/39)에서 중앙값 RMSD가 < 2.5Å이며, 90% (35/39)에서 최소 RMSD가 < 2Å이다. 또한 구조는 신뢰성 있게 예측되었으며, 중앙값 pTM이 > 0.7인 경우가 56% (22/39), 최대 pTM이 > 0.7인 경우가 90% (35/39)이다. 목표와의 평균 서열 동일성은 낮은 편(22%)으로, 이는 언어 모델이 원래 서열과는 다른 설계 문제의 해결책을 찾고 있음을 나타낸다.

 

그림 2. de novo 구조를 위한 서열 설계. (A) in silico 오라클을 사용한 de novo 목표 세트 설계의 전체 평가. C-알파 원자 간 설계된 구조(오라클 예측)와 목표 구조 간의 평균 제곱근 편차(RMSD)가 각 목표의 상위 10개 설계의 최적화 목표에 따라 플로팅되었다. 목표는 길이 순으로 나열되었다. 언어 모델은 테스트 세트의 대다수 de novo 백본에 대해 목표 구조로 접힐 것으로 예측되는 서열을 생성한다 (33/39에서 중앙값 RMSD < 2.5Å). (B) ESM 설계의 실험적 결과. 총 6개의 de novo 백본 목표에 대해 79개의 설계가 서열의 새로움과 흥미로운 모티프에 대한 수동 검사 등 다양한 기준에 따라 선택되었다. 설계는 가용성이 있고 크기 배제 크로마토그래피(SEC)에 의해 예상 용출 부피에서 피크가 나타나면 성공으로 간주된다. 유일한 피크가 예상 용출 부피에서 나타날 때 설계는 단일 분산(monodisperse)으로 분류된다. 전체적으로 78%가 성공했으며, 39%가 단일 분산이다. (C) 언어 모델을 사용한 설계와 사용하지 않은 설계 간의 실험적 비교. 네 개의 목표 각각에 대해 최적화 목표에 따라 상위 5개의 설계를 실험 평가를 위해 선택하였다. 언어 모델을 사용한 설계는 전체적으로 95%가 성공한 반면, 언어 모델 없이 설계한 대부분은 불용성으로 인해 실패하였다. (D) (왼쪽) MCMC 최적화 과정에서 언어 모델이 명시한 에너지와 목표에 대한 RMSD를 나타내는 최적화 경로. 에너지가 감소하고 낮은 RMSD로 수렴한다. (오른쪽) 각 경로의 끝에서 에너지에 의해 선택된 상위 5개의 설계 시각화. (E) 언어 모델링 설계의 퍼플렉서티(perplexity). 언어 모델 설계는 언어 모델에 의해 가능성이 있는 것으로 간주되는 반면, 기준 설계에 대한 높은 퍼플렉서티는 이들의 서열이 가능성이 낮다고 간주됨을 나타낸다. 이는 실험적 성공과 일치한다. (F) 언어 모델을 사용한 설계와 사용하지 않은 설계 간 SEC 추적 비교. 언어 모델 설계의 대다수가 용해성이 있으며 예상 용출 부피에서 피크를 가지는 반면, 언어 모델 없이 설계한 것 중에서 용해성 있는 것은 거의 없다. (G) 추가로 성공한 언어 모델 설계 중 일부는 알려진 자연 단백질과 비교했을 때 새로운 것이다. 네 가지 다른 백본에 대한 예시는 자연 단백질에 대한 서열 검색에서 상위 의미 있는 히트의 예측 구조에 설계를 중첩하여 보여주고 있다. 각 경우 가장 가까운 자연 서열은 낮은 서열 동일성(<0.3)과 다른 위상(topology)을 가진 예측 구조를 가지고 있다.

 

생성된 단백질은 실험실에서 전반적으로 높은 성공률을 보였다. 우리는 모델이 생성한 설계 모티프의 다양성을 탐구하기 위해 추가적인 고정 백본 설계 경로를 실행하였다. 총 79개의 고정 백본 설계가 6개의 de novo 목표에 걸쳐 추가 경로를 포함하는 풀에서 선택되었으며, 다양한 기준에 따라 평가되었다. 여기에는 흥미로운 구조적 모티프의 존재 여부도 포함되었다 (부록 A.6). 실험적으로 테스트된 이 단백질 세트 중, 97% (77/79)는 가용성이 있었으며, 78% (62/79)는 성공적으로 크기 배제 크로마토그래피(SEC) 테스트를 통과하여 접힌 단량체 형태를 나타내었고, 39% (31/79)는 단일 분산(monodisperse)으로, 예상 용출 부피에서 단일 SEC 피크를 보였다 (그림 2B). 성공한 사례들은 다양한 위상에 걸쳐 있으며, 고도로 이상화된 대칭 구조를 가진 길이 182의 de novo TIM-배럴 6WVS의 성공도 포함되었다 (그림 S4). 실험적 성공 세트 전체에서 목표 구조의 원래 서열과의 서열 동일성은 낮았으며(평균 24%), 이는 언어 모델이 목표 구조에 대해 새로운 설계 공간을 탐구하고 있음을 시사한다.

 

우리는 언어 모델이 설계의 실험적 성공에 미치는 역할을 이해하기 위해 통제된 실험을 수행하였다. 비교를 위해, 우리는 AlphaFold를 서열로부터 구조 확률을 모델링하는 방법으로 사용하였다. 네 개의 고정 백본 de novo 목표에 대해 각기 다른 접힘을 가진 상태에서 각 방법으로 200개의 설계를 생성하였으며, 각 방법의 최적화 목표 상위 5개를 실험 평가를 위해 선택하였다 (부록 A.3). 실험적으로, 언어 모델 서열 설계 중 95% (19/20)가 성공하였고, 언어 모델 없이 생성된 설계 중 5% (1/20)만이 성공하였다 (그림 2C). n-그램 프라이어와 함께 AlphaFold를 보강하였지만 설계 구제를 실패했으며(0% 성공률, 0/20), (표 S3와 S4).

 

언어 모델 퍼플렉서티는 두 설계 방법 모두에서 성공과 실패를 구분해준다. 언어 모델의 MCMC 경로는 에너지가 감소함에 따라 낮은 RMSD로 수렴하며, 평균 RMSD 값은 1.1Å에서 2.4Å까지 범위에 있다 (그림 2D). 주목할 점은, AlphaFold가 언어 모델 설계를 확신 있게 예측하는 반면, 언어 모델은 AlphaFold 설계에 대해 높은 서열 가능성을 부여하지 않는다는 것이다. 선택된 AlphaFold 설계 서열에 대한 언어 모델 퍼플렉서티는 10.6에서 13.1 사이로, 평균 de novo 목표 서열 퍼플렉서티 6.7보다 상당히 높다 (그림 2E). 다른 지표들은 실험적 성공을 식별하는 데 제한된 능력을 보인다 (그림 S5 및 표 S4). 로제타(Rosetta) 전체 원자 에너지 함수는 두 세트를 모두 좋은 설계로 판단하며, 패킹 메트릭은 유사하지만 약간 AlphaFold 설계를 선호하는 반면, 소수성 및 SAP 점수는 언어 모델 설계를 선호한다. 최근 목표 구조에 직접 조건을 부여하는 자회귀 역방향 접힘 모델은 실험실에서 높은 성공률을 보였다 (15). 우리는 ProteinMPNN 및 ESM-IF1을 사용하여 서열을 생성하였고 (14), 두 모델 모두 높은 지역 신뢰도 pLDDT (> 90 평균)를 달성하였다. 그들의 ESM 의사 퍼플렉서티는 각각 5.76과 5.79로, ESM 설계보다 약간 높고 AlphaFold 설계보다는 훨씬 낮아, 해당 방법들이 높은 실험적 성공률을 보이는 것과 일치한다 (표 S2).

 

두 설계 세트(언어 모델 사용 및 미사용)에 대한 실험적 평가 결과, 언어 모델 설계 19/20이 성공하였으며, 이 중 9/20이 단량체로 나타났다 (그림 2F). 목표 6D0T는 언어 모델에서 단량체 설계를 만들지 못했으며, 긍정적 대조군으로 테스트되었을 때도 de novo 서열은 단량체가 아닌 것으로 나타났다 (부록 A.7). 언어 모델 없이 생성된 설계들은 대부분 불용성으로 인해 실패하였다.

 

통제된 비교와 평가된 더 큰 설계 세트를 포함하여, 언어 모델은 총 8개의 de novo 백본에 대해 실험적으로 성공적인 설계를 생성하였다. 한 가지 가능성은 언어 모델 설계가 모델이 훈련 세트에서 목표와 유사한 단백질을 찾아내기 때문에 성공한다는 것이다. 이를 배제하기 위해, 우리는 총 81개의 실험적 성공 세트를 분석하였다. 각 설계는 유사한 서열을 식별하기 위해 UniRef90(언어 모델 훈련에 사용된 서열을 완전히 포함)에 대해 검색되었다 (부록 A.5). 4개의 백본에 걸쳐 있는 17개의 성공적인 설계에 대해서는 훈련 세트에서 유의미한 서열 일치(E-value < 1)가 전혀 발견되지 않았다. 이 중 네 가지 사례가 그림 2G에 표시되어 있다. 나머지 64개의 경우 가장 가까운 서열과의 서열 동일성은 평균 27%에 불과하며, 64개 중 41개의 경우 30% 미만으로, 8개의 테스트된 백본 각각에 걸쳐 있다. 이는 모델이 기억해둔 유사한 서열을 검색함으로써 설계 문제를 해결하고 있는 것이 아님을 시사한다.

 

모델이 서열 유사성에 의한 탐지 임계치에서 상동성을 사용하고 있는지 추가로 이해하기 위해, 우리는 유의미한 임계값에 도달하지 않는 경우를 포함하여 히트의 AlphaFold 예측 구조를 얻었다 (부록 A.5; 그림 S6). 81개의 실험적 성공 중 19개의 경우 Jackhmmer 상위 히트는 설계와 구조적으로 일치하지 않았다. 4개의 백본에 걸친 19개의 설계의 경우, 상위 10개의 Jackhmmer 히트는 모두 TM-score < 0.6이었다. 동일한 4개의 백본에 걸쳐 있는 8개의 설계의 경우, 상위 10개의 히트는 모두 다른 접힘일 가능성이 높았다 (TM-score < 0.5). 이는 일부 경우 모델이 탐지 임계치에서 서열 상동성을 사용할 수 있지만, 다른 경우에는 이를 넘어 일반화된 것으로 보이며, 이는 많은 경우에서 언어 모델이 원래 서열 및 자연 단백질과는 다른 설계 문제에 대해 새로운 해결책을 생성하고 있다는 추가적인 증거를 제공한다.

 

언어 모델이 단백질 설계의 깊은 패턴을 형성한다 생성된 단백질들은 단백질 구조 설계의 깊은 패턴을 사용하고 있음을 보여준다. 이러한 패턴은 자연 단백질 설계에서 사용되는 구조적 모티프의 형태로 나타나며, 이는 상당히 다른 서열 맥락에 적용되거나, 관련 구조에서 발견되지 않는 모티프의 형성으로 나타난다. 서열이 구조를 결정하는 두 가지 잘 연구된 방법은 백본 기하학을 제한하는 아미노산과, 단백질의 특정 접힌 형태를 안정화하는 분자간 힘을 결정하는 화학적으로 다양한 곁사슬의 역할이다. 백본 기하학에 영향을 미치는 두 가지 아미노산은 프롤린과 글라이신이다. 이 두 아미노산은 각각 단백질 백본에 유연성을 부여하거나 굽힘을 만든다. 세 가지 예시 설계에서, 언어 모델은 이러한 잔기를 다양한 이차 구조 요소에 곡률을 유도하기 위해 배치한다: 프롤린은 알파 나선을 굽히고, 베타 시트에 글라이신을 정기적으로 배치하여 베타 배럴을 형성할 수 있는 유연성을 촉진하며, NTF2 설계에서는 하나를 제외한 모든 글라이신이 루프에 배치된다 (그림 3A). 고정 백본 설계를 통해 나타난 곁사슬 기반 모티프는 알파 나선의 끝에 위치한 아미노산의 곁사슬이 최종 알파 나선 턴에서 노출된 극성 백본 원자를 가리는 헬릭스 쌍극자 캡핑이다 (그림 3B). 두 번째 곁사슬 기반 모티프는 6D0T 및 6CZJ와 같은 베타 배럴에 대한 고정 백본 설계에서 존재하는 볼록부를 포함하는 베타 턴에서 형성된 수소 결합 네트워크이다 (그림 3C). 이는 그림 3A의 베타 가닥에 있는 주기적인 글라이신과 더 크게 관련되어 있으며, (34)에서 목표 베타 배럴의 성공적인 de novo 설계를 가능하게 한 자연 모티프로 식별되었다.

 

그림 3. 언어 모델이 단백질 설계의 깊은 패턴을 형성하고, 자연과 유사한 de novo 모티프를 생성한다. (A) 세 가지 서로 다른 설계된 단백질 내 프롤린 또는 글라이신의 배치가 알파 나선, 베타 시트, 그리고 턴에 곡률을 유도한다. (B, C) 턴 내 수소 결합 네트워크. (B) 헬릭스 쌍극자 캡핑은 최종 나선 턴에서 극성 백본 원자를 가리기 위해 수소 결합을 형성한다. (C) 베타 시트를 포함하는 턴에서 형성된 수소 결합 네트워크. (D, E) 설계된 단백질과 자연 단백질 간 모티프 비교. 설계된 단백질(왼쪽)을 서열 검색(중앙)과 구조 검색(오른쪽)에서 발견된 자연 단백질의 가장 가까운 모티프와 비교하였다. 히트는 모티프 위치에서 아미노산이 일치하는 것만으로 정렬되었다. (D) 한 설계에서 사용된 수소 결합 모티프의 예시. 서열 정렬 위치에서 동일한 모티프를 갖는 서열이 일치하는 것을 발견하였으나, 주변 서열 맥락은 상당히 달라서 서열 동일성이 26%에 불과하다. (E) 가능한 de novo 수소 결합 네트워크의 예시. 서열 맥락이 다를 뿐만 아니라, 모티프 자체가 어떤 일치하는 자연 서열이나 구조의 정렬 위치에도 존재하지 않는다.

 

설계는 또한 복잡한 수소 결합 네트워크를 나타낸다. 일부 설계 성공 사례에는 구조 내부에서 네 개 이상의 극성 및 심지어 전하를 가진 잔기 사이의 수소 결합 네트워크가 포함된다. 매장된 극성 및 전하 상호작용의 설계는 이러한 상호작용을 에너지적으로 만족시키기 위한 기하학적 제약으로 인해 어려움이 따른다 (35). 주목할 만하게도, 여기서 보이는 결합 네트워크는 다양한 분자 간 힘 범주를 포함한다: 예측된 구조 중 베타 배럴인 F129에는 염다리(salt-bridge)가, F025에는 파이-양이온 결합(pi-cation bond)이, F030에는 T형 파이-파이 상호작용(T-shaped pi-pi interaction)이 포함되어 있다 (그림 S7). 예시에 대한 원래의 설계는 순수하게 소수성 내부를 가진다. 이러한 수소 결합 네트워크는 고해상도 구조 연구를 통해서만 완전히 확인될 수 있지만, 관찰된 생물물리학적 특성(예상 용출 부피에서 단일 분산 단백질의 높은 수율)은 이들의 정확성과 일치한다. 이러한 잔기들이 부정확하게 배치되면 잘못된 접힘과 응집을 초래할 가능성이 크기 때문이다.

 

극성 잔기와의 수소 결합 네트워크는 새로운 서열 맥락에서 실현되며, 이는 모델 훈련에 사용된 서열을 넘어서는 강력한 일반화 형태를 나타낸다. 우리는 UniRef90을 Jackhmmer로 검색하고 AlphaFold DB를 Foldseek(36)을 사용하여 유사한 정렬 구조를 검색함으로써 가장 유사하게 정렬된 서열을 찾아낸다 (37). 반환된 서열들은 정렬된 모티프 위치에서 최소 편집 거리 기준으로 모두 정렬되며, 가장 일치하는 모티프가 표시된다 (부록 A.5.4). 생성된 단백질 F030의 경우(그림 3D, 그림 S7), 서열 검색 결과 이 모티프를 정렬된 위치에서 가진 자연 단백질이 발견되었다. 하지만 설계의 주변 서열 맥락은 전체 서열 동일성이 26%로 유사하지 않다. F129 및 F092의 경우(그림 3E, 그림 S7), 주변 서열 맥락이 낮은 서열 동일성을 가질 뿐만 아니라, 모티프 자체가 어떤 일치하는 자연 서열이나 구조의 정렬된 위치에도 존재하지 않는다. 이러한 모티프를 고정 백본 설계에 사용하는 것은 주목할 만한 일반화 형태이며, 모델이 이를 새로운 서열 맥락과 자연 단백질과는 다른 구조에 적용하고 있기 때문이다.

 

언어 모델이 새로운 구조와 서열을 생성하다 언어 모델은 자연 서열과 상당히 다른 새로운 단백질 서열을 생성한다. 우리는 구조에 대한 제약 없이 고정된 길이(L = 100)의 단백질 25,000개(N = 25,000)를 대규모로 샘플링하였다. 서열과 구조의 공동 경관을 탐색하는 블록 기브스 샘플링 방법은 이전의 제약 없는 생성 방법보다 더 다양한 단백질 세트를 제공한다 (표 S5).

 

생성된 단백질은 다양한 위상을 가지고 있으며, 전체적으로 자연 단백질과 유사하지 않은 서열을 가진다. 모든 생성된 서열에 대해 AlphaFold를 사용해 구조를 예측하였으며, 생성된 단백질은 TM-score로 측정한 쌍간 구조 거리를 기반으로 t-SNE를 사용해 2차원으로 투영되었다 (그림 4A). 구조의 계층적 클러스터링에서, TM-score 기준 0.75로 7,663개의 고유 클러스터가 식별되었다. 생성된 이차 구조의 분포는 52%가 주로 알파 나선을 포함하고, 22%가 주로 베타 시트를 포함하며, 28%는 알파 나선과 베타 시트가 혼합된 다양한 패턴을 나타낸다 (그림 4B). 생성물의 큰 부분은 오라클에 의해 잘 예측되었으며(중앙값 pLDDT = 84.49, 70% pLDDT > 70; 그림 4C), 이는 신뢰성 있는 구조로 평가된다.

 

그림 4. 언어 모델이 새로운 구조와 서열을 생성하다. (A) 생성된 단백질이 차지하는 구조적 공간을 t-SNE를 사용해 임베딩한 결과. 색은 자연 서열과의 가장 잘 맞는 서열 일치를 나타낸다. 생성물의 큰 부분은 자연 단백질과 서열 유사성이 낮으며, 16%는 자연 단백질과 유의미한 서열 일치가 없다. 실험적으로 평가된 성공적인 설계는 녹색 별로 표시되었다. (B) 생성된 이차 구조의 분포. 실험적 성공 사례(녹색)는 다양한 이차 구조 구성에서 관찰되었다. (C) pLDDT 및 pTM의 분포는 in silico 오라클에 의해 설계가 잘 예측됨을 나타낸다(중앙값 pLDDT 84.5). (D) 자연 단백질과의 서열 및 구조적 유사성에 대한 밀도 플롯. 각 생성된 단백질에 대해 가장 잘 맞는 자연 서열을 AlphaFoldDB에서 검색하였다. 생성된 단백질 각각은 서열 유사성(x축)과 구조 유사성(y축)에 따라 표시되었으며, 유의미한 임계값을 넘지 못한 경우 x축에 0으로 표시되었다. 생성된 단백질은 자연 단백질과 구분되는 공간의 일부를 차지하고 있으며, 일부는 자연 단백질과 최소한의 서열 유사성만 가진다(왼쪽 하단 사분면). in silico 필터를 통과하고 실험적으로 성공한 설계들은 전체 생성물 분포와 겹친다. (E) 실험 평가의 전반적 결과. 테스트된 설계의 대다수(55%)는 용해성 테스트를 통과하고 올바른 신뢰 구간에서 용출 부피 피크를 보였다(상단). 또한, 자연 서열과 거리가 먼 평가된 단백질의 높은 비율(63%)이 성공하였다(하단). (F) 실험적으로 성공한 여섯 개의 단백질의 예측된 구조(상단). 각 구조는 자연 단백질 서열 검색에서의 가장 유의미한 히트에 대한 오라클 예측 구조와 정렬되었다(하단). 모든 예시에서 예측된 위상은 다르다. (G) 패널 F의 생성물에 대해, 그림 3A-3C와 동일한 모티프가 나타났다: 프롤린과 글라이신에 의해 유도된 곡률, 헬릭스 캡핑, 그리고 턴에서의 수소 결합 네트워크. 자연 단백질과 유사성이 최소인 단백질에서도 언어 모델은 알려진 모티프를 생성한다.

 

생성된 단백질 중 많은 부분이 자연 단백질과 서열상 거리가 멀다. 우리는 각 생성물을 AlphaFold DB(37)에 있는 2억 개의 자연 서열과 비교하여 생성된 서열이 자연 단백질과 얼마나 다른지 측정한다. 이는 또한 가장 가까운 서열 일치의 구조를 생성된 단백질의 구조와 비교할 수 있게 한다. 전반적으로 언어 모델은 자연 단백질 분포와 명확히 분리된 단백질을 생성하며, 그중 일부는 알려진 단백질로부터 거리가 멀다. 그림 4D는 알려진 단백질과의 유사성 분포를 보여주는데, 각 생성물은 그 최상위 서열 히트와의 서열(x축) 및 구조적(y축) 유사성에 따라 플로팅되었으며, 유의미하지 않은 히트(E-value > 1)는 x=0에 배치되었다 (전체 생성물 중 16.6%). 생성된 단백질의 큰 부분은 가장 가까운 서열 일치에 대해 예측된 구조와 다른 구조를 가지고 있으며, 이는 모델이 단순히 알려진 단백질을 암기하고 있는 것이 아님을 뒷받침하는 추가 증거이다. 15,000개의 자연 단백질 세트도 함께 표시되었으며, 자연 단백질은 오른쪽 상단에 군집을 이루는 반면, 생성된 단백질은 서로 다른 공간의 일부를 차지하고 있다. 언어 모델이 생성한 단백질 중 상당 부분(15.5%)은 자연 단백질과 최소한의 유사성만을 가지며(왼쪽 하단 사분면), 가장 가까운 일치의 서열 유사성(Seq-id < 0.2)이 최소이며, 예측된 구조가 다른 접힘일 가능성이 높다(TM-score < 0.5).

 

자연 단백질과 거리가 먼 설계를 포함하여 많은 설계가 실험적으로 성공하였다. 우리는 실험 평가를 위해 in silico 품질 필터를 통과한 여러 설계를 선택하였다. 전체 생성물 중 20%(N = 5,198)가 품질 필터를 통과하였다 (부록 A.4). 이 중 총 129개의 설계가 발현되고 평가되었으며, 55%(71/129)가 실험적으로 성공한 것으로 나타났다. 71개의 구조와 그 지표는 그림 S8에 나타나 있으며, 그림 4A, 4B 및 4D에는 녹색 별로 표시되었다. 전반적으로 평가된 자유 생성물 중 96%가 가용성이 있었고, 55%가 올바른 신뢰 구간에서 용출 부피 피크를 가지며, 30%가 단일 분산이었다 (그림 4E 상단, 부록 A.7).

 

자연 단백질과 거리가 먼 생성물도 높은 성공률을 보였다. 거리가 먼 49개의 생성물 집합에 대해 (그림 4D, 왼쪽 하단 사분면), 49개 중 31개(63%)가 실험 평가에서 성공을 거두었다. 이 31개의 실험적 성공에 대해 우리는 자연 단백질과의 유사성에 대한 심층 분석을 수행하였다. 우리는 추가로 UniRef90에서 각 설계를 검색하였는데, 이 데이터베이스는 자연 단백질을 포괄적으로 포함하며 언어 모델의 훈련 세트를 완전히 포함한다. 31개의 거리가 먼 설계 중 16개는 유의미한(E-value < 1) 서열 일치가 전혀 없었다(그림 S9). 우리는 유의미한 여부와 상관없이 상위 10개의 서열 일치에 대한 예측 구조를 얻었다. 31개의 거리가 먼 설계 중 12개(이 중 5개는 그림 4F에 표시됨)의 경우, 서열 일치 중 아무것도 같은 접힘을 가질 가능성이 없다(TM-score < 0.5)(그림 S9). 예측된 구조는 대체로 신뢰할 만하며(예측의 78%가 pLDDT > 70, 평균 pLDDT = 81.24), 고정 백본 설계에서 관찰된 프로린과 글라이신 배치, 헬릭스 캡핑, 수소 결합 네트워크와 같은 구조적 모티프가 de novo 생성물 내에서도 나타난다(그림 4G). 이러한 결과 전체는 언어 모델이 자연 단백질 공간을 넘어 일반화하여 de novo 단백질을 생성할 수 있음을 보여준다.

 

진화적 스케일 언어 모델 트랜스포머

단백질 언어 모델은 (7)에 의해 소개되었으며, 비지도 학습에서 기능과 삼차 구조에 대한 정보의 출현을 보여주는 증거를 발견하였다. 동시에, 작은 스케일에서 LSTM 기반 모델을 조사한 연구도 있었다 (38–40). 이제 수십억 개의 파라미터를 가진 대규모 단백질 언어 모델들이 오픈소스로 공개되었다 (8, 41–43). 언어 모델의 생성적 사용은 최근 in silico 연구에서 탐구되었으며 (44, 45), 기존 단백질 패밀리에서 생성된 새로운 서열의 기능을 확인하는 실험적 연구에서도 진행되었다 (22). 우리가 알고 있는 한, 실험적으로 검증된 서열 기반 모델의 연구(20, 22, 46)는 자연 단백질과 서열 동일성이 30% 미만인 임계값을 넘지 못하였다.

결론

고전적인 시각에서는 서열 공간이 각 단백질 패밀리 주변의 독립적인 지역 진화 경관으로 구성된다고 생각하는데, 이는 언어 모델이 자연 단백질 공간의 암기에만 제한될 것임을 시사한다. 이에 일치하여, 단백질 언어 모델에서 출현하는 구조 정보는 모델이 훈련 중에 사용할 수 있는 진화적 정보에 의존한다고 밝혀졌으며, 이는 언어 모델을 자연 단백질 너머로 생성적으로 사용할 잠재력에 대해 부정적인 신호로 보일 수 있다. 그러나 여기에서 우리는 이와 반대되는 증거를 제시하였다: 언어 모델은 자연 단백질 패밀리를 넘어, 자연 단백질로부터 서열적으로 거리가 먼 단백질을 생성할 수 있다. 우리의 결과는 순수하게 서열 기반 접근 방식이 자연 단백질을 넘어 일반화될 수 있음을 처음으로 보여주었으며, 이는 de novo 단백질 설계를 위한 서열 기반 생성 인공지능에 대해 유망한 가능성을 시사한다. 우리는 생성적 언어 모델에 의해 설계 가능한, 자연에서 멀리 떨어진 de novo 단백질 공간이 존재함을 입증하였다.

 

이 일반화는 자연 서열에 근본적인 더 깊은 구조가 있으며, 언어 모델에 의해 학습 가능한 깊은 문법이 존재함을 시사한다. 우리의 결과는 진화를 통해 만들어진 방대한 단백질 서열이 생물학적 구조와 기능의 이미지를 포함하고 있으며, 이는 완전한 서열 기반 모델이 학습하고 재조합할 수 있는 설계 패턴을 드러낸다는 것을 시사한다. 자연 단백질을 넘어 일반화된다는 것은 언어 모델이 물리적 에너지를 학습하고 있다는 것을 반드시 의미하지는 않는다. 언어 모델은 여전히 물리적 에너지가 아닌 패턴을 학습하고 있을 가능성이 있다. 하지만 추측하건대, 무한한 서열 데이터가 있다면, 이러한 패턴들은 물리적 에너지를 근사할 수 있을 것이다. 최소한 언어 모델은 서열과 접힌 구조를 연결하는 단백질의 전반적인 일관성에 대한 이해를 발전시켜야 한다.

 

단백질 전반에 걸쳐 깊은 문법이 존재한다면, 이는 표면적으로 서로 모순되어 보이는 두 가지 관찰을 설명할 수 있다: 자연 단백질에 대한 이해가 훈련 데이터에서의 진화적 지원에 의존한다는 점과, 언어 모델이 알려진 자연 단백질 패밀리를 넘어 일반화한다는 점이다. 만약 학습 가능한 패턴들이 멱법칙 분포(power law distribution)를 따른다면, 많은 단백질 구조가 훈련 데이터에서 가장 많은 지원을 받은 공통 패턴들로 설계 가능할 것이라는 점은 예상할 수 있다. 동시에, 훈련 데이터에서 패턴이 관찰되는 빈도는 그 패턴의 학습 가능성과 대응될 것이다. 드문 패턴을 학습하려면 더 많은 훈련 데이터와 모델의 용량이 필요하다. 이는 새로운 설계 공간으로의 일반화(학습된 패턴을 통해 접근 가능한)와 훈련 데이터에서의 지원에 대한 의존(드문 패턴으로 구성된 단백질은 학습하기 어려움) 모두의 관찰과 일치한다. 만약 스케일 법칙이 단백질 언어 모델에서도 계속 유지된다면, 생성 능력이 계속해서 개선될 것으로 기대할 수 있다. 모델과 데이터가 확장됨에 따라, 학습 가능한 기저 문법의 존재는 드문 패턴들이 학습될 것이라는 예측을 가능하게 하며, 이는 모델의 예측 능력과 접근 가능한 설계 공간 모두를 확장하게 될 것이다.