본문 바로가기

인공지능

MTS-Net: Dual-Enhanced Positional Multi-Head Self-Attention for 3D CT Diagnosis of May-Thurner Syndrome

https://arxiv.org/abs/2406.04680

 

MTS-Net: Dual-Enhanced Positional Multi-Head Self-Attention for 3D CT Diagnosis of May-Thurner Syndrome

May-Thurner Syndrome (MTS), also known as iliac vein compression syndrome or Cockett's syndrome, is a condition potentially impacting over 20 percent of the population, leading to an increased risk of iliofemoral deep venous thrombosis. In this paper, we p

arxiv.org

요약
May-Thurner 증후군(MTS), 일명 장골정맥 압박 증후군 또는 코켓트 증후군은 인구의 20% 이상에 영향을 미칠 수 있으며, 장골대퇴 심부정맥 혈전증의 위험을 증가시킬 수 있는 상태입니다. 이 논문에서는 CT 스캔을 사용하여 May-Thurner 증후군을 진단하기 위한 MTS-Net이라는 3D 기반 딥러닝 접근 방식을 제시합니다. CT 스캔 간의 시공간적 관계를 효과적으로 포착하고 MTS 진단의 임상 과정을 모방하기 위해, 듀얼 강화 위치 멀티 헤드 자가 주의(DEP-MHSA)라는 새로운 주의 모듈을 제안합니다. 제안된 DEP-MHSA는 위치 임베딩의 역할을 재고하고 주의 가중치와 잔여 연결 모두에서 듀얼 강화 위치 임베딩을 통합합니다. 또한, 747명의 피험자로 구성된 MTS-CT라는 새로운 데이터 세트를 구축했습니다. 실험 결과는 제안된 접근 방식이 최첨단 MTS 진단 결과를 달성했음을 보여주며, 자가 주의 설계가 시공간 모델링을 촉진함을 입증합니다. 우리는 DEP-MHSA가 CT 이미지 시퀀스 모델링을 처리하는 데 더 적합하다고 믿으며, 제안된 데이터 세트가 MTS 진단에 대한 향후 연구를 가능하게 할 것이라고 생각합니다. 우리의 코드와 데이터 세트는 https://github.com/Nutingnon/MTS_dep_mhsa에서 공개적으로 제공됩니다.

 

I. 서론
May-Thurner 증후군(MTS)은 골반의 정맥이 동맥이나 뼈와 같은 주변 조직에 의해 비정상적으로 압박되는 혈관 장애입니다[1]. Type I MTS는 우측 총장골동맥이 좌측 총장골정맥을 요추에 압박하는 해부학적 변이를 의미하며, 이는 인구의 20% 이상에서 존재하며, 환자에게 장골대퇴 심부정맥 혈전증(DVT)을 유발할 가능성이 있으며, 그 발생 확률은 2%에서 3%입니다[2], [3]. MTS 진단은 주로 정맥조영술, 혈관내 초음파(IVUS), 초음파(US), 컴퓨터 단층촬영(CT) 또는 자기공명영상(MRI) 등 고급 영상 기술을 통한 의료 전문가의 전문성에 의존합니다[1]. 각 영상 기술에는 고유한 장점과 한계가 있습니다. MTS 진단의 골드 스탠다드는 IVUS이지만[4], 이 기술은 침습적이며 비용이 많이 들고, 조영제가 알레르기 반응, 정맥염 또는 주사 후 DVT를 유발할 수 있습니다. 반면 MRI는 더 나은 대조 해상도를 가지며, MRI와 US는 방사선 위험이 없습니다[5]. 그러나 환자의 입장에서 MRI는 다른 방법에 비해 비용과 시간이 훨씬 더 많이 소요됩니다. 초음파는 가장 저렴한 영상 방법으로 여겨지지만, 근위부 하체 DVT 평가에 매우 민감하고 능숙하며, 서혜부 위의 영역에 대해서는 민감도가 낮아 장골정맥의 압박성을 평가하는 데에는 한계가 있습니다[5], [6]. 반면 CT 이미지는 방사선 노출이 수반되지만, 전체 영역에 대해 높은 민감도와 특이성을 보여줍니다. 또한 여러 평면 이미지를 우수한 세부 사항으로 재구성할 수 있습니다[5]. 의료 전문가들은 종종 정맥과 주변 조직 간의 구분을 더 명확하게 하기 위해 많은 양의 조영제를 정맥에 주입하는 Enhanced-CT 검사를 선택합니다.

 

한편, MTS 진단에 딥러닝 기반 방법을 적용한 연구는 제한적입니다. 주목할 만한 연구로는 DMRF-CNN을 사용해 34명의 남성과 177명의 여성 환자로 구성된 비공개 초음파 데이터세트에서 학습한 연구가 있었습니다[7]. 그러나 MTS 진단을 위한 초음파 영상 사용의 고유한 한계와 기존 연구에서 비공개 데이터세트에 대한 접근 제한으로 인해 MTS 진단에 딥러닝의 최근 발전을 활용할 수 있는 상당한 기회가 존재합니다.

 

반면, 의료 영상 인식에서 AI 기반 방법은 지속적으로 수집되고 공개되는 고품질 데이터세트 덕분에 크게 발전하고 있습니다. 이는 뇌종양 방사선유전체 분류[8], 두개내 출혈 감지[9], 경추 골절 감지[10]와 같은 연례 도전 과제를 통해 입증되었습니다. 이러한 풍부한 데이터세트의 가용성은 특정 의료 분야에서 지능형 진단을 위한 딥러닝을 크게 발전시켰습니다. 딥러닝 기반 방법은 의료 진단에 널리 적용되고 있지만, May-Thurner 증후군 진단에 대한 연구는 주로 MTS 진단을 위한 공개 데이터세트의 부족으로 인해 제한적입니다.

 

이 논문에서 우리는 MTS-Net을 제시합니다. MTS-Net은 3D CT 스캔을 사용하여 MTS(메이서너 증후군) 진단을 개선하기 위해 시공간 관계를 효과적으로 모델링하도록 설계된 종단간 3D 신경망 아키텍처입니다. 구체적으로, MTS-Net은 기본 3D ResNet-18을 향상시키기 위해 새로운 자가 주의 모듈인 DEP-MHSA를 네트워크의 마지막 두 계층의 Transformer 인코더 블록에 통합합니다. DEP-MHSA 모듈은 세 가지의 합성곱 전략을 사용하여 여러 스케일에서 특징을 추출할 수 있도록 세심하게 설계되었습니다. 또한 중요한 계산 단계에서 듀얼 강화 위치 임베딩을 통합하여 모델의 성능을 더욱 증대시킵니다. 이 아키텍처는 MTS에 대한 CT 스캔을 분석하는 의료 전문가들이 사용하는 진단 전략을 모방하여 더 높은 정확도와 적응성을 제공합니다.

 

제안된 접근 방식을 검증하기 위해 700명 이상의 피험자가 포함된 포괄적이고 성별 균형이 맞춰진 CT 데이터 세트를 대상으로 실험을 수행했습니다. 우리가 아는 한, 이 연구에서 수집된 데이터 세트는 3D CT 스캔을 사용한 MTS 진단을 위한 최초의 공개 데이터 세트입니다. 주요 기여 내용은 다음과 같습니다:

 

∙ MTS-Net이라는 새로운 프레임워크를 제안했으며, 3D ResNet-18을 확장하여 3D CT 스캔을 사용한 메이서너 증후군 진단을 위한 새로운 잔차 트랜스포머 모듈을 포함했습니다.

∙ MTS 진단의 임상 과정을 모방하는 듀얼 강화 위치 임베딩을 효과적으로 통합한 새로운 멀티 헤드 자가 주의 모듈 DEP-MHSA를 제안했습니다.

∙ 표준 및 Enhanced-CT 스캔으로 구성된 최초의 공개 MTS 데이터 세트를 소개했으며, 이 데이터 세트는 이 분야의 향후 연구를 위한 기초 자원으로 사용됩니다.

∙ 제안된 데이터 세트를 대상으로 한 기존 방법들에 비해 우수한 정확도를 보여주며, 우리의 방법론의 성능을 포괄적으로 평가했습니다.

 

논문의 구성은 다음과 같습니다. 2장에서는 3D CNN과 트랜스포머에 대한 최근 연구를 검토합니다. 3장에서는 DEP-MHSA에 중점을 두어 제안된 MTS-Net 방법을 소개합니다. 4장에서는 새로운 MTS-CT 데이터 세트와 메이서너 증후군 진단에 관한 실험 및 결과를 설명합니다. 5장에서는 Enhanced-CT 스캔을 사용한 추가 실험을 통해 방법의 효과를 검증합니다. 6장에서는 연구를 결론짓습니다.

 

II. 관련 연구
A. 3D CNNs
3D 컨볼루션 신경망(3D CNNs)은 3차원 데이터를 포함하는 다양한 응용 분야에서 놀라운 성과를 보여주었습니다[11]. 이러한 네트워크는 2D CNNs에 하나의 차원을 추가하여 3D 데이터를 효과적으로 처리할 수 있게 합니다. 3D CNNs의 아키텍처는 3차원에서 지역적 특징 관계를 포착하는 강력한 유도 편향(인덕티브 바이어스)을 제공합니다. 이 능력은 종양이나 다른 병변이 전체 스캔된 영역에 비해 상대적으로 작게 나타나는 의료 영상에서 특히 중요합니다. 예를 들어, 코로나바이러스 질병 진단 및 예후 관리 분야에서는 3D CNNs을 사용하여 폐 CT 스캔에서 국소 이상 패턴을 인식하고[12], 예후 상황을 예측하며[13], MRI 스캔에서 뇌종양을 식별하는 데 사용되었습니다[14]. 또한, 3D 기반 UNet[15]은 의료 영상 분할에서 성공적으로 사용되었습니다. 예를 들어, 간 병변 분할을 위해 설계된 SimUNet[16]은 다양한 커널 크기를 가진 3D CNNs을 통합하고, 잔여 연결의 위치를 수정하여 성능을 향상시켰습니다. 더 나아가, [17]에서 제안된 방법은 인코더-디코더 네트워크 내에서 정교하게 설계된 3D CNNs을 사용하여 뇌 연결체의 형태를 정확하게 모델링했습니다. 우리의 연구는 이러한 기존 3D CNNs에 기초하여 새로운 시공간 주의 모듈을 추가하여 향상된 작업을 수행합니다.

 

B. 트랜스포머
트랜스포머[18]와 관련된 자가 주의 메커니즘[19]은 최근 몇 년간 딥러닝 분야에서 혁신적인 변화를 일으켰습니다. 처음에는 자연어 처리(NLP)를 위해 개발된 트랜스포머 기반 기술[20]–[23]은 CT, MRI, X선 등 다양한 의료 영상 분석 작업(분할, 분류, 회귀)에서 놀라운 성과를 보여주었습니다[24], [25]. 트랜스포머 아키텍처의 핵심 구성 요소인 자가 주의 메커니즘은 시퀀스 내 토큰들 간의 복잡한 관계를 모델링하는 데 탁월합니다. 이는 해부학적 구조 간의 관계를 정확하게 모델링하는 것이 진단에 중요한 의료 영상 분석에서 특히 유용합니다. 예를 들어, Meta-ViT는 파킨슨병 진단을 위해 도입되었으며[26], 이는 대사 인식 블록을 가진 비전 트랜스포머 네트워크를 채택했습니다. 이 블록들은 패치 간 상호작용을 향상시키는 새로운 패치 단위 자가 주의 메커니즘을 통합했습니다. 그러나 트랜스포머는 국부적 구조를 모델링하는 유도 편향이 부족합니다. 따라서 일부 연구들은 UNet[15]나 ResNet과 같은 모델에 자가 주의 메커니즘을 직접 통합하여 이러한 내재된 유도 편향을 더 잘 탐색하고, 장거리 상호작용을 포착하려고 시도했습니다. 이 연구에서는 트랜스포머와 CNN 구조의 장점을 결합하여 May-Thurner 증후군의 3D CT 진단에 활용합니다.

 

III. 방법
이 섹션에서는 잔차 트랜스포머 모듈 내에 듀얼 강화 위치 멀티헤드 자가 주의(DEP-MHSA)를 도입한 MTS-Net 방법을 소개합니다. 이는 Fig. 1에 나타나 있습니다. 우리는 2D 공간 합성곱을 수행한 후 1D 시간 합성곱을 사용하는 3D ResNet-18을 백본으로 활용합니다[11]. 또한, 최종 두 개의 계층은 제안된 듀얼 강화 위치 멀티헤드 자가 주의 블록을 통합하도록 조정되었습니다(Fig. 2 참조). 제안된 네트워크는 BabyNet[23]에서 영감을 얻어 대규모 구조적 개념을 따릅니다. BabyNet은 3D ResNet 기반 네트워크를 사용하여 태아 초음파 데이터를 분석하고, 마지막 계층을 잔여 트랜스포머 인코더 블록으로 대체하여 출생 체중을 예측합니다.

 

미세 수준에서 본 연구의 제안된 모듈은 CT 영상을 통해 May-Thurner 증후군을 평가할 때 의료 전문가들이 사용하는 진단 추론에서 영감을 받았습니다. 구체적으로, 의료 전문가들은 먼저 CT 스캔 이미지 세트에서 중요한 프레임을 식별합니다. 그런 다음 이러한 중요한 프레임 내에서 정맥과 뼈 사이의 시공간적 관계를 분석하여 최종적인 진단에 도달합니다. DEP-MHSA 블록은 자가 주의 메커니즘에서 Query, Key, Value 행렬을 생성하는 함수에 각각 뚜렷한 중점을 두어 이들의 접근 방식을 반영합니다. 이 향상된 방법은 모델의 진단 정확성을 높이고, 전문가의 임상 절차와 잘 일치합니다.

 

그림 1: 이 그림은 CT 스캔 영상을 입력으로 하여 May-Thurner 증후군을 진단하는 우리의 접근 방식을 개괄적으로 보여줍니다. 이 방법론은 수정된 ResNet-18 (2+1)D 아키텍처에 기반을 두고 있습니다. 특히, 우리는 마지막 두 계층의 표준 시공간 합성곱을 제안된 멀티헤드 자가 주의 모듈로 변환했습니다. 그림의 첫 번째 행은 네트워크의 입력에서 출력까지의 전체 구조를 보여주며, 두 번째 행의 오른쪽에 있는 다섯 개의 다이어그램은 첫 번째 행에 해당하는 전체 구조 다이어그램의 각 블록의 더 자세한 구성을 나타냅니다. 이 설계된 적응 방식은 의료 전문가들이 사용하는 진단 과정의 논리에 영감을 받아 만들어졌으며, May-Thurner 증후군을 식별하는 성능을 크게 향상시킵니다.

 

A. 모델 아키텍처
우리가 제안한 MTS-Net은 3D ResNet-18 [11]의 컨볼루션 기반 구조를 재사용하여 3D 컨볼루션을 2D 공간 컨볼루션과 1D 시간 컨볼루션으로 분해한 (2+1)D 컨볼루션을 사용합니다. 이 기반 구조는 두 개의 순차적 컨볼루션, 배치 정규화, 그리고 ReLU(Conv-BN-ReLU)로 구성된 (2+1)D 설정으로 구성되어 있으며, CT 스캔으로부터 시공간 특징을 초기 추출하는 역할을 합니다.

 

입력 CT 스캔 클립을 𝑥0로 나타내면, 이는 텐서 𝑅𝐿0×𝐶0×𝐻0×𝑊0로 표현됩니다. 여기서 텐서의 차원은 CT 스캔의 특정 특징을 나타냅니다. 𝐿0는 프레임의 수로 클립의 길이를 나타내며, 스캔의 시간적 측면을 포착합니다. 𝐶0는 클립의 채널을 나타내며, 𝐶0 = 1은 CT 이미지의 그레이스케일 특성을 반영합니다. 𝐻0와 𝑊0는 각각 프레임의 높이와 너비로, 스캔의 공간적 차원을 제공합니다. 이 다차원 표현은 의료 영상에서 CT 스캔을 처리할 때 널리 사용됩니다.

 

입력 CT 클립 𝑥0를 주어진 상태에서, 𝑖번째 계층에서의 계산 순서는 F^(i) ( . ; 𝜃(𝑖) )로 표현되며, 여기서 F^(i)는 기능적 연산을 나타내고 𝜃(𝑖)는 관련 학습 가능한 매개변수를 의미합니다. 구체적으로, 컨볼루션 기반 구조에서 나오는 출력은 다음과 같이 표현될 수 있습니다:

여기서 F_s는 공간적 계산 순서로:

로 나타내며, 𝐶𝑜𝑛𝑣는 2D 공간 컨볼루션을, 𝐵𝑁은 배치 정규화를, 𝜎는 비선형 활성화 함수 ReLU를, 𝑘는 커널 크기를 의미합니다. 반면, F_t는 시간적 계산 순서로:

로 나타내며, 여기서 𝐶𝑜𝑛𝑣는 1D 시간적 컨볼루션을 나타냅니다. 이와 같은 조합은 식 (1)에 의해 나타내지며, 이를 컨볼루션 기반 구조의 시공간 구조라고 부릅니다.

 

그 후, 각 계층은 두 개의 잔차 블록으로 구성된 일련의 계층으로 적용됩니다. 첫 두 계층의 각 잔차 블록은 잔차 연결을 가진 두 개의 시공간 연산을 포함합니다:

여기서 𝑥𝑖는 컨볼루션 기반 구조 이후 (𝑖 − 1)번째 계층 F( 𝑖 −1)에서 나오는 중간 출력을 나타냅니다, 즉 𝑖 > 1입니다. Fig. 1에 나타난 바와 같이, Layer 1의 출력은 입력 클립과 동일한 높이와 너비를 유지합니다. 구체적으로 Layer 1은 잔차 연결을 포함한 두 개의 잔차 시공간 컨볼루션 블록으로 구성되며, 이는 컨볼루션 기반 구조와 유사하지만 잔차 연결이 추가되었습니다. Layer 2부터는 출력의 높이와 너비가 각 계층마다 2배씩 다운샘플링됩니다. 결과적으로 Layer 4에서 얻은 특징 맵의 크기는 각각 높이와 너비가 𝐻0∕8 및 𝑊0∕8로 줄어듭니다. 이와 병행하여 입력의 시간적 차원 𝐿0도 점진적으로 감소하여 마지막 잔차 계층에서는 𝐿0∕4로 다운샘플링됩니다. 프로젝션 헤드는 글로벌 평균 풀링(GAP) 연산과 완전 연결 계층으로 구성되어 Layer 4의 중간 출력을 최종 예측 출력으로 매핑합니다.

 

B. 듀얼 강화 위치 멀티헤드 자가 주의 (Dual-Enhanced Positional Multi-Head Self-Attention)

 

멀티헤드 자가 주의 메커니즘은 긴 입력 시퀀스에 대해 매우 많은 계산 자원을 요구하는 경우가 많습니다. 우리의 실험에서, 레이어 1과 레이어 2의 입력 크기는 각각 12 × 128 × 128과 12 × 64 × 64(프레임, 높이, 너비를 각각 나타냄)입니다. 이를 자가 주의 처리에 맞춰 평탄화(flattening)하면 지나치게 커집니다. 따라서 우리는 자가 주의 모듈인 DEP-MHSA를 초기 레이어가 아닌 레이어 3과 4에 배치하였습니다.

 

전통적으로, 시각적 작업에 자가 주의 메커니즘을 통합한 대부분의 연구는 입력을 Query, Key, Value 행렬로 매핑하기 위해 1×1×1 컨볼루션을 사용했습니다[23], [27]. 그러나 May-Thurner 증후군 진단의 임상 과정을 참고하여, 제안된 자가 주의 블록(Fig. 2 참조)은 Query, Key, Value 행렬을 생성하기 위한 다른 구성을 채택했습니다. 이 구성에서 𝑄 = 𝑊(𝑖)𝑄 ⋅ 𝜑(𝑧), 𝐾 = 𝑊(𝑖)𝐾 ⋅ 𝜏(𝑧), 𝑉 = 𝑊(𝑖)𝑉 ⋅ 𝜌(𝑧)로 표현됩니다. 여기서 𝑊𝑄, 𝑊𝐾, 𝑊𝑉는 입력을 Query (𝑄), Key (𝐾), Value (𝑉)로 변환하는 각각의 가중치 행렬입니다. 𝜑(𝑧), 𝜏(𝑧), 𝜌(𝑧)는 𝑅𝑙×𝑐×(ℎ∗𝑤) 공간에서 평탄화된 중간 표현을 나타냅니다.

 

또한, 우리는 위치 임베딩의 역할을 크게 확대하여 자가 주의 가중치의 계산과 잔여 연결에서 이 블록의 출력까지 적용합니다. 구체적으로, 멀티헤드 자가 주의의 전략적으로 정제된 구성은 다음과 같이 설명됩니다:

  • 𝜑(⋅)는 프레임, 높이, 너비 각각에 대해 1×3×3 커널 크기를 갖는 3D 컨볼루션 연산입니다. 𝜏(⋅)는 3 × 1 × 1 컨볼루션입니다. 𝜌(⋅)는 3×1×1 컨볼루션 이후 1×3×3 컨볼루션을 따르는 (1+2)D 설정을 사용합니다. 이 설계는 의료 전문가가 CT 스캔 비디오를 빠르게 훑어보며 주요 프레임(Query)을 선택하고, 그런 다음 이 주요 프레임을 더 면밀히 조사하며(Key), 각 프레임의 순서와 내용을 바탕으로 3차원 공간에서 인체 조직의 위치와 관계를 추측(Value)하는 진단 과정을 모방한 것입니다.
  • 상대적 위치 정보를 최대한 활용하기 위해, 우리는 자가 주의의 인기 있는 기법들[18], [19], [21], [28]에서 사용하는 방식처럼 상대적 위치 임베딩을 출력에 추가했습니다. 또한, 우리는 상대적 위치 임베딩을 자가 주의 가중치 계산 과정에 융합하는 것도 고려했습니다[23], [29].

상대적 위치 인코딩
상대적 위치는 높이, 너비, 시간 프레임의 세 가지 차원에 걸쳐 인코딩됩니다. 𝐸𝐻 ∈ ℝ𝐶×1×𝐻×1, 𝐸𝑊 ∈ ℝ𝐶×1×1×𝑊, 𝐸𝐹 ∈ ℝ𝐶×𝐿×1×1은 각각 높이, 너비, 프레임 위치 인코딩을 나타냅니다. 전체 상대적 위치 인코딩 𝐸는 다음과 같이 계산됩니다:

𝐸 = 𝐸𝐻 + 𝐸𝑊 + 𝐸𝐹 ,

여기서 𝐸 ∈ ℝ𝐶×𝐿×𝐻×𝑊는 각 차원에서의 영향을 결합한 결과를 나타냅니다.

 

멀티헤드 주의 변환
인코딩된 텐서 𝐸는 멀티헤드 주의를 용이하게 하기 위해 재구성되며, 새 텐서 𝑀은 (𝐹, 𝐻×𝑊, 𝐶/𝑛ℎ𝑒𝑎𝑑)의 형태를 가지게 됩니다. 여기서 𝐹, 𝐻, 𝑊, 𝑛ℎ𝑒𝑎𝑑는 각각 프레임 수, 높이, 너비, 주의 헤드 수를 나타냅니다.

 

멀티헤드 자가 주의
각 헤드에 대한 자가 주의 메커니즘은 다음과 같이 계산됩니다. 𝑄𝑖, 𝐾𝑗, 𝑉𝑗는 각각 쿼리, 키, 값 벡터를 나타냅니다. 각 쿼리 𝑄𝑖와 키 𝐾𝑗 간의 주의 점수 𝑒𝑖𝑗는 상대적 위치 행렬 𝑀𝑗로 수정되어 다음과 같이 계산됩니다:

여기서 𝑑는 일반적으로 키 벡터의 차원을 나타내는 스케일링 계수입니다. 주의 가중치 𝑎𝑖𝑗는 소프트맥스 함수를 사용하여 얻어집니다:

이후, 각 쿼리 𝑌𝑖에 대한 출력 벡터는 계산된 주의 가중치로 가중치가 부여된 모든 값 𝑉𝑗를 집계하여 도출됩니다:

여기서 𝑁은 키와 값의 총 수를 나타냅니다.

출력 재구성 및 최종 조정
결과적으로 얻은 주의 출력은 원래 차원으로 다시 재구성되며, 원래의 위치 인코딩과 결합됩니다:
𝑜𝑢𝑡𝑝𝑢𝑡 = 𝑌 + 𝐸
여기서 𝑌 ∈ ℝ𝐶×𝐹×𝐻×𝑊는 주의 메커니즘의 출력을 나타내며, 덧셈 연산을 통해 학습된 주의가 원래의 상대적 위치 인코딩과 통합됩니다.

 

C. 모델 변형
DEP-MHSA의 효과가 단순히 매개변수 크기의 증가 때문이 아니라 의학적으로 영감을 받은 논리에 기인한 것인지 확인하기 위해, 우리는 Query, Key, Value 행렬을 생성하는 순서를 다르게 설정한 변형 모델들의 성능을 평가했습니다(Fig. 2 참조). 우리는 DEP-MHSA-B, DEP-MHSA-C, DEP-MHSA-D라는 변형들을 엄격하게 테스트했습니다. 구체적으로, DEP-MHSA-B는 Query와 Key를 생성하는 컨볼루션 설정을 교차시키고, Value 생성 시의 컨볼루션 순서를 반대로 변경합니다. DEP-MHSA-C는 Value 생성 시의 컨볼루션 순서만을 반대로 바꿉니다. DEP-MHSA-D는 Query와 Key 사이의 컨볼루션 설정만을 교환합니다.

 

그림 2: 듀얼 강화 위치 멀티헤드 자가 주의(DEP-MHSA) 모듈의 상세한 도식적 표현입니다. 노란색 점선으로 강조된 영역은 입력 𝑥가 자가 주의 계산을 위해 Query(𝑄), Key(𝐾), Value(𝑉) 행렬로 매핑되는 중요한 구성 요소를 나타냅니다. 이 모듈은 네 가지 변형이 있을 수 있습니다. 기호 𝐸𝐿, 𝐸𝐻, 𝐸𝑊는 각각 프레임, 높이, 너비에 해당하는 상대적 위치 임베딩을 나타냅니다. 첫 번째 상대적 위치 임베딩 세트는 𝑄𝐾𝑇 계산에 참여하며, 두 번째 상대적 위치 임베딩 세트는 잔여 연결(residual connection)로 작동합니다.

 

IV. 실험
A. 데이터셋과 평가 기준
a) MTS-CT 데이터셋: 자체적으로 수집한 이 데이터셋은 May-Thurner 증후군 진단을 위한 747명의 피험자로 구성되어 있습니다. 각 피험자는 10~12개의 프레임을 포함하고 있습니다. 특히, 366명의 피험자는 CT 스캔 이미지와 이에 대응하는 Enhanced-CT 스캔 이미지를 모두 가지고 있습니다. MTS-CT는 성별이 균형 잡힌 데이터셋으로, 396명의 남성과 351명의 여성을 포함하며, 평균 환자 연령은 62.4세입니다. CT 스캔 이미지는 CT 전문 방사선 기술자들에 의해 획득되었습니다. CT 스캔 데이터 수집에 사용된 장비는 United Imaging uCT 960+입니다. 데이터는 전문가에 의해 평가되었으며, 협착의 정도에 따라 두 개의 그룹으로 분류되었습니다: 경도에서 중등도, 중등도에서 중증으로 구분되었습니다. 협착의 중증도 진단은 CT로 측정된 협착률에 기반합니다. 구체적으로, 우리는 가장 좁은 정맥 구간의 직경을 정상 혈관 구간의 직경과 비교하여 협착률을 계산했으며, 50% 이상의 협착률을 기준으로 삼았습니다. 협착률이 50% 이하일 경우 경도에서 중등도(음성으로 분류), 50%를 초과할 경우 중등도에서 중증(양성으로 분류)으로 정의됩니다. 그림 3과 그림 4는 각각 데이터셋에서 음성 샘플과 양성 샘플을 보여줍니다.

 

그림 3: 그림 A: 녹색 표시는 하대정맥의 분지로, 좌우 총장골정맥으로 나뉩니다. 그림 B-D: 녹색 표시는 좌측 총장골정맥을 나타내며, 이는 주변의 우측 총장골동맥과 제5 요추 사이에 위치하며, 명백한 압박 협착이 없습니다.

 

그림 4: 그림 A-B: 녹색 표시는 하대정맥의 분지를 나타내며, 좌측 총장골정맥이 우측 총장골동맥과 제5 요추에 의해 상당히 압박된 모습입니다. 그림 C-D: 좌측 총장골정맥이 상당히 압박되어 있으며, 추정된 협착률이 80% 이상입니다.

 

전처리
각 CT 스캔 이미지는 원래 512×512 픽셀 해상도의 DICOM 형식으로 저장됩니다. 환자 정보를 보호하기 위해 규정에 따라 환자 고유 정보를 익명화하고 식별 불가능하게 처리합니다. 각 이미지는 그레이스케일 매핑 함수(일명 윈도우 함수)를 사용해 변환되며, 이 함수의 윈도우 중심은 50, 폭은 200입니다. 이 변환은 헨스필드 단위(HU)를 0에서 255 사이의 표준화된 픽셀 값으로 매핑합니다. 의료 전문가들이 MTS를 진단할 때 주로 CT 스캔의 중앙 영역에 있는 요추, 인접 동맥 및 정맥에 집중하므로, 우리는 그림 5에 설명된 대로 이미지에 중앙 크롭(center crop)을 적용합니다.

 

평가 지표
이 연구에서는 제안된 방법을 평가하기 위해 다음 지표들을 사용합니다. 구체적으로, 다양한 설정에서 3D CT 스캔의 MTS 분류에 대해 정확도(Accuracy), F1-Score, 그리고 곡선 아래 영역(AUC)을 활용합니다.

 

B. 구현 세부 사항
우리는 100명의 피험자를 테스트 세트로 선택했으며, 양성-음성 비율을 50:50으로 균형 있게 유지했습니다. 나머지 데이터는 다양한 작업을 위한 학습 및 검증 세트로 사용되었습니다. DEP-MHSA 주의 메커니즘을 네트워크에 통합할 때, 이는 마지막 두 계층(즉, Layer 3 및 Layer 4)에만 적용되었습니다. 이 구현은 네트워크의 특징 추출 능력을 증대시키면서도 계산 효율성을 유지하는 균형을 고려하여 선택되었습니다. MTS-Net은 PyTorch로 구현되었으며, NVIDIA RTX 4090 24GB GPU에서 미니배치 크기 32로 학습되었습니다. 초기 학습률은 5 × 10⁻⁴로 설정되었으며, 25번째 에포크마다 𝑔 = 0.2 배수로 감소하였고, 100 에포크 동안 수렴될 때까지 진행되었습니다. 각 구성은 10번 실행되었으며, 테스트 세트에 대한 결과는 세 가지 평가 지표의 평균 및 표준 편차로 보고되었습니다.

 

우리는 ResNet-18의 3D 및 (2+1)D 컨볼루션 구조를 사용한 아키텍처 프레임워크를 기본 모델로 설정했으며, 차이는 다음과 같이 요약됩니다.

 

ResNet-18 (2+1)D
이 설계는 3D 컨볼루션을 별도의 공간 및 시간 요소로 분해하며, 이는 III-A 절에서 자세히 설명되었습니다. 스템 계층에서는 공간 컨볼루션이 1 × 7 × 7 커널을 사용하고, 시간 컨볼루션은 3 × 1 × 1 커널을 사용합니다. 나머지 네트워크 계층에서는 커널 크기가 공간 컨볼루션의 경우 1 × 3 × 3, 시간 컨볼루션의 경우 3 × 1 × 1로 조정됩니다. Layer 3 및 Layer 4의 주의 모듈에서 명시된 경우를 제외하고 적용됩니다.

 

ResNet-18 (3D)
이 설계의 스템 계층에서는 Conv-BN-ReLU 순서에서 3 × 7 × 7 크기의 컨볼루션 커널을 사용합니다. 네트워크 전체에 걸친 후속 컨볼루션은 Layer 3 및 Layer 4의 주의 모듈에서 명시된 경우를 제외하고 일관되게 3×3×3 커널을 적용합니다.

DEP-MHSA 모듈 외에도 비교 목적으로 다른 주의 메커니즘을 Table I에서 구현했습니다. 특별히 언급된 경우를 제외하고, 이러한 자가 주의 모듈의 모든 컨볼루션 커널은 1 × 1 × 1 구성을 따릅니다. 다양한 주의 메커니즘 및 3D 컨볼루션과 관련된 구성은 IV-B 절에 명시되어 있습니다.

 

3D 자가 주의(Self-Attention)
이 메커니즘은 [23], [29]에서 설명된 멀티헤드 자가 주의(MHSA) 방법과 유사하게 구현되었습니다. 이 방법은 3D 상대적 위치 인코딩을 Key 행렬에 통합합니다. 멀티헤드 아키텍처에서 중간 표현의 채널은 헤드 수에 따라 분할되며, ℝ𝐿×𝐶×𝐻×𝑊의 마지막 두 차원은 평탄화되어 Query, Key, Value 행렬을 생성합니다.

 

(2+1)D 자가 주의(Self-Attention)
이 두 단계 메커니즘은 [22], [27]에서 설명된 접근 방식과 일치합니다. 먼저 𝐻 × 𝑊 공간 차원에 MHSA를 적용한 다음, 시간적(프레임) 차원에 적용합니다.

 

채널 단위 기본 주의(Vanilla Attention)
채널 단위 주의 모듈의 구현은 [30]에서 제시된 설계를 따르며, Conv-ReLU-Conv-𝜎(𝑥) 순서를 사용하여 주의 가중치를 도출합니다. 이 순서에서 첫 번째 Conv는 1 × 3 × 3 커널 크기를 가지며, 두 번째 Conv는 3 × 1 × 1 커널 크기를 사용합니다. 𝜎(𝑥)는 출력 값을 (0, 1) 범위로 매핑하는 시그모이드 함수입니다. 출력은 채널 전체에 걸쳐 적응형 평균 풀링(adaptive average pooling)을 거친 후, 입력 𝑥와 채널 단위로 곱해집니다.

 

(2+1)D 기본 주의(Vanilla Attention)
이 모듈의 설계는 채널 단위 주의 프레임워크와 유사합니다. 차이점은 두 개의 Conv-ReLU-Conv-𝜎(𝑥) 순서로 구성되어 있다는 점입니다. 첫 번째 순서에서는 모든 컨볼루션 연산이 1 × 3 × 3 커널을 사용하여 𝐻 × 𝑊 공간 차원에 초점을 맞춥니다. 반면, 두 번째 순서에서는 3 × 1 × 1 커널을 사용하여 시간적 특징에 집중합니다.

 

C. 최첨단(State-of-the-Art) 방법과의 비교

a) 기준 모델(Baselines):
이 연구에서는 3D CT 스캔을 사용한 May-Thurner 증후군(MTS) 분류를 위해 다양한 모델을 활용하여 포괄적인 벤치마킹을 수행했습니다. 여기에는 고전적 및 최신 딥러닝 접근 방식을 모두 포함합니다. 데이터셋 크기를 고려하여, 기본 모델로 vanilla 3D ResNet-18 [31], [32]을 설정했습니다. 또한, 더 큰 모델을 사용하거나 사전 학습된 모델로 미세 조정하는 방법이 성능에 미치는 영향을 분석했습니다 [33]. 이 외에도, (2+1)D 컨볼루션을 사용하는 모델 [11]과 주의 메커니즘을 장착한 모델과의 비교 실험을 수행했습니다. 구체적으로, 우리는 멀티헤드 자가 주의 [23], 시공간 주의, 채널 단위 주의 [34]와 같은 다양한 주의 메커니즘을 탐구했습니다. 3D 자가 주의는 [23]에서, (2+1)D 자가 주의는 [27]에서 구현된 방식을 채택했습니다. DenseNet-BC(𝑘 = 32, depth = 201)에 대해서는 [35], [36]에서 구현된 방식을 사용했습니다. 모든 모델은 일관된 설정 하에 학습되었습니다.

 

b) 인간 전문가:
우리는 약 10년 경력의 방사선과 전문의 5명을 참여시켜 100명의 환자에 대한 CT 이미지를 해석하게 했습니다. 이들은 평균 78.4%의 진단 정확도를 달성했습니다. F1-Score는 보고되지 않았으며, AUC 점수는 이 경우 적용되지 않았습니다.

 

그림 5: 첫 번째 행은 중앙 크롭(center cropped) 이전의 경도에서 중등도로 라벨링된 피험자의 CT 스캔 하위 집합입니다. 두 번째 행은 중앙 크롭 후의 관련 이미지입니다.

 

평가 및 분석:
표 I은 (a) 제안된 방법인 MTS-Net과 (b) 기준 방법인 ResNet-18 (2+1)D [11], ResNet-18 (3D) [11] 간의 정량적 비교를 보여줍니다. 우리는 주의 메커니즘 없이도 ResNet-18 (2+1)D의 시공간 구조가 ResNet-18 (3D)보다 더 나은 성능을 보인다는 사실을 발견했습니다. 또한, 우리의 기준 분석에 따르면 신경망에 주의 모듈을 통합하는 것이 항상 성능 향상을 보장하지는 않는다는 것을 알 수 있었습니다.

 

우리 연구에서 가장 최적의 결과는 제안된 방법을 구현했을 때 달성되었습니다. ResNet-18의 시공간 아키텍처를 활용한 듀얼 강화 위치 멀티헤드 자가 주의(DEP-MHSA) 메커니즘은 모든 지표에서 가장 높은 평균 점수를 기록했습니다. 또한, ResNet-50, ResNeXt-50 [37], DenseNet-BC [35]와 같은 더 큰 용량을 가진 모델을 처음부터 학습시키는 것은 성능 향상을 보장하지 못했습니다. 그러나 사전 학습된 ResNet-50 [33]을 사용하여 미세 조정(fine-tuning)하는 것이 더 나은 결과를 얻을 수 있었습니다.

 

결론적으로, ResNet-18과 유사한 깊이(depth)를 가진 모델들은 MTS-CT 데이터셋의 범위와 규모에 충분한 성능을 발휘했습니다. 이는 더 많은 레이어를 가진 모델들이 이 특정 문맥에서 반드시 더 나은 성능을 제공하지는 않을 수 있음을 시사합니다.

 

TABLE I: MTS-CT 데이터셋에서 제안된 방법의 평가

 

D. 절제 연구(Ablation Study)
우리는 DEP-MHSA 모듈과 관련하여 MTS-Net의 효과를 이해하기 위해 절제 연구를 수행했습니다. 표 II는 𝑄, 𝐾, 𝑉 행렬을 생성하기 위해 신중하게 선택된 전략과 자가 주의에서 듀얼 강화 위치 임베딩을 사용하여 위치 정보를 강화하는 DEP-MHSA 모듈이 성능을 향상시켰음을 강조합니다. 사용된 백본 네트워크는 ResNet-18 (2+1)D이며, 주의 모듈과 위치 임베딩에서 변형이 이루어졌습니다. MHSA(3D)는 [23]에서 언급된 멀티헤드 자가 주의 모듈을 나타내며, MHSA(2+1)D는 𝑄, 𝐾, 𝑉를 생성하는 제안된 방법을 사용하는 자가 주의 모듈을 의미합니다. DEP-Embedding은 주의 블록 내에서 듀얼 강화 위치 임베딩을 나타냅니다.

 

또한, 표 III는 𝑄, 𝐾, 𝑉 행렬을 생성하기 위한 다양한 구성의 효과를 검증하는 또 다른 절제 연구를 보여줍니다. 이 구성에는 DEP-MHSA, DEP-MHSA-B, DEP-MHSA-C, DEP-MHSA-D가 포함됩니다. 우리의 제안된 DEP-MHSA는 다른 구성들보다 일관되게 우수한 성능을 보였으며, 이는 의료 전문가의 진단 논리를 반영한 신중하게 설계된 구조의 우월성을 강조합니다.

 

TABLE II: DEP-MHSA의 제안된 구성 요소에 대해 수행된 절제 연구 결과.

 

TABLE III: 자가 주의 모듈의 행렬을 생성하는 네 가지 구성 비교.

 

TABLE IV: 동일한 학습 설정에서 CT 비디오와 Enhanced-CT 비디오 간의 성능 비교.

 

V. 논의

CT 대 Enhanced-CT
우리 연구는 May-Thurner 증후군 분류에 초점을 맞추고 있으며, 3D CT 스캔을 사용하여 우수한 성능을 보여주는 새로운 자가 주의 모듈을 제안했습니다. 이 섹션에서는 제안된 방법을 통해 CT 스캔과 Enhanced-CT 스캔 간의 성능 비교를 추가로 수행합니다. Enhanced-CT 기술은 May-Thurner 증후군 진단의 정확도를 향상시키는 데 도움이 되는 것으로 알려져 있습니다. 따라서 딥러닝 접근 방식도 Enhanced-CT 기술로부터 유사한 이점을 얻을 수 있는지 여부를 확인하기 위한 심층 분석을 수행했습니다. TABLE IV에 따르면, 학습 세트와 검증 세트는 총 263개로, TABLE I, TABLE II, TABLE III에서 CT 스캔만으로 수행된 실험에 비해 훨씬 적은 데이터셋 크기를 가지고 있습니다. 이 제한된 학습 데이터셋에서는 두 데이터 유형 간에 상당한 성능 차이가 관찰되었으며, 이는 Enhanced-CT 스캔이 적은 학습 샘플로도 더 나은 진단 성능을 가능하게 함을 시사합니다.

 

데이터셋 크기
이 연구에서 사용된 데이터셋은 피험자당 프레임 수는 적지만, 다른 인기 있는 CT 스캔 이미지 데이터셋 [38]–[41]과 비교했을 때 상대적으로 많은 피험자 수(747명)를 포함하고 있습니다. 우리의 지식에 따르면, 이는 May-Thurner 증후군을 위한 최초의 공개 CT 스캔 데이터셋입니다. 이는 인구의 약 20%가 이 해부학적 변이를 가질 가능성이 있다는 사실에 의해 그 중요성이 강조되며 [2], [42], [43], 향후 연구의 기초를 마련합니다.

 

파라미터 크기
TABLE II는 MHSA(2+1)D 접근 방식이 모델의 파라미터 수를 크게 증가시키며, 표준 ResNet-18(2+1)D보다 거의 두 배로 늘어난다는 것을 보여줍니다. DEP-Embedding 유무에 따른 성능 변동은 𝑄, 𝐾, 𝑉 행렬을 생성하는 다양한 전략으로 인해 상대적 위치 정보가 깨진 것에 기인합니다. 이러한 전략은 모델의 중간 표현을 풍부하게 하지만, 후속 계산에서 차원 간 정렬을 복잡하게 만듭니다. 반면, 𝑄, 𝐾, 𝑉를 생성하는 일관된 접근 방식은 이 중요한 정렬을 유지합니다. 따라서 듀얼 강화 위치 임베딩을 도입함으로써 손실된 상대적 위치 정보를 복구하고, MHSA(2+1)D 모듈에서 성능을 향상시키는 것이 필요합니다.

 

그림 6: 이 그림은 CT와 Enhanced-CT 스캔 이미지를 비교하여 보여줍니다. 짝수 행은 Enhanced-CT 스캔을, 홀수 행은 CT 스캔을 나타냅니다. Enhanced-CT 이미지는 CT 이미지에 비해 더 많은 강조된 영역이 뚜렷하게 나타납니다. 각 연속된 행의 쌍은 위에서 아래로 동일한 피험자의 CT와 Enhanced-CT 스캔을 나타냅니다. 첫 번째 두 명의 피험자(1행에서 4행까지)는 음성으로 라벨링되었고, 5행에서 8행까지의 피험자는 양성으로 라벨링되었습니다.

 

VI. 결론
이 논문에서는 3D CT 스캔을 사용하여 May-Thurner 증후군을 분류하는 새로운 프레임워크인 MTS-Net을 소개했습니다. MTS-Net은 듀얼 강화 위치 임베딩을 통해 MTS를 진단하는 임상 과정을 모방한 새로운 멀티헤드 자가 주의 모듈 DEP-MHSA를 통합합니다. 또한, 제안된 방법의 효과를 검증하기 위해 최초의 공개 MTS-CT 데이터셋을 제시했습니다. 광범위한 실험 결과, MTS-Net은 기존의 최첨단 및 기준 방법들을 크게 능가하는 성능을 보여주었습니다.