MambaStock: Selective state space model for stock prediction

회사 프로젝트가 바빠서 너무 못했다. 이제 나왔으니, 다시 인공지능을 해야지

The stock market plays a pivotal role in economic development, yet its intricate volatility poses challenges for investors. Consequently, research and accurate predictions of stock price movements are crucial for mitigating risks. Traditional time series m

arxiv.org

초록

주식 시장은 경제 발전에 중요한 역할을 하지만, 그 복잡한 변동성은 투자자들에게 도전 과제를 제기합니다. 따라서 주가 변동에 대한 연구와 정확한 예측은 위험을 완화하는 데 필수적입니다. 전통적인 시계열 모델은 비선형성을 포착하는 데 한계가 있어 주식 예측에서 만족스러운 결과를 내지 못합니다. 이러한 한계로 인해 신경망이 강력한 비선형 일반화 능력 덕분에 주식 예측에 널리 채택되고 있습니다. 최근에는 선택 메커니즘과 스캔 모듈(S6)을 갖춘 구조화된 상태 공간 시퀀스 모델인 Mamba가 시퀀스 모델링 작업에서 강력한 도구로 부상하였습니다. 이 프레임워크를 활용하여 본 논문에서는 Mamba 기반의 새로운 주가 예측 모델인 MambaStock을 제안합니다. 제안된 MambaStock 모델은 수작업으로 설계된 특성이나 광범위한 전처리 절차 없이도 과거 주식 시장 데이터를 효과적으로 분석하여 미래 주가를 예측합니다. 여러 주식에 대한 실증 연구 결과, MambaStock 모델은 이전 방법보다 뛰어난 성능을 보여 매우 정확한 예측을 제공합니다. 이러한 향상된 정확도는 투자자와 기관이 수익을 극대화하고 위험을 최소화하는 정보에 입각한 결정을 내리는 데 도움을 줄 수 있습니다. 이 연구는 시계열 예측에서 Mamba의 가치를 강조합니다. 소스 코드는 https://github.com/zshicode/MambaStock에서 확인할 수 있습니다.

키워드: Mamba, 구조화된 상태 공간 모델, 선택적 상태 공간 모델, 시퀀스 모델링, 주식 예측

서론

주식 시장은 경제 발전에서 중요한 역할을 합니다. 높은 수익 특성 때문에 주식 시장은 기관과 투자자들로부터 점점 더 많은 관심을 받고 있습니다. 그러나 주식 시장의 복잡한 변동성으로 인해 때때로 기관이나 투자자에게 큰 손실을 가져올 수 있습니다. 주식 시장의 위험을 고려할 때, 주가 변동에 대한 연구와 예측은 투자자의 위험을 피할 수 있습니다.

전통적인 시계열 모델인 ARIMA(자기회귀 통합 이동평균 모델)는 비선형 시계열을 설명할 수 없으며, 모델링 전에 많은 전제 조건을 만족해야 하고, 주식 예측에서 뛰어난 결과를 얻지 못합니다. 최근 몇 년간 인공지능 이론과 기술의 급속한 발전으로 인해 점점 더 많은 연구자들이 금융 시장에 인공지능 방법을 적용하고 있습니다. 한편, 자연어 시퀀스, 단백질 시퀀스, 주가 시퀀스 등에 중점을 둔 시퀀스 모델링 문제는 인공지능 연구 분야에서 중요합니다 [16, 8]. 가장 대표적인 인공지능 방법은 강력한 비선형 일반화 능력을 가진 신경망입니다.

순환 신경망(RNN)은 신경망 구조를 통해 순차 데이터를 분석하는 데 채택되었으며, 장단기 기억(Long Short-Term Memory, LSTM) 모델이 가장 일반적으로 사용되는 RNN입니다. LSTM은 RNN에 게이트 메커니즘을 도입하여, 인간의 기억을 시뮬레이션한 것으로 볼 수 있으며, 인간이 유용한 정보를 기억하고 불필요한 정보를 잊는 것과 유사합니다 [6, 5]. 어텐션 메커니즘 [18]은 인간의 주의를 시뮬레이션한 것으로 볼 수 있으며, 인간이 유용한 정보에 집중하고 불필요한 정보를 무시하는 것과 유사합니다. 어텐션 기반 합성곱 신경망(ACNN)은 시퀀스 모델링 [4, 11]과 복잡한 의존성 포착 [7, 15]에 널리 사용됩니다. 어텐션 기반 합성곱 신경망과 장단기 기억을 결합한 것은 순차 데이터를 인코딩하고 디코딩하는 자기-어텐션 기반 시퀀스-투-시퀀스(seq2seq) [17] 모델입니다. 이 모델은 LSTM의 장기 의존성 문제를 해결할 수 있어 긴 시퀀스를 더 잘 모델링할 수 있습니다. LSTM은 LSTM 자체의 구조에 맞는 특정 장거리 상관 관계를 포착할 수 있는 반면, ACNN은 지역적 및 전역적 상관 관계를 모두 포착할 수 있습니다. 따라서 이 아키텍처는 더 유연하고 견고합니다.

트랜스포머(Transformer) [18]는 가장 성공적인 순차 학습 자기-어텐션 기반 모델입니다. 자연어 처리에 대한 실험 결과 트랜스포머가 긴 시퀀스를 더 잘 모델링할 수 있음을 보여줍니다. 사전 학습을 통한 양방향 인코더 표현 트랜스포머(BERT) [2]는 기본 트랜스포머보다 더 나은 성능을 발휘할 수 있습니다. 사전 학습은 트랜스포머의 성능을 크게 향상시키는 방법입니다 (BERT).

위에서 언급한 모델들은 주식 예측에 적용되었습니다. Box와 Jenkins [1]은 시계열 예측을 위해 ARIMA를 채택했습니다. ARIMA-NN [19]은 하이브리드 ARIMA와 신경망 모델을 사용하여 시계열 예측을 개선했습니다. Shi 등 [14]은 주식 예측을 위해 어텐션 기반 CNN-LSTM과 XGBoost 하이브리드 모델을 제안했습니다. 최근에는 신경망이 강화된 상태 공간 칼만 필터 모델이 시계열 예측에 적용되고 있습니다. TL-KF [12]는 주식 예측을 위해 칼만 필터와 LSTM, 트랜스포머를 제안했습니다 [14].

Mamba 모델 [3]은 시퀀스 모델링 분야에서 중요한 발전을 나타냅니다. 이 모델은 선택 메커니즘과 스캔 모듈로 알려진 S6를 갖춘 구조화된 상태 공간 시퀀스 모델(S4)을 통합하여 전통적인 접근 방식을 능가합니다. Mamba 모델은 전통적인 시계열 모델이 역사적으로 어려움을 겪었던 순차 데이터의 비선형 패턴을 포착하는 데 탁월합니다. Mamba의 핵심 강점은 선형 시간 복잡도를 사용하여 시퀀스를 효율적으로 모델링할 수 있는 능력에 있으며, 이는 대규모 데이터셋을 처리하는 데 적합합니다. 혁신적인 선택 메커니즘은 데이터 내의 다양한 패턴과 구조에 동적으로 적응할 수 있게 하여 더 정확한 예측을 가능하게 합니다. 또한, 스캔 모듈은 상태 공간을 스캔하여 예측에 필요한 관련 정보를 식별하는 능력을 향상시킵니다.

그 다재다능성과 적응성 덕분에 Mamba는 다양한 시퀀스 모델링 작업에서 인기 있는 선택이 되었습니다. 그러나 금융 시계열에서의 Mamba 적용은 아직 탐구되지 않았습니다. 따라서 본 논문에서는 Mamba 기반의 주가 예측 모델인 MambaStock을 제안합니다. MambaStock 모델은 주가 예측을 위한 새로운 접근 방식으로, 세심한 특성 공학이나 광범위한 전처리 없이도 과거 주식 시장 데이터를 효과적으로 분석하여 미래 가격을 정확하게 예측합니다. 다양한 주식에 대한 실증 연구는 MambaStock이 전통적인 방법보다 우수한 성능을 보여 정확한 예측을 제공함을 입증하였으며, 이는 투자 결정을 크게 개선할 수 있습니다. 이러한 정밀도는 수익을 극대화하고 위험을 최소화하려는 투자자와 기관에 매우 중요하며, 시계열 예측에서 Mamba의 엄청난 잠재력을 강조합니다. 본 논문의 소스 코드는 https://github.com/zshicode/MambaStock에서 확인할 수 있습니다. 데이터는 Tushare(www.tushare.pro)에서 다운로드되었습니다. Tushare의 주가 데이터는 공개적으로 이용 가능합니다.

II. 재료 및 방법

II-A. 구조화된 상태 공간 시퀀스 모델 (S4)

상태 공간 모델은 미분 방정식(ODE) [9, 13]을 푸는 데서 영감을 받았습니다. 구조화된 상태 공간 시퀀스 모델(S4)은 상태 공간과 구조화된 행렬의 강점을 활용하여 순차 데이터를 효율적이고 효과적으로 처리하기 위해 최근에 제안된 시퀀스 모델링 아키텍처입니다. 이 모델은 전통적인 시퀀스 모델링 접근 방식과 관련된 문제를 해결하기 위해 제어 이론, 신호 처리 및 딥 러닝의 원리를 결합합니다.

S4 모델의 핵심 아이디어는 상태 공간 표현을 사용하여 시퀀스의 기본 동역학을 나타내는 것입니다. 이 표현은 체계적인 상태의 시간에 따른 진화를 포착하여 효율적인 계산과 저장을 가능하게 합니다. 상태 공간은 구조화된 행렬을 사용하여 매개변수화되며, 이는 효율적인 학습과 추론을 가능하게 하기 위해 매개변수에 특정 제약을 부과합니다.

X ∈ ℝ^(B × L × D)라고 할 때, 여기서 B, L, D는 각각 배치 크기, 시간 단계, 차원을 나타냅니다. 각 배치와 각 차원에 대해, x_t, h_t, y_t는 각각 시간 t=1, 2, …, L에서의 입력, 은닉 상태 및 출력을 나타내며, S4 모델은 다음과 같이 표현할 수 있습니다.

이산화(discretization)에 의해, Δ는 샘플 시간을 나타내며,

여기서, A ∈ ℝ^(N × N), B ∈ ℝ^(N × 1), C ∈ ℝ^(1 × N)이며, h_t는 N-차원 벡터, x_t, y_t, Δ는 실수입니다. A가 대각 행렬(diagonal matrix)인 경우, A는 N-차원 벡터로도 저장될 수 있습니다. 따라서 모든 차원을 고려할 때, 데이터 구조는 다음과 같습니다.

A ∈ ℝ^(D × N)
B ∈ ℝ ^( D × N)
C ∈ ℝ ^( D × N)
Δ ∈ ℝ ^( D)

II-B. Mamba

스캔 모듈은 입력 시퀀스의 각 윈도우에 학습 가능한 매개변수 또는 연산 집합을 적용하여 작동합니다. 이러한 매개변수는 일반적으로 학습 중에 학습되며, 합성곱, 순환 연결 또는 다른 유형의 변환을 포함할 수 있습니다. 이 윈도우를 전체 시퀀스에 걸쳐 슬라이딩함으로써, 스캔 모듈은 여러 시간 단계에 걸친 패턴과 의존성을 포착할 수 있습니다.

II-C. MambaStock

MambaStock 모델은 Mamba 프레임워크를 활용하여 과거 시장 데이터를 기반으로 미래 주가 변동률을 예측합니다. 이 모델은 시가, 고가, 저가, 거래량, 거래대금, 회전율, 거래대금 비율, 주가수익비율(PE), 주가순자산비율(PB), 주가매출비율(PS), 발행주식수, 유통주식수, 자유유통주식수, 시가총액, 유통 시가총액 등 다양한 특징을 포함하여 여러 거래일에 걸쳐 사용합니다.

모델은 먼저 과거 데이터를 처리하는 것으로 시작하며, 이는 N=16으로 설정된 Mamba 모델에 입력되어 시간적 의존성을 포착하고 관련 정보를 추출합니다. Mamba 모델은 내부 메커니즘을 통해 입력 데이터 내의 패턴과 관계를 효과적으로 탐색할 수 있습니다.

그 후, Mamba 모델의 출력은 각 미래 날짜에 대한 예측 주가 변동률을 반영하는 1차원 표현으로 축소됩니다. 변동률이 (-1, 1) 구간 내에 있을 것으로 예상되기 때문에, 출력이 이 범위 내에 유지되도록 쌍곡탄젠트(tanh) 활성화 함수가 적용됩니다.

모델을 학습하기 위해 평균 제곱 오차(MSE)를 손실 함수로 선택하였습니다. MSE는 예측된 주가 변동률과 실제 주가 변동률 간의 평균 제곱 차이를 측정하기 때문입니다. 이 손실을 최소화함으로써, 모델은 미래 주가 변동을 예측하는 정확성을 향상시키는 것을 목표로 합니다. MambaStock의 프레임워크는 그림 1에 나타나 있습니다.

그림 1: MambaStock 프레임워크.

실험은 12GB 메모리를 탑재한 NVIDIA GTX3060 GPU에서 수행되었습니다. 모델은 Adam 옵티마이저 [10]를 통해 학습되었으며, 에포크 수는 100이고 학습률은 0.01입니다.

본 논문에서 사용된 데이터는 중국 주식 시장 연구를 위한 Tushare(https://www.tushare.pro/)의 공개적이고 무료인 공공 데이터셋에서 가져왔습니다. 이 데이터셋은 풍부한 데이터, 간편한 사용, 편리한 구현이라는 특징을 가지고 있습니다. API를 호출하여 주식의 기본 시장 데이터를 매우 쉽게 얻을 수 있습니다.

III. 실험

III-A. 예측 성능

본 논문은 중국 주식 시장에서 중국상해은행(600036.SH), 중국농업은행(601288.SH), 교통은행(601328.SH), 중국백화점(601988.SH)의 주가에 대한 실증 연구를 수행하였습니다. 데이터는 Tushare(www.tushare.pro)에서 다운로드하였으며, Tushare의 주가 데이터는 공개적으로 이용 가능합니다. 학습 세트의 크기에 관계없이 테스트 세트의 크기는 300으로 제한되었습니다. ARIMA 모델의 주가 예측 결과는 그림 2부터 그림 5에 제시되어 있습니다. MambaStock의 결과는 미래 주가를 정확하게 예측하는 능력을 보여줍니다. 과거 시장 데이터와 다양한 재무 지표를 활용함으로써, 모델은 예측에서 상당한 정확성을 달성하였습니다. Mamba 프레임워크의 활용은 모델이 시간적 의존성을 포착하고 관련 정보를 효과적으로 추출할 수 있도록 하였습니다.

그림 2: 600036.SH에 대한 예측

그림 3: 601288.SH에 대한 예측

그림 4: 601328.SH에 대한 예측

그림 5: 601988.SH에 대한 예측

III-B. 다른 방법들과의 비교

그 다음으로, 실증 연구에서는 현재의 방법들과의 비교를 수행하였습니다. 비교 대상 방법들은 다음과 같습니다:

KF: 칼만 필터(Kalman Filter), 전통적인 상태 공간 모델.
ARIMA: Box와 Jenkins [1]이 시계열 예측을 위해 ARIMA를 채택하였습니다.
ARIMA-NN [19]: 하이브리드 ARIMA와 신경망 모델을 사용하여 시계열 예측을 개선하였습니다.
XGBoost, 단방향 LSTM, 양방향 LSTM (BiLSTM), 및 트랜스포머(Transformer): 또한 기준선(baseline)으로 채택되었습니다.
TL-KF [12]: 주가 예측을 위해 칼만 필터와 함께 LSTM 및 트랜스포머를 제안하였습니다.
AttCLX [14]: 주가 예측을 위해 어텐션 기반 CNN-LSTM과 XGBoost 하이브리드 모델을 제안하였습니다.

평가 지표는 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), 평균 절대 백분율 오차(MAPE) 및 R^2입니다.

표 I-표 IV은 결과를 보여줍니다. MambaStock은 모든 비교 대상 방법들을 능가하며 더 높은 정확도로 우수한 성능을 입증하였습니다. 첨단 딥러닝이 강화된 상태 공간 모델인 MambaStock은 칼만 필터가 사용하는 전통적인 상태 공간 모델보다 데이터 내의 더 복잡한 패턴과 관계를 포착할 수 있습니다. 반면, ARIMA와 같은 전통적인 시계열 예측 모델은 특정 유형의 시계열 데이터에 대해 효과적일 수 있지만, 주식 시장 데이터에서 종종 발견되는 복잡성과 비선형성을 처리하는 데는 그다지 능숙하지 않을 수 있습니다. 따라서 ARIMA와 신경망을 결합한 하이브리드 모델인 ARIMA-NN 역시 ARIMA 자체의 내재된 가정과 한계로 인해 제한될 수 있습니다. 더욱이, MambaStock은 XGBoost, 단방향 LSTM, 양방향 LSTM(BiLSTM), 그리고 트랜스포머(Transformer)와 같은 다른 기준선 모델들보다도 우수한 성능을 보였습니다. 이는 Mamba 기반의 딥러닝 아키텍처가 이러한 범용 머신러닝 및 딥러닝 시퀀스 모델들보다 데이터에서 더 관련성 높고 정확한 정보를 추출할 수 있음을 시사합니다.

MambaStock은 또한 하이브리드 모델들보다도 뛰어난 성능을 보였습니다. TL-KF 또는 AttCLX와 비교할 때, MambaStock은 데이터 내의 시간적 의존성과 복잡한 패턴을 효과적으로 포착하는 능력을 보여주었습니다. MambaStock의 우수한 성능은 시퀀스 데이터에서 자주 발견되는 복잡성과 비선형성을 포착하도록 특별히 설계된 첨단 딥러닝 아키텍처 덕분입니다. 시간적 의존성을 효과적으로 모델링하고, 관련 정보를 추출하며, 주식 시장 예측의 고유한 도전 과제를 처리하는 능력은 MambaStock을 다른 비교 대상 방법들보다도 차별화시키며, 더 높은 정확도와 우수한 성능을 제공합니다.

표 I: 600036.SH에 대한 결과

표 II: 601288.SH에 대한 결과

표 III: 601328.SH에 대한 결과

표 IV: 601988.SH에 대한 결과

IV. 결론

주식 시장은 금융 및 경제 성장에 중요한 역할을 하지만, 그 복잡한 변동성은 수익을 확보하려는 투자자들에게 상당한 도전 과제를 제시합니다. ARIMA와 같은 전통적인 시계열 모델은 주식 시장 움직임의 비선형적 복잡성을 포착하는 데 종종 어려움을 겪어, 불충분한 예측 결과를 초래합니다. 이러한 한계를 극복하기 위해, 본 논문에서는 선택 메커니즘과 스캔 모듈(S6)을 활용한 구조화된 상태 공간 시퀀스 모델인 Mamba를 기반으로 하는 새로운 모델인 MambaStock을 소개합니다. MambaStock은 복잡한 특성 공학이나 광범위한 전처리 없이도 과거 주식 시장 데이터를 효과적으로 분석하여 미래 주가를 예측합니다. 실증 연구 결과, MambaStock은 이전의 방법들을 능가하며 매우 정확한 예측을 제공하여 투자자와 기관이 수익을 극대화하고 위험을 최소화하는 정보에 입각한 결정을 내리는 데 도움을 줄 수 있음을 입증하였습니다. 본 연구는 특히 주식 시장 예측과 같이 복잡하고 비선형적인 도메인에서 시계열 예측에 있어 Mamba의 중요성을 강조합니다.

'인공지능' 카테고리의 다른 글

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning (3)	2024.11.10
Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT (1)	2024.11.09
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (1)	2024.10.13
VoiceLDM: Text-to-Speech with Environmental Context (2)	2024.09.16
DeepNet: Scaling Transformers to 1,000 Layers (부록 추가 필요) (2)	2024.09.15

JunHan's AI Factory

MambaStock: Selective state space model for stock prediction

'인공지능' 카테고리의 다른 글

티스토리툴바

MambaStock: Selective state space model for stock prediction

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바