오늘날의 데이터는 ‘디지털 국부(國富)’다.”
새 정부는 ‘소버린 AI’ 구현을 위해 대규모 예산을 투입하며 국내 AI 연구 개발과 인프라 확충에 속도를 내고 있다. 한국형 소버린 AI는 대한민국이 디지털 주권을 확립하는 첫걸음으로 평가된다. 그러나 문제는 소버린 AI의 핵심 기반인 데이터베이스 인프라가 여전히 외산 기술에 지나치게 의존하고 있다는 점이다.
2025년 행정안전부의 ‘행정 및 공공기관 정보자원 통계’에 따르면, 공공 데이터베이스관리시스템(DBMS) 시장에서 오라클·마이크로소프트 등 외산 DBMS의 점유율은 80.34%다. 작년 82.64%와 비교하면 국산 DBMS의 도입률이 소폭 증가하였으나, 여전히 외산 DBMS가 시장을 절대적으로 차지하고 있어 국산 DBMS 확산은 제자리걸음 수준에 머물고 있다.
이러한 수치는 국내 데이터베이스 기술 생태계가 구조적으로 밀려난 현실을 보여준다. 더 나아가, 데이터가 외산 플랫폼에 저장되는 순간부터 이미 데이터 주권의 통제력을 잃기 시작한다는 점에서, 기술 종속은 곧 주권 종속으로 이어질 수 있음을 시사한다. 데이터 주권 상실은 단순히 기술 문제가 아니라 금융 안정성, 국가 안보, 산업 경쟁력의 근간을 동시에 흔드는 국가적 위기다.
이제는 소버린 AI와 데이터 저장소 간의 관계를 다시 생각해봐야 할 시점이다. AI의 핵심 원료인 데이터를 해외 서버와 외산 플랫폼에 의존하는 순간, 대한민국은 데이터 주권을 상실하게 된다. 자국민 정보를 자유롭게 통제·관리할 권한이 해외 법령에 종속되고, 긴급 대응이 필요한 순간에도 필요한 데이터에 즉시 접근할 수 없게 된다.
데이터 주권을 우선시한 해외의 인프라 전략
사례 1) 해외에서는 이미 유사한 위기 극복을 위해 주권형 인프라 모델을 실현한 사례가 있다. 대표적으로 OVHcloud–Crayon 연합은 2025년 초 프랑스 OVHcloud와 노르웨이 Crayon이 손잡고, 순수 유럽산 하드웨어·소프트웨어로만 구성된 데이터센터 네트워크를 45개 지역에 구축했다. 이 인프라는 GDPR·NIS2(*) 등 EU의 정보 보호 규정을 완벽히 준수하며 민감 데이터를 지역 내에 묶어둠으로써 금융·헬스케어·공공 분야에서 안전하게 데이터를 활용할 수 있도록 한다. 동시에 운영 비용을 최적화하면서도 고성능 AI 워크로드를 안정적으로 운용할 수 있게 설계되었다.
사례 2) 유럽연합은 일찍이 데이터 주권 확보를 위해 2020년부터 ‘가이아-X’ 프로젝트를 추진했다. 이는 글로벌 데이터 플랫폼 기업에 대한 의존성을 축소하고, 자체 데이터 인프라를 구축하여 자국민의 데이터를 보호하고 산업적 활용을 극대화하기 위한 것이다. 유럽은 AI의 성능이 아닌 데이터의 통제권에서부터 출발해 AI 인프라를 설계했다는 점에서, 대한민국에 중요한 시사점을 던진다.
이외에도 미국은 CLOUD Act를 통해 해외에 저장된 자국민 데이터까지 관할권을 주장하며 ‘데이터 주권’을 전략적으로 활용하고 있고, 중국 역시 데이터 보안법을 통해 데이터의 국외 이전을 엄격히 통제하고 있다. 주요 선진국은 모두 ‘데이터 주권’을 국가 안보와 직결된 전략 자산으로 다루고 있다.
벤더 록인: 한국형 소버린 AI를 가로막는 가장 큰 장애물
데이터 주권 확보를 가로막는 가장 치명적인 요소는 바로 ‘벤더 록인(Vendor Lock-In)’이다. 이는 국내 소프트웨어 시장이 이미 겪고 있는 고질적인 문제다. 운영체제에서부터 오피스, ERP, DBMS에 이르기까지 주요 소프트웨어들이 외산 솔루션에 종속되며 우리 기술 생태계의 자립과 성장을 어렵게 하는 가장 큰 원인으로 자리 잡고 있다.
이들의 폐쇄적인 라이선스 모델은 ‘사실상의 표준’과 다름없이 고객을 묶어두며, 뒤늦게 바꾸는 것은 현실적으로 쉽지 않다. AI 시대에도 동일한 실수를 반복한다면, 이는 곧 디지털 국부인 데이터의 자율권과 주권을 스스로 포기하는 것이며, 결국 국내 소프트웨어 시장에서 되풀이된 ‘외산 잠식’의 전철을 다시 밟게 될 뿐이다.
외산 플랫폼 위 AI의 한계: 한국형 AI가 사라진다
외산 플랫폼 위에서 운영되는 AI는 ‘진정한 한국형 AI’로 발전하기 어렵다. 해외 벤더의 표준 구조에 맞춰진 데이터는 한국어의 미묘한 뉘앙스나 국내 산업·문화적 특성을 반영한 전처리와 튜닝을 사실상 불가능하게 만든다.
예를 들어, 한국어 고유의 형태소 결합이나 조사 처리, 규칙 반영은 해외 벤더 구조에서 제대로 구현되지 못한다. 이는 한국어 처리 시 비용 증가와 처리 속도 저하라는 불이익으로 이어진다. 또한 산업별 용어 역시 국내에서 사용되는 도메인별 전문 어휘 학습이 어렵기 때문에 정교한 모델 학습과 예측도 불가능하다.
게다가 외산 서비스로 수집된 실사용 피드백은 국내 시스템에 즉시 반영되지 않아 실시간성이 사라지고, 한국 시장에 최적화된 모델 개선 주기가 크게 지연된다. 결국 언어·문화적 적합성과 산업별 맞춤화라는 ‘한국형 AI’의 본질이 사라질 위험에 직면하게 된다.
해법은 국산 데이터 인프라와 소프트웨어
이러한 위기를 근본적으로 해결하려면, 물리적·법적 제어가 가능한 국내 데이터센터와 국산 데이터베이스 소프트웨어 도입이 필수적이다. 국산 DBMS는 국내 법제도에 최적화된 암호화·접근 제어·백업 복구 기능을 제공하며, 국가 보안 인증을 기반으로 한 안정성을 갖추고 있다. 무엇보다 벤더 록인 없이 자유로운 기술 전환을 보장해, 비상 상황에도 데이터를 온전히 통제할 수 있다.
또한 국산 데이터베이스와 데이터 파이프라인을 활용하면, 한국어와 한국 문화에 맞춘 AI 모델 학습 및 서비스 개발이 가능하다. 실시간 피드백 루프를 통해 모델 업데이트 주기를 단축함으로써 시장 변화에 즉각 대응 가능한 AI 운영 체계도 구축할 수 있다. 금융·헬스케어·제조·국방·통신 등 모든 산업 분야에서 데이터 주권 기반의 AI 경쟁력이 확보되는 것이다.
진정한 소버린 AI의 시작은 데이터 주권 확립에서
최근 정부가 발표한 2026년도 행정안전부·과학기술정보통신부 예산안에 따르면, 과기정통부의 총 23조 7천억 원 규모 예산 중 5조 1천억 원이 AI 분야에 집중 배정되었다. AI 기술 발전을 위한 투자가 확대되는 것은 긍정적인 흐름이지만, 이를 안정적으로 뒷받침할 데이터 관리, 보안 체계 확립, 소프트웨어 및 클라우드 인프라에 대한 투자는 여전히 부족하다. AI 서비스 확산으로 데이터 저장·처리·보안 관리 부담이 급증할 것으로 예상됨에도 불구하고, 이에 대한 대비가 미흡하다는 평가가 나온다. 결국 정부의 ‘소버린 AI’ 정책은 GPU와 데이터센터 등 하드웨어 인프라 중심에 머물러 있으며, 국산 소프트웨어 생태계에 AI 기술을 내재화하려는 논의는 아직 충분히 이루어지지 않고 있다.
이제 대한민국이 나아가야 할 방향은 분명하다. 디지털 국부라 불리는 ‘데이터’의 주권이 바로 출발점이며, 진정한 소버린 AI는 국내 기술이 데이터 레이어의 중심에 설 때 비로소 가능하다. 데이터 저장소가 외산일 경우 데이터 유출 및 관리 리스크가 커지는 만큼, 결국 반쪽짜리 소버린 AI만을 얻을 뿐이다.
데이터 주권 없는 소버린 AI는 존재할 수 없다. 지금이야말로 특정 외산 벤더 종속의 악순환을 끊고, 기술 주권을 전제로 한 AI 인프라 및 소프트웨어 전략을 새롭게 수립할 마지막 기회다.
– 티맥스티베로 안서현 팀장
(*) GDPR(General Data Protection Regulation) – 유럽연합(EU)에서 2018년 발효된 개인정보보호법
(*) NIS2(Directive (EU) 2022/2555 on Network and Information Systems Security) – 2024년 10월 17일 EU 회원국에서 시행된 사이버보안 지침