데이터 패브릭의 탄생 과정
기업들은 데이터를 활용하기 위해 ‘데이터 웨어하우스(Data Warehouse)’에 데이터를 정제하여 ‘정형 데이터 형태’로 저장하곤 했습니다.
정형 데이터란 미리 정해 놓은 구조와 형식에 맞게 저장한 데이터를 뜻하는데요. 엑셀 시트처럼 행과 열의 각 값에 맞게 데이터를 저장하는 방법입니다. 하지만 영상, 이미지, 음성 등과 같은 형태의 데이터가 있습니다. 이를 비정형 데이터라고 하는데요. 비정형 데이터를 정형 데이터처럼 변경하려면 전처리 과정이 필요합니다. 그러나 매일 쏟아지는 비정형의 데이터들을 일일이 전처리 하여 정형 데이터 방식으로 저장하긴 어렵죠.
그래서 데이터를 가공하지 않고 형태 그대로 중앙 저장소에 저장하기 위해 ‘데이터 레이크(Data Lake)’가 등장합니다. 데이터 레이크는 로우 데이터를 저장하기만 하면 되기 때문에 유연하다는 장점이 있지만 여기서도 문제들이 발생합니다.
△클라우드나 온프레미스에 데이터가 분산된 상태로 저장되기도 하고, △데이터를 중앙 저장소에 저장하다 보니 접근성이 떨어지게 됩니다(사일로 발생). 또한 데이터가 증가함에 따라 △데이터 보호 및 거버넌스 준수에 어려움도 발생하고, △다른 플랫폼으로 데이터를 이동할 때에도 이동 속도가 저하되면서 효율성이 떨어지게 되죠.
그래서 이러한 단점을 제거하고자 나타난 것이 ‘데이터 패브릭(Data Fabric)‘입니다.

데이터 패브릭이란?
데이터 패브릭은 2014년 데이터 관리 기업인 넷앱(NetApp)이 세상에 처음 발표한 개념입니다. 데이터의 접근과 변환의 복잡성을 제거하고 내외부의 데이터들을 연결할 수 있는 확장성까지 겸비한 가치 중심의 데이터 통합 아키텍처를 뜻하는데요. 쉽게 말해서 데이터가 어디에 저장되어 있든지 하나의 플랫폼에서 누구나 데이터에 접근해 그 속에서 가치를 찾아낼 수 있도록 하자는 것이죠.
인공지능(AI)과 머신러닝(ML), 사물인터넷(IoT) 등의 기술 발전에 따라 메타 데이터 입력과 같은 수동 업무가 자동화로 전환되면서 데이터 패브릭의 기술 효용성이 증가하여 데이터 패브릭을 현실적으로 구현할 수 있게 되었습니다. 마침 기업들이 저장하게 되는 데이터의 양은 점점 더 폭발적으로 늘어가고, 데이터의 형태와 소스도 다양해져 효율적인 데이터 통합 관리가 필요해졌죠.
이러한 기술과 시대의 변화에 따라 데이터 패브릭이 주목받기 시작합니다.
가트너는 2022년 12대 전략 기술 중 하나로 데이터 패브릭을 선정하였으며, 25년까지 데이터 패브릭의 동적 메타데이터 활성화로 데이터 활용도가 4배 증가하며, 데이터 관리 리소스는 35% 가량 줄어들 것으로 전망했습니다.
데이터 패브릭, 어떤 장점을 가지고 있길래 이렇게 많은 관심을 받는 걸까요?
데이터 패브릭의 장점
1. 데이터 사일로 제거
데이터 사일로란 서로 다른 시스템에서 생성된 데이터, 부서 별로 또는 업무 별로 별도 수집한 데이터와 같이 전사적으로 공통된 형식에서 관리되지 않아 생기는 마찰을 뜻합니다. A라는 팀에서 생성한 데이터를 B팀이 필요하다 해도 바로 접근할 수 없습니다. 또한 같은 내용의 데이터더라도 A팀에서 중요하게 생각하는 지표와 B팀에서 생각하는 지표가 달라 데이터 표출 방식에도 차이가 있게 됩니다.
데이터 패브릭은 데이터가 저장된 시스템과 소스들을 모두 연결해 실시간으로 데이터를 저장하고 통합합니다.
또한 데이터 관련 기술이 없는 일반 사용자도 데이터를 직접 찾고 분석할 수 있는 환경을 제공함으로써 업무에 필요한 데이터를 보다 신속하고 정확하게 찾아 사용할 수 있게 되죠.
2. 관리 편의성 향상
가트너는 데이터 패브릭을 도입 시 통합 설계 시간이 30%, 배포가 30%, 유지 관리 시간이 70% 가량 단축된다고 밝혔습니다.
요즘은 디지털 전환으로 온프레미스 시스템과 클라우드 시스템을 함께 쓰는 경우가 많습니다. 이럴 경우 데이터가 분산되어 저장되기 때문에 관리적으로도 불편하고 접근성도 떨어지게 됩니다.
데이터 패브릭은 데이터를 가상화하여 저장하기 때문에 저장 환경이 달라도 데이터를 이동할 필요 없이 하나로 통합함으로써 관리 편의성을 높일 수 있습니다.

여기서 ‘데이터 가상화‘란 이기종 시스템에 분리되어 있는 데이터를 한 곳에서 액세스 할 수 있도록 통합 관리하는 기술입니다. 원본 데이터는 제자리에 유지한 채 가상의 환경에서 데이터를 활용함으로써 복사나 이동 없이도 데이터를 활용할 수 있게 되죠. 쿼리를 더 빠르고 정확하게 수행할 수도 있어 업무 효율성과 비용 절감 효과도 얻을 수 있습니다.
또한 필요 시 정보를 바로 찾을 수 있도록 입력하는 데이터의 정보, ‘메타 데이터’를 표준화 하여 모든 데이터에 일관된 설명과 출처 정보를 부여해 데이터의 이해와 검색 효율성, 관리 편의성을 높입니다.
메타 데이터 입력과 같이 수작업으로 진행되던 업무도 인공지능(AI), 머신 러닝(ML)과 같은 기술을 적용해 실시간으로 자동화로 처리할 수 있습니다.
3. 데이터 거버넌스 및 규정 준수
데이터의 품질 관리, 데이터 생성에서 저장, 폐기까지의 생명 주기와 보안 수준 등을 관리하는 데이터 거버넌스는 데이터 양과 관리 포인트가 증가할 수록 준수에 어려움이 있기 마련입니다.
데이터 패브릭의 자동화와 실시간 통합 기술을 통해 데이터의 품질을 항상 최신으로 유지할 수 있으며, 사용자 별로 권한을 달리하여 읽기/쓰기/수정 등의 접근을 제어할 수 있고, 사용자의 행동에도 모든 로그를 파악할 수 있기 때문에 보안 유지도 쉬워집니다.
고객 정보와 같은 민감한 데이터들은 암호화 알고리즘을 통과 관리 시스템을 통해 보호함으로써 GDPR(General Data Protection Regulation, 유럽 연합 일반 데이터 보호 규정)과 같은 각종 규제도 준수할 수 있게 됩니다.

마치며
데이터 패브릭은 데이터가 필요한 시점에 바로 찾아 활용할 수 있다는 장점이 굉장히 큰 아키텍처입니다.
글로벌 시장조사 기관인 Marketsandmarkets는 글로벌 데이터 패브릭 시장 규모가 2020년 10억 달러(1조 3990억 원)에서 26년 42억 달러(5조 8758억 원)로 연평균 26.3% 가량 성장할 것으로 예상했습니다.
데이터의 중요성과 그 양이 증가하고 기술이 고도화 되면서 데이터 패브릭의 활용성이 점차 증가할 것이라 생각했기 때문인데요. 내부 데이터 뿐만 아니라 외부에서 얻어지는 데이터 역시 중요해지고 있습니다.
다만 데이터 패브릭은 메타 데이터가 충분히 갖춰진 상태에 빛을 발합니다. 또한 기존의 데이터 구조를 변경해야 하고 직원 교육도 새로 해야하는 등의 많은 노고가 필요하기 때문에 아직까지는 대기업이 우선적으로 도입하고 있는 기술이지만 기술의 발달로 점차 그 영역이 넓어질 것이라 기대해봅니다.