AI의 과거와 현재
한국에서 AI(인공지능) 기술이 주목받게 된 가장 중요한 계기는 2016년 ‘알파고(AlphaGo)’와 이세돌 9단의 대국이었습니다. 알파고는 구글 딥마인드가 개발한 인공지능 프로그램으로, 알파고는 이 대국에서 5전 4승을 기록하며 AI가 인간의 직관과 판단을 뛰어넘는 수준에 도달했음을 알렸습니다.
이렇게 우리 주변에 성큼 다가온 인공지능은 ‘인간의 지능을 모방하여 지각, 학습 능력을 비롯한 추론과 문제해결 등을 수행하도록 하는 컴퓨팅 기술’을 뜻합니다. 이후 AI 기술은 텍스트, 이미지, 음성 인식뿐만 아니라 자연어 처리와 같은 다양한 영역에서 급속히 발전하면서 금융 산업을 비롯한 다양한 분야에서 챗봇, 추천 시스템 등으로 활용되기 시작했습니다.
2020년대에 이르러서 AI 기술은 다시 한번 ‘생성형 AI(Generative AI)’로 큰 도약을 이루게 됩니다. OpenAI사가 개발한 ‘챗GPT(Chat GPT)’는 2022년에 공식 출시 후, 2달 만에 1억 명 이상의 사용자를 확보하며 돌풍을 일으켰습니다. 2024년 현재는 월 100만 명의 유료 사용자가 기업용 챗GPT를 이용하면서 올해 매출을 약 30억 달러, 한화로 4조 200억 원을 돌파할 것으로 예상하고 있습니다. 이 외에도 이미지 생성 AI인 ‘DALL-E’와 동영상 제작 AI인 ‘SORA’ 등 텍스트 기반으로 창작물을 만들 수 있는 기술이 등장하면서 바야흐로 생성형 AI의 시대를 맞이하게 되었습니다.

LLM의 데이터 수집에 대한 논란과 sLLM의 등장
대규모 언어 모델 (Large Language Model, LLM)은 대량의 텍스트 데이터를 학습하여 인간이 일상적으로 사용하는 자연어를 이해할 수 있고 또 생성할 수 있는 모델링 기술입니다. 현재 많은 생성형 AI가 LLM을 기반으로 작동하고 있으며, 텍스트 프롬프트를 통해 복잡한 문제를 해결하는 데 뛰어난 성능을 발휘하고 있습니다.
LLM 모델링 초기에는 학습할 데이터가 많을수록 모델의 성능이 향상되는 것이 일반적입니다. 모델이 받아들이거나 생성하는 텍스트가 길어질수록 더욱 더 많은 학습 데이터가 필요한데, 이를 위해 AI 기업들은 웹페이지나 책, 논문 등 다양한 소스에서 대규모 텍스트 데이터를 수집하고 있습니다. 하지만 최근 들어 저작권자 혹은 온라인 서비스 및 플랫폼 기업들이 이러한 데이터 수집에 반발을 제기하고 있는데요. 2023년 소셜 미디어 플랫폼 Reddit은 자사 데이터를 수집하는 것을 제한하기 위해 API 사용에 요금을 부과했으며, 소셜 네트워크 서비스 X(전 트위터)도 API 서비스를 유료화 하는 등 대규모 데이터 수집에 대한 논란이 이어지고 있습니다.
<LLM 모델의 장단점>
장점 | 단점 |
자연어 처리와 문맥 이해에 특화 | 성능을 위해 대규모 데이터셋 필요 |
데이터가 많을 수록 정확한 결과물 | 다량의 데이터 처리로 고비용 수반 |
다양한 산업에 응용 가능 | 학습 과정이 복잡하고 시간이 많이 걸림 |
LLM의 성능을 높이기 위해 막대한 컴퓨팅 자원이 필요한데다, 다량의 데이터를 구하기도 어려운 상황이 되자 LLM 모델의 효율성 문제가 두드러지기 시작했습니다. 효율성 문제를 해결하기 위해 몇몇 AI 기업에서 AI 서비스를 구성하기 위해 LLM 대신 특정 작업에만 필요한 소량의 데이터와 파라미터를 활용하는 ‘소형 언어 모델 (Smaller Large Language Model, sLLM)’구조를 채택하기도 하였으나, 적은 데이터로 학습한 결과의 편향성, 성능 저하와 같은 문제점들이 여전히 해결해야 할 부분으로 남아있습니다.
합성 데이터의 등장
LLM은 방대한 양의 데이터를 필요로하고, sLLM은 데이터 편향의 문제를 가지고 있습니다. 두 모델 모두 실제 데이터를 활용하는 데 어려움을 겪자 ‘합성데이터(Synthetic Data)’ 가 그 대안으로 주목받고 있습니다.
합성 데이터란?
컴퓨팅 알고리즘과 시뮬레이션을 통해 실제 데이터의 특성을 모방하여 생성된 인공적인 데이터를 뜻합니다. 따라서 인공적으로 만들어진 데이터이긴 해도 실제 데이터의 성격을 반영하고 있습니다.
합성 데이터는 실제 데이터의 일부를 합성 정보로 대체하는 ‘부분 합성 데이터’가 있고, 완전히 새로운 데이터를 생성하는 ‘완전 합성 데이터’가 있습니다. 민감한 정보를 숨길 때에는 부분 합성 데이터를 활용하며, 머신 러닝이나 모델 학습, 테스트 등에는 완전 합성 데이터를 사용하여 정확도를 높이고 있습니다.
합성 데이터의 장점
1. 무제한 데이터 생성
대량의 학습 데이터를 수집할 필요 없이 짧은 시간 내에 모델이 학습할 데이터를 인공적으로 생성해낼 수 있기 때문에 데이터 기술로써 LLM이 가지는 모델의 단점을 보완해줄 수 있습니다.
2. 데이터 프라이버시 및 저작권 문제 해결
실제 데이터는 데이터 안에 포함되어있는 개인 정보 혹은 저작권과 관련된 문제가 야기될 수 있지만, 합성 데이터는 실제 개인 정보나 저작권과 관련된 문제가 없으므로 법적 리스크 없이 모델을 훈련할 수 있습니다.
3. 데이터 정제 비용 절감
실제 데이터를 AI 훈련에 활용하기 위해서는 데이터를 분류하는 데이터 레이블링 과정이 필요한 경우가 있습니다. 하지만 합성 데이터는 생성 과정에서 자동으로 레이블이 부여되기 때문에 데이터 정제에 소요되는 시간과 자원적 비용을 절감할 수 있습니다.
4. 희귀 데이터 생성
의료 및 법률과 같은 특정 산업에서는 데이터 발생 요건이 희귀하여 실제 데이터가 부족한 경우가 많습니다. 합성 데이터는 이러한 희귀 상황을 가정한 데이터를 생성하여 모델의 정확도와 성능 향상에 활용될 수 있습니다.
합성 데이터 시장의 영향과 미래
이러한 장점을 바탕으로 합성 데이터를 활용한 AI 훈련이 활발히 진행되고 있으며, 관련 비즈니스도 확대되고 있습니다. OpenAI는 챗GPT로 생성된 데이터를 다시 학습에 활용하는 순환 데이터 생성 방식으로 LLM의 성능을 향상시키고 있으며, NVIDIA는 2024년 6월에 합성데이터 생성 모델인 Nemotron-4340B를 공개하면서 LLM 개발의 효율성을 더욱 높이고 있습니다.
국내에서도 개인정보나 저작권 문제가 있는 요소를 변환하여 합성 데이터를 생성하고 거래할 수 있는 플랫폼을 선보이거나 시나리오 별로 주문형 데이터를 제공하는 등의 합성 데이터 스타트업이 탄생하면서 다양한 산업에서 큰 관심을 받고 있습니다.
주로 특정 행동의 패턴이 존재하는 경우, 시뮬레이션을 위해 많이 활용되는데요. 여러 사물의 위치와 이미지, 상황 정보 등을 합성하여 자율주행 차량을 학습하는데 사용되거나, 암과 같은 특정 질병이 자주 발생하는 상황, 위치, 종양의 크기 등의 정보들을 생성하여 AI 진단 성능을 높이는 데에도 활용되고 있습니다. 그 외에도 고객의 구매 패턴, 이동 경로 등의 정보를 활용한 유통망 최적화, 금융 사기 식별 등이 있습니다.
알파고의 등장 이후로 빠르게 성장하는 AI 기술과 함께 합성 데이터 시장 규모도 급격하게 성장하고 있습니다. 시장 조사 기업 리서치앤마켓에 따르면 2023년 글로벌 합성 데이터 시장의 규모는 6억 8,125만 달러(한화 약 9천억 원)으로 추산되었으며, 2030년까지 연 평균 약 35%씩 성장하여 55억 7,000만 달러(한화 약 7조 4천억원)에 이를 것으로 예상됩니다. 이러한 시장 규모의 성장은 앞으로도 AI 뿐만 아니라 데이터와 보안 등 다양한 산업에 영향을 미칠 것으로 예상됩니다.
마치며
AI 기술의 발전과 함께 데이터 시장은 빠르게 변하고 있습니다. 생성형 AI의 부상과 LLM의 한계를 극복하려는 다양한 시도가 이어지고 있으며, 합성 데이터는 그 과정에서 중요한 역할을 하고 있습니다. 물론 아직까지 데이터의 품질이나 정확도를 높이는 등의 한계와 과제가 존재합니다. 그러나 실제 데이터의 부족과 프라이버시 문제를 해결할 수 있는 대안으로 떠오른 만큼 앞으로 AI 훈련뿐만 아니라 다양한 산업에서 그 활용도가 더욱 커질 것입니다.
AI와 데이터는 상호 보완적인 관계로 진화하고 있으며, 앞으로도 우리는 더 많은 혁신적인 기술과 솔루션이 등장하는 것을 목격하게 될 것입니다. 이제 기업들은 이 변화의 흐름을 주도하기 위해 AI 기술과 데이터 전략을 한층 더 정교하게 구축해야 할 시점입니다.