Innovating today, leading tomorrow

Trend Report
AI 시대, 생성형AI 응답 방식의 진화: RAG vs TAG

AI 시대, 생성형AI 응답 방식의 진화: RAG vs TAG

인공지능의 핵심은 질문에 얼마나 정확하고 풍부하게 답할 수 있는가에 달려 있습니다. 특히 대규모 언어 모델(LLM)이 주도하는 오늘날, 단순한 자연어 처리에서 나아가 외부 지식을 참조해 답변을 생성하는 능력이 매우 중요해졌습니다.

이러한 흐름 속에서 등장한 것이 바로 ‘검색증강생성, RAG(Retrieval-Augmented Generation)’과 ‘테이블 증강 생성, TAG(Table-Augmented Generation)‘입니다. 이 두 기술은 생성형 AI의 정확성, 신뢰성, 확장성을 높이기 위한 핵심 축으로 자리 잡고 있으며, 각기 다른 방식으로 정보를 참조하여 응답을 생성합니다. 특히, RAG vs TAG의 비교를 통해 이들 기술의 차별성과 장점을 명확히 할 수 있습니다.

이번 글에서는 US버클리와 스탠포드대학교 연구진의 논문, ‘Text2SQL is Not Enough: Unifying AI and Databases with TAG’를 바탕으로 RAG와 TAG의 방식 및 활용 사례에 대해 살펴봅니다.

RAG는 LLM이 모델 학습 이후 발생한 최신 정보들을 반영하지 못하는 한계를 보완하기 위해 탄생한 개념으로, 외부에 존재하는 텍스트, 문서 등의 데이터들을 스스로 검색하고 그 결과를 바탕으로 답변을 제공하는 방식입니다.

RAG는 벡터 검색 기반의 유사도 탐색으로 대규모 데이터셋에서도 빠르고 효율적으로 원하는 정보를 추출해 답변 생성이 가능하다는 장점을 가지고 있습니다. 하지만 RAG에도 다음과 같은 한계가 나타나기 시작했습니다.

  • 복잡한 연산이나 대규모 데이터 집합에 대한 집계, 순위 매기기 등은 처리하지 못함
  • 여러 데이터 행에 걸친 집계, 텍스트 필드의 감정 분석, 요약 등에 정확도가 떨어짐

즉, RAG는 단순 검색에는 적합하지만 여러 데이터를 확인해 결과를 도출해야 하는 질문이나 복잡한 연산, 집계, 의미 추론 등의 실질적인 비즈니스 질의에는 적합하지 않았습니다.

비즈니스 사용자들의 질문은 ▲도메인 지식 ▲일반적인 배경 지식(세계지식) ▲정확한 수치 계산 ▲의미 기반 추론과 같은 복합적인 요소들을 요구하는 경우가 많습니다.

예를 들어 “리테일 업종의 QoQ(Quarter-over-Quarter) 매출 추이는?“이라는 복합적인 질문의 경우, RAG는 데이터베이스에 ‘리테일 업종’에 해당하는 기업을 별도로 분류하지 않았으면 찾지 못합니다. 또한 QoQ가 무엇을 의미하는지, 계산 방식도 알지 못합니다.

TAG는 데이터베이스 위에서 자연어 질문에 답하기 위한 시스템 구조이며, 다음의 세 가지 핵심 단계로 구성됩니다:

  1. 쿼리 생성 (Query Synthesis)
    → 사용자의 질문을 실행 가능한 데이터베이스 쿼리로 변환
  2. 쿼리 실행 (Query Execution)
    → 생성된 쿼리를 데이터베이스 시스템에서 실행하여 결과 테이블을 획득
  3. 응답 생성 (Answer Generation)
    → 사용자 질문과 결과 데이터를 바탕으로 자연어 답변을 생성

위 과정을 통해 TAG는 LLM의 추론 능력을 결합하여 다음과 같은 흐름으로 답변을 생성할 수 있습니다.

TAG의 답변 생성 방식:

  1. ‘리테일 업종’이 무엇인지 세계 지식을 통해 기업 분류
  2. ‘QoQ’가 무엇을 의미하는지 해석
  3. 위 정보를 바탕으로 ‘업종 필터링’, ‘분기별 그룹핑’, ‘매출 집계 및 비교를 위한 연산 추가’에 대한 쿼리 구조 생성
  4. 쿼리를 실제 데이터베이스에서 실행
  5. 리테일 업종의 매출 데이터 추출
  6. 회사별, 분기별 매출 집계 결과를 표 형태로 획득
  7. 사용자 질문과 6번에서 도출해낸 결과 데이터를 바탕으로 최종 자연어 답변 생성

TAG를 사용하면 다음과 같은 답변 결과를 얻을 수 있습니다. : “2024년 2분기 기준, Walmart는 전분기 대비 매출이 20.8% 증가했으며, Target은 4.3% 감소했습니다. 전반적으로 리테일 업종은 완만한 성장세를 보였습니다.”

항목RAGTAG
강점✅ 맥락 기반 설명에 탁월
✅ 최신 문서 정보 반영 가능
✅ 비정형 문서 질의에 유연
✅ 수치 정확도 높음
✅ 정형 데이터 직접 조회 가능
✅ KPI/통계/분석에 최적
한계❌ 복잡한 연산에 약함
❌ 대규모 데이터 집합 집계 처리 어려움
❌ 명시되지 않은 정보와 결합 부족
❌ 비정형 데이터 처리 한계
❌ 테이블 구조 사전 정의 필요
❌ 텍스트 설명은 한계 있음
적합한 상황설명형 질문트렌드 요약문서 기반 질의응답분석형 질문수치 비교/통계 요약BI 자동화

RAG는 비정형 데이터에, TAG는 정형화된 데이터에 특화된 방식으로 서로를 보완하는 관계입니다. RAG는 설명에 강하고, TAG는 수치에 강하기 때문에 실제 복합적인 데이터 환경에서는 함께 결합해 사용하는 하이브리드 방식을 선호하고 있습니다.

예를 들어 “2025년 국내 데이터베이스 시장 규모와 관련 산업 트렌드를 알려줘” 라는 질문에 다음과 같이 각각의 방식들이 활용됩니다.

  • TAG: 국내 소프트웨어 시장 DB에서 데이터베이스 시장 규모 추출 (수치 기반)
  • RAG: 관련 뉴스 기사, 산업 리포트 검색 (배경 설명)
  • LLM: 두 정보를 통합해 종합적인 응답 생성

이렇듯 하이브리드 방식은 경영 리포트 자동화, 인텔리전트 리서치 등에서 활용도가 높습니다. 두 방식을 통해 생성형AI가 환각 증상을 줄이고, 실제 정보를 기반으로 답변하도록 진화하고 있습니다.

앞으로의 AI는 무엇을 알고 있느냐보다, 어디서 정확한 데이터를 참조하느냐가 중요해지는 시대입니다.

신뢰할 수 있는 데이터를 안전하게 저장, 관리할 수 있는 Tibero, OwlDB와 같은 제품들의 관심이 높아지는 이유이기도 합니다.

📌관련 글: Tibero의 진화, ‘OwlDB’로 경험하는 클라우드 네이티브 DBMS 🦉