인사이트

비정형 문서를 제대로 활용하기 위한 RAG 설계

Dec 17, 2025

목차

장영운

장영운

장영운

현대 기업들은 방대한 양의 비정형 데이터를 다루고 있습니다. 이메일, PDF, 스캔 이미지, 보고서 등 형식과 구조가 제각각인 문서 속에서 필요한 정보를 빠르게 찾는 일은 쉽지 않습니다. 이 문제를 해결하기 위한 핵심 기술로 주목받는 것이 바로 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 입니다.

RAG는 대규모 언어모델(LLM)이 답변을 생성하기 전에, 기업 내부 문서에서 관련 정보를 먼저 검색해 제공하는 방식입니다. 이를 통해 모델은 막연한 추론이 아닌 실제 문서에 근거한 답변을 생성할 수 있고, 그 결과 환각(hallucination)은 줄어들고 출처가 명확한 응답이 가능해집니다.

RAG로 비정형 문서를 활용하는 방법

Wissly는 다양한 형태의 문서를 활용 가능한 기업 지식 자산으로 전환합니다. PDF, Word, Excel, PowerPoint, 한글(HWP) 등 10여 가지 이상의 문서 포맷을 자동으로 처리해, 여러 문서를 하나의 지식베이스처럼 통합합니다. 이를 가능하게 하는 핵심은 다음과 같은 RAG 전처리 전략입니다.

핵심 1) 의미 기반 청킹(Chunking): 문서를 ‘의미’ 단위로 자르기

RAG에서 문서를 그대로 활용하면 문맥은 충분하지만 검색 정확도가 떨어지고 비용이 증가합니다. 반대로 문서를 너무 잘게 나누면 검색은 쉬워지지만, 답변에 필요한 맥락이 사라질 수 있습니다.

Wissly는 이 균형을 맞추기 위해 글자 수가 아닌 ‘의미의 경계’를 기준으로 문서를 분할합니다.

  • 문단이나 섹션이 전환되는 지점

  • 설명에서 결론으로 넘어가는 흐름

  • 표나 그림 전후의 문맥 단위

또한 문서 포맷에 따라 의미 단위가 다르다는 점을 고려해 포맷별 분할 전략을 적용합니다. 예를 들어 PDF는 비교적 촘촘한 청킹이 효과적인 반면, PPT나 Excel은 슬라이드·시트·표 단위가 자연스러운 의미 단위가 되는 경우가 많습니다.

핵심 2) OCR로 숨은 텍스트까지 활용하기

많은 기업 문서에는 스캔 이미지, 캡처된 표, 차트 등 텍스트로 인식되지 않는 정보가 포함되어 있습니다. 일반적인 텍스트 기반 검색이나 RAG 시스템은 이러한 정보를 그대로 놓치는 경우가 많습니다.

Wissly는 OCR(광학 문자 인식) 기반의 멀티포맷 처리 파이프라인을 통해 이미지 안에 포함된 텍스트까지 추출합니다. 보고서 속 스캔된 표의 수치나 차트의 캡션 역시 검색과 답변 생성에 활용할 수 있습니다.

중요한 점은 모든 영역에 무조건 OCR을 적용하지 않는다는 것입니다. 이미지로 판단되는 영역에만 선택적으로 OCR을 적용해, 성능과 비용을 동시에 최적화합니다. 이를 통해 문서 속에 숨어 있던 정보까지 RAG의 검색 대상에 포함시킬 수 있습니다.

핵심 3) 페이지 앵커링: 답변의 근거를 원문까지 연결하기

AI가 제공하는 답변에서 사용자가 가장 궁금해하는 것은 “이 정보는 어디에서 나온 것인가?”입니다. Wissly는 이를 해결하기 위해 청크와 원본 문서의 위치를 정확히 연결하는 페이지 앵커링(page anchoring) 방식을 적용합니다.

각 청크에는 문서명, 페이지 번호, 섹션 제목과 같은 풍부한 메타데이터가 함께 저장됩니다. 이를 통해 사용자는 AI의 답변을 읽는 데서 그치지 않고, 해당 정보가 실제 문서의 어느 페이지에서 추출되었는지 즉시 확인할 수 있습니다. 클릭 한 번으로 원문 위치를 열어보는 것도 가능합니다.

이러한 구조는 단순히 ‘출처를 보여주는 기능’을 넘어, AI 답변을 검증 가능한 정보로 바꾸는 역할을 합니다. 사용자는 AI를 맹신하지 않아도 되고, 필요할 때 언제든 원문을 직접 확인할 수 있습니다.

비정형 문서를 ‘검색 가능한 지식’으로 바꾸는 RAG의 가치

이와 같은 RAG 파이프라인을 통해, 구조화되지 않은 문서들도 필요할 때 정확한 질문에 답하는 지식으로 활용할 수 있습니다. 사람이 직접 문서를 뒤지는 방식보다 훨씬 빠르고 정확한 의사결정을 지원하며, 직원들이 정보 탐색에 소비하던 시간을 크게 줄여줍니다.

의미 단위 청킹, OCR 기반 멀티모달 처리, 메타데이터와 페이지 앵커링은 기업 내에 방치되어 있던 비정형 문서를 실질적인 AI 지식 자산으로 전환하는 핵심 요소입니다.

RAG는 이제 단순한 기술 트렌드를 넘어, 기업 문서를 활용하는 가장 현실적인 방법이 되고 있습니다.


최고의 투자사와 함께 빠르게 성장하고 있습니다.

최고의 투자사와 함께 빠르게 성장하고 있습니다.

어렵게 찾지 말고, 위슬리에게 물어보세요

방대한 문서를 대신 읽고, 필요한 답을 바로 찾아드려요. 지금까지와는 다른 검색 경험을 만나보세요.

어렵게 찾지 말고, 위슬리에게 물어보세요

방대한 문서를 대신 읽고, 필요한 답을 바로 찾아드려요. 지금까지와는 다른 검색 경험을 만나보세요.

어렵게 찾지 말고, 위슬리에게 물어보세요

방대한 문서를 대신 읽고, 필요한 답을 바로 찾아드려요. 지금까지와는 다른 검색 경험을 만나보세요.

방대한 문서 속에서 필요한 답을 바로 찾아주는 AI

(주)스텝하우 | 대표: 황성욱

서울특별시 동작구 노량진로 10, 서울창업센터동작 209호

사업자등록번호: 193‑81‑03327

통신판매업 번호: 2024‑서울동작‑0779

© 2025 Wissly. All rights reserved.

방대한 문서 속에서 필요한 답을 바로 찾아주는 AI

(주)스텝하우 | 대표: 황성욱

서울특별시 동작구 노량진로 10, 서울창업센터동작 209호

사업자등록번호: 193‑81‑03327

통신판매업 번호: 2024‑서울동작‑0779

© 2025 Wissly. All rights reserved.

방대한 문서 속에서 필요한 답을 바로 찾아주는 AI

(주)스텝하우 | 대표: 황성욱

서울특별시 동작구 노량진로 10, 서울창업센터동작 209호

사업자등록번호: 193‑81‑03327

통신판매업 번호: 2024‑서울동작‑0779

© 2025 Wissly. All rights reserved.