PDF OCR은 브라우저에서 실행되는 Tesseract.js를 사용해 스캔하거나 이미지 기반의 PDF 안에 있는 텍스트를 인식합니다. 일반 텍스트를 추출하거나, 인식된 텍스트가 원본 이미지 뒤에 레이어로 들어간 검색 가능한 PDF를 만들거나, DOCX 문서로 내보낼 수 있습니다. 모든 작업이 로컬에서 실행되며 — 어떤 문서도 어디로도 업로드되지 않습니다.
자주 묻는 질문
어떤 언어를 지원하나요?
Tesseract.js를 통해 영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 아랍어 등 100개 이상의 언어를 지원합니다. 여러 언어를 동시에 선택해 다국어 OCR을 실행할 수도 있습니다.
내 PDF가 서버로 업로드되나요?
아니요. 텍스트 인식은 WebAssembly를 통해 전적으로 브라우저에서 이루어집니다. 파일은 기기 밖으로 나가지 않습니다.
어떤 출력 형식을 사용할 수 있나요?
인식된 텍스트는 일반 텍스트(.txt) 파일로 제공됩니다. OCR이 끝나면 복사하거나 다운로드할 수 있습니다.
OCR는 무엇의 약자인가요?
OCR은 Optical Character Recognition(광학 문자 인식)의 약자입니다. 이미지나 스캔한 문서 속 글자의 형태를 감지해 실제로 편집하고 검색할 수 있는 디지털 텍스트로 변환하는 기술입니다. OCR이 없으면 스캔한 페이지는 단순한 그림에 불과하지만, OCR을 사용하면 내용을 복사하고, 검색하고, 번역하고, 편집할 수 있습니다.