PDF🔒 브라우저에서 실행

텍스트 추출기 (OCR)

OCR(광학 문자 인식)으로 스캔한 PDF와 이미지에서 텍스트를 추출합니다

📝

여기에 PDF를 끌어다 놓거나 클릭해서 선택하세요

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

사용 사례

회계 검색 및 보존을 위해 오래된 종이 송장 더미 디지털화하기.
공부용 스캔된 교과서를 전문 검색 가능하게 만들기.
초안에 조항을 복사-붙여넣기 위해 스캔된 계약서에서 텍스트 추출하기.
먼저 텍스트를 추출하여 스캔된 문서를 번역용으로 준비하기.
경비 추적 스프레드시트에 붙여넣기 전 영수증 스캔을 텍스트 필드로 변환하기.

텍스트 추출기 (OCR) 정보

PDF OCR은 브라우저에서 실행되는 Tesseract.js를 사용해 스캔하거나 이미지 기반의 PDF 안에 있는 텍스트를 인식합니다. 일반 텍스트를 추출하거나, 인식된 텍스트가 원본 이미지 뒤에 레이어로 들어간 검색 가능한 PDF를 만들거나, DOCX 문서로 내보낼 수 있습니다. 모든 작업이 로컬에서 실행되며 — 어떤 문서도 어디로도 업로드되지 않습니다.

자주 묻는 질문

어떤 언어를 지원하나요?

Tesseract.js를 통해 영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 아랍어 등 100개 이상의 언어를 지원합니다. 여러 언어를 동시에 선택해 다국어 OCR을 실행할 수도 있습니다.

내 PDF가 서버로 업로드되나요?

아니요. 텍스트 인식은 WebAssembly를 통해 전적으로 브라우저에서 이루어집니다. 파일은 기기 밖으로 나가지 않습니다.

어떤 출력 형식을 사용할 수 있나요?

인식된 텍스트는 일반 텍스트(.txt) 파일로 제공됩니다. OCR이 끝나면 복사하거나 다운로드할 수 있습니다.

OCR는 무엇의 약자인가요?

OCR은 Optical Character Recognition(광학 문자 인식)의 약자입니다. 이미지나 스캔한 문서 속 글자의 형태를 감지해 실제로 편집하고 검색할 수 있는 디지털 텍스트로 변환하는 기술입니다. OCR이 없으면 스캔한 페이지는 단순한 그림에 불과하지만, OCR을 사용하면 내용을 복사하고, 검색하고, 번역하고, 편집할 수 있습니다.

OCR이 예상보다 왜 느린가요?

Tesseract.js는 처음 사용 시 4–10 MB의 언어 모델을 로드하고 페이지당 컴퓨터 비전 패스를 브라우저의 메인 스레드에서 실행합니다. 최신 노트북에서 페이지당 ~3–8초, 휴대폰이나 큰 문서에서는 더 오래 예상하세요. 진행률 표시줄이 실시간으로 업데이트되므로 그에 맞춰 계획할 수 있습니다. 모델이 메모리에 유지되므로 후속 페이지는 더 빠릅니다.

사용 사례

회계 검색 및 보존을 위해 오래된 종이 송장 더미 디지털화하기.

공부용 스캔된 교과서를 전문 검색 가능하게 만들기.

초안에 조항을 복사-붙여넣기 위해 스캔된 계약서에서 텍스트 추출하기.

먼저 텍스트를 추출하여 스캔된 문서를 번역용으로 준비하기.

경비 추적 스프레드시트에 붙여넣기 전 영수증 스캔을 텍스트 필드로 변환하기.