복사-붙여넣기가 안 될 때 PDF에서 텍스트 추출하기
PDF를 열고 텍스트를 선택하려는데, 아무 일도 일어나지 않습니다. 커서가 아무것도 강조 표시하지 않습니다. 더 나쁜 경우, 텍스트를 선택하고 복사한 다음 문서에 붙여넣었는데, 뒤죽박죽인 임의의 문자와 깨진 서식이 나타납니다.
이것은 가장 흔한 PDF 불만 사항 중 하나이며, 생각보다 훨씬 자주 발생합니다. 좋은 소식은 거의 항상 해결책이 있다는 것입니다.
PDF에서 복사-붙여넣기가 실패하는 이유
모든 PDF가 같은 방식으로 만들어지는 것은 아닙니다. 텍스트를 복사할 수 없는 이유는 PDF가 만들어진 방식에 따라 다릅니다.
원인 1: PDF가 스캔 이미지임
가장 흔한 원인입니다. 종이 문서를 스캔하면, 스캐너가 각 페이지의 사진을 찍습니다. 결과 PDF에는 텍스트가 아닌 이미지가 포함됩니다. 눈으로는 페이지에 글자가 보이지만, 컴퓨터에게는 사진과 다를 바 없는 픽셀일 뿐입니다.
스캔된 PDF는 보통 확대해 보면 알 수 있습니다. 높은 배율에서 텍스트가 픽셀화되거나 거칠게 보이면 이미지입니다. 텍스트 기반 PDF는 어떤 배율에서도 선명하게 유지됩니다.
알고 계셨나요? PDF에는 같은 페이지에 실제 텍스트와 스캔 이미지가 혼합되어 있을 수 있습니다. 일부 스캐너는 기본적인 OCR(광학 문자 인식)을 수행하여 이미지 뒤에 보이지 않는 텍스트 레이어를 삽입하므로, 보이는 콘텐츠는 스캔이지만 텍스트를 선택할 수 있습니다.
원인 2: PDF가 보호되어 있음
PDF 작성자는 사용자가 문서로 할 수 있는 것을 제한하는 권한을 설정할 수 있습니다. 흔한 제한 사항 중 하나가 텍스트 선택 및 복사 비활성화입니다. 이는 저작권 자료, 시험지 또는 기밀 보고서에 자주 사용됩니다.
PDF가 복사 보호된 경우, 보통 텍스트를 보고 읽을 수는 있지만 커서로 선택할 수 없거나 복사 기능이 비활성화됩니다.
원인 3: 텍스트 인코딩이 깨짐
일부 PDF는 표준 문자에 매핑되지 않는 사용자 정의 글꼴 인코딩이나 내장 하위 집합을 사용합니다. 텍스트는 기술적으로 존재하고 선택할 수 있지만, 다른 곳에 붙여넣으면 "The quick brown fox" 대신 "Wkh txlfn eurzq ira"와 같은 깨진 출력이 나옵니다.
이는 주로 오래된 소프트웨어, 특정 LaTeX 구성, 또는 텍스트를 아웃라인으로 변환하는 디자인 도구에서 생성된 PDF에서 발생합니다.
두 가지 유형의 PDF 이해하기
문제를 해결하려면, 두 가지 주요 PDF 콘텐츠 유형의 근본적인 차이를 이해하는 것이 도움됩니다.
텍스트 기반 PDF (디지털 네이티브)
워드 프로세서, 스프레드시트, 웹 페이지 또는 디자인 응용 프로그램에서 직접 생성됩니다. 텍스트가 파일 내에 실제 문자 데이터로 존재합니다. 이 PDF는 검색 가능하고, 선택 가능하며, 일반적으로 파일 크기가 작습니다.
예: Word, Google Docs 또는 웹 브라우저에서 "PDF로 인쇄"로 내보낸 문서.
이미지 기반 PDF (스캔)
페이지의 사진을 포함합니다. 파일 내에 실제 텍스트 데이터가 없습니다. 각 페이지는 본질적으로 사진입니다. 이 PDF는 검색할 수 없고, 선택할 수 없으며, 훨씬 큰 경향이 있습니다.
예: 평판 스캐너, 폰 카메라 스캔 앱 또는 팩스-PDF 서비스에서 만든 문서.
텍스트가 선택되지 않거나 붙여넣기가 올바르지 않으면, 텍스트 추출 도구가 필요합니다.
복사-붙여넣기가 실패할 때 텍스트를 추출하는 방법
스캔된 PDF의 경우: OCR
광학 문자 인식(OCR)은 이미지에서 텍스트를 읽는 기술입니다. 현대의 OCR 엔진은 특히 깔끔하게 인쇄된 문서에서 놀랍도록 정확합니다. 이미지에서 문자의 형태를 분석하고 편집 가능한 텍스트로 변환합니다.
OCR은 다음 조건에서 가장 잘 작동합니다:
- 문서가 인쇄된 것 (손글씨가 아닌)
- 스캔 품질이 합리적인 수준 (150 DPI 이상)
- 텍스트가 일반적인 언어로 작성됨
- 페이지가 심하게 기울어지거나 회전되지 않음
주의 OCR은 완벽하지 않습니다. 손글씨, 특이한 글꼴, 저품질 스캔, 또는 복잡한 레이아웃(예: 표와 이미지가 있는 다단 텍스트)의 문서에서는 어려움을 겪을 수 있습니다. 중요한 문서에 OCR 결과를 사용하기 전에 항상 교정하세요.
보호된 PDF의 경우
PDF에 복사 제한이 있는 경우, 텍스트 추출 도구가 권한 설정에 관계없이 기본 텍스트 데이터를 읽을 수 있는 경우가 많습니다. 텍스트는 여전히 파일에 존재합니다; 표준 PDF 뷰어에서 복사 기능만 비활성화된 것입니다.
인코딩 문제의 경우
텍스트가 존재하지만 깨져 있는 경우, 추출 도구가 문자 매핑을 올바르게 해석하여 깨끗한 출력을 생성할 수 있습니다. 그것이 실패하면, OCR이 페이지를 이미지로 처리하고 문자를 다시 인식할 수 있습니다.
더 나은 텍스트 추출을 위한 실용적인 팁
먼저 출처를 확인하세요. PDF에서 텍스트를 추출하기 전에 원본 문서를 얻을 수 있는지 확인하세요. 누군가가 Word 문서의 PDF를 보냈다면, Word 파일을 요청하세요.
스캔 품질을 개선하세요. 직접 문서를 스캔하는 경우 최소 200 DPI를 사용하고 종이가 평평하고 조명이 좋은지 확인하세요. 그림자, 주름, 낮은 해상도 모두 OCR 정확도를 떨어뜨립니다.
기울어진 페이지를 바로잡으세요. 스캔이 회전되거나 기울어져 있으면, OCR을 실행하기 전에 바로잡으세요. 대부분의 스캔 앱에 기울기 보정 옵션이 있습니다.
한 페이지가 아닌 전체 문서를 시도하세요. 일부 도구는 전체 문서를 한 번에 처리할 때 더 잘 작동하는데, 주변 페이지의 문맥이 정확도를 높이는 데 도움이 되기 때문입니다.
결과를 교정하세요. OCR 결과는 항상 검토해야 합니다. 흔한 오류에는 "l"과 "1"의 혼동, "O"와 "0"의 혼동, 그리고 구두점의 오인식이 포함됩니다.
팁 스캔된 문서를 포함하여 어떤 PDF에서든 브라우저에서 무료로 텍스트를 추출할 수 있습니다. 저희 도구는 텍스트 기반 PDF와 이미지 기반 PDF를 모두 자동으로 처리합니다.
추출된 텍스트로 할 수 있는 것
텍스트를 얻고 나면 가능성이 열립니다:
- 워드 프로세서에서 내용 편집
- 페이지를 스크롤하지 않고 특정 정보 검색
- 텍스트를 다른 언어로 번역
- 다른 문서나 프레젠테이션을 위해 내용 재구성
- 표와 양식에서 데이터 분석
- 화면 판독기를 위한 접근성 버전 생성
일반적인 사용 사례
- 학생들 — 학술 논문과 교과서에서 노트 작성용 텍스트 추출
- 변호사 — 비교를 위해 스캔된 계약서에서 조항 추출
- 회계사 — 스캔된 청구서와 영수증에서 데이터 추출
- 연구자 — 분석을 위해 오래된 인쇄 자료 디지털화
- 행정 직원 — 스캔된 양식을 편집 가능한 문서로 변환
지금 바로 PDF에서 텍스트를 추출해야 하나요? 단계별 가이드를 따라하세요: PDF 텍스트 추출 방법. 텍스트 기반 및 스캔 PDF 모두 작동하며, 브라우저에서 직접 사용할 수 있습니다.