"PDF를 Word로 변환"은 웹 전체에서 가장 많이 검색되는 질의 중 하나입니다. 이유는 분명합니다. PDF는 어디에나 있고 — 계약서, 보고서, 송장, 스캔된 양식, 이력서 — 어느 순간에는 그것을 고쳐야 합니다. 오타를 발견했을 수도 있고, 양식의 이름이 틀렸을 수도 있고, 빈 양식이 와서 작성해 넣어야 할 수도 있습니다. PDF는 안정적인 출력을 위해 설계된 형식이지 편집을 위한 형식은 아니므로, 자연스러운 답은 다시 편집 가능한 형식으로 되돌리는 것입니다.
"어떻게 하지?"에 대한 표준 답은 업로드 후 대기시키는 서비스들의 함대였습니다. Smallpdf, iLovePDF, Adobe Acrobat Online, PDF2Doc, 그리고 수십 개의 복제품들. 모두 같은 방식입니다. PDF를 끌어다 놓고, 서버가 처리하기를 기다리고, .docx를 내려받습니다. 잘 작동합니다. 그러나 그 말은 곧 당신의 문서가 — 그 안에 무엇이 들었든 — 누군가 다른 사람의 서버에 잠깐, 혹은 그리 잠깐이 아닌 시간 동안 머문다는 뜻입니다.
최근에야 비로소 실용성이 갖춰진 조용한 대안이 있습니다. 브라우저 안에서 변환을 진행하고, 파일은 기기를 한 번도 떠나지 않게 하는 방식입니다. 작동 원리와 언제 의미 있는지 살펴봅니다.
PDF → Word가 보이는 것보다 어려운 이유
PDF는 고정 레이아웃 문서입니다. 모든 글자(글리프)에 페이지 위 명시적 좌표가 있습니다. 파일 자체에는 "단락"이나 "제목"이라는 개념이 없습니다 — 어떤 위치의 문자들이 있을 뿐이고, 때로는 줄로 묶여 있고, 때로는 표 안에 있고, 때로는 이미지 주위를 둘러싸고 있습니다. 반면 Word 문서는 흐르는 문서입니다. 렌더러가 자유롭게 배치할 수 있는 단락, 제목, 목록, 표, 스타일로 이루어져 있습니다.
한쪽을 다른 쪽으로 바꾸는 일은 일종의 리버스 엔지니어링입니다. 도구는 문자 덩어리들을 보고 추측해야 합니다. 이게 제목인가, 아니면 그냥 굵게 표시된 단어인가? 이게 글머리 기호 목록인가, 아니면 우연히 점으로 시작한 세 줄인가? 이 두 단 레이아웃은 의미가 있는가, 아니면 그저 시각적인 특징인가? 이 정렬된 숫자들은 표인가, 그냥 우연히 줄이 맞은 숫자들인가?
PDF → Word 변환의 품질은 곧 그 추측의 품질입니다. 어떤 PDF는 쉽습니다. 방금 Word에서 내보낸 문서라면 거의 완벽하게 Word로 돌아갑니다. 어떤 PDF는 어렵습니다. 스캔된 양식, 다단 잡지 레이아웃, 복잡한 표를 포함한 문서는 유료든 무료든 어떤 도구라도 시험에 들게 합니다.
두 종류의 PDF, 두 종류의 변환
도구를 고르기 전에, 손에 든 PDF가 어느 쪽인지 아는 것이 도움이 됩니다.
텍스트 PDF는 실제 검색 가능한 텍스트 — 하이라이트하고 복사할 수 있는 종류 — 를 담고 있습니다. Word, Google Docs, 웹 페이지에서 만든 대부분의 PDF가 여기 해당합니다. 이들은 깔끔하게 변환됩니다. 변환 과정이 텍스트를 직접 읽고, 구조를 추정하고, Word 문서를 작성합니다.
스캔 PDF는 본질적으로 페이지의 사진입니다. 보이는 "텍스트"는 그저 픽셀일 뿐입니다. 단어를 하이라이트해 보면 문자가 아니라 이미지 영역이 선택됩니다. 변환에 앞서 픽셀에서 텍스트를 읽어내는 OCR(광학 문자 인식)이라는 추가 단계가 필요합니다. OCR은 처리 시간을 늘리고 가끔 오류를 만들어냅니다 — 떠도는 "I"가 "1"이 되거나 "rn"이 "m"이 되기도 합니다.
두 종류를 투명하게 처리하는 도구도 있고, 스캔에서는 무너지는 도구도 있습니다. 변환 결과가 이상해 보인다면 원본 PDF에서 텍스트를 하이라이트할 수 있는지 확인해 보세요. 안 된다면 OCR 인식이 되는 도구가 필요합니다.
"브라우저에서 PDF를 Word로 변환"이 실제로 의미하는 것
프라이버시 우선 PDF → Word 변환기는 전체 파이프라인을 로컬에서 실행합니다.
- PDF를 끌어다 놓습니다. 브라우저가 파일을 바이트로 읽어들입니다.
- PDF 파서가 텍스트와 위치를 추출합니다. pdf.js처럼 JavaScript와 WebAssembly만으로 동작하는 라이브러리들은 PDF를 페이지별로 파싱하여 모든 텍스트 런을 폰트, 크기, 좌표와 함께 복원할 수 있습니다.
- 레이아웃 휴리스틱이 단락을 재구성합니다. 폰트, 크기, 열 위치가 같은 줄들은 묶입니다. 큰 글자는 제목이 되고, 일관된 들여쓰기는 목록이 되며, 정렬된 셀은 표가 됩니다.
- Word 작성기가 .docx를 조립합니다. docx.js 같은 라이브러리는 재구성된 구조로부터 유효한 Word 파일을 생성합니다. 출력물은 Word, LibreOffice, Google Docs, Pages에서 열리는 진짜 .docx입니다.
이 모두가 브라우저 안에서 일어납니다. 파일은 기기를 떠나지 않습니다. 일반적인 10페이지 PDF라면 전체 파이프라인이 1~3초 걸립니다.
무엇을 잃는지 비교하기
세 가지 흔한 경로를 솔직하게 비교해 봅시다.
브라우저 기반, 업로드 없음. 프라이버시가 보존됩니다. 그럭저럭한 노트북에서 변환은 빠릅니다. 품질은 텍스트 PDF에서는 경쟁력이 있고, 단순한 스캔 PDF에서는 괜찮은 수준입니다. 표나 흔치 않은 레이아웃은 때때로 손으로 다듬어야 합니다. 워터마크도, 하루 할당량도, 대기도 없습니다.
업로드 기반 무료 서비스. 품질은 비슷합니다. 당신의 문서는 제3자 서버에 노출됩니다. 무료 등급은 보통 파일 크기나 일일 횟수, 또는 둘 다를 제한합니다. 많은 서비스가 비용을 내지 않으면 워터마크나 "powered by" 푸터를 붙입니다. 대기 시간은 대부분 네트워크 왕복이지 처리 시간이 아닙니다 — PDF 업로드는 작지만 돌아오는 .docx는 대기열을 거칩니다.
Microsoft Word 본체. Word에는 매우 좋은 품질로 PDF를 편집 가능한 Word 문서로 변환하는 내장 "PDF 열기" 기능이 있습니다. 70~100달러짜리 라이선스나 Microsoft 365 구독이 필요합니다. 변환은 기기 위에서 이루어집니다. 이미 Word를 가진 사람에게는 정말 좋은 선택지입니다. 프라이버시 측면에서는 브라우저 경로와 같습니다.
업로드 문제를 언제 신경 써야 하는가
회의 안건이나 공개된 보고서라면 변환이 어디에서 일어나든 상관없습니다. 문서가 이미 공개되어 있으니 변환기에 올린다고 달라질 것은 없습니다.
다음과 같은 문서에서는 업로드 문제가 진짜입니다.
- 계약서와 법률 문서 — 아직 서명하지 않은 조건, NDA, 합의서
- 의료 기록 — 검사 결과, 처방전, 의사 소견
- 재무 문서 — 세무 신고서, 급여명세서, 은행 거래내역
- HR 문서 — 고용 계약서, 인사 평가, 퇴직 패키지
- 개인 이력서와 자기소개서 — 자택 주소와 전화번호가 포함된 경우
- 사내 자료 — 전략 메모, 재무 전망, 고객 명단
이 중 어느 것에 대해서든 브라우저 기반 변환기는 단순한 부가 기능이 아닙니다. 그것은 진짜 위험 — 당신의 파일이 로그에 기록된 HTTP 요청에, 백업에, 학습 데이터셋에, 또는 거의 잊고 있던 서비스의 미래 데이터 유출 사고에 남는 일 — 을 제거해 줍니다.
더 나은 변환을 위한 팁
어떤 도구를 쓰든 몇 가지 습관이 결과를 개선합니다.
가능하면 텍스트 PDF로 시작하세요. 원본 Word 문서, 소스 PDF, 웹 페이지가 있다면 PDF를 새로 만드세요 — 깨끗한 텍스트 PDF를 변환하는 것이 스캔을 변환하는 것보다 언제나 낫습니다.
과도한 여백을 잘라내세요. 거대한 여백이나 푸터 텍스트에 혼란을 겪는 변환기도 있습니다. 변환 전에 페이지를 정리하면 레이아웃 인식에 도움이 됩니다.
먼저 표를 확인하세요. 표는 변환 오류의 가장 흔한 원인입니다. 중요한 표가 있는 PDF라면 변환 후 스프레드시트에 붙여 넣어 데이터가 잘 정렬되었는지 확인해 보세요.
필요할 때 OCR을 명시적으로 실행하세요. PDF가 스캔이라면 OCR을 한다고 명시한 도구를 선택하거나, 먼저 OCR을 돌려 텍스트 PDF를 만든 뒤 변환하세요.
사본으로 저장하세요. 항상 새 파일로 변환하고, 원본을 덮어쓰지 마세요. PDF가 변하지 않는 데는 이유가 있습니다. 변환에서 무엇인가 중요한 것이 빠졌다면 원본으로 돌아가고 싶어질 수 있습니다.
결론
PDF를 Word로 바꾸는 데 계정도, 신용카드도, 업로드도 필요하지 않습니다. 유료 서비스를 지탱하던 같은 기술이 이제 어떤 최신 브라우저에서도 동작하며, 매일의 문서를 다룰 만큼 빠르고, 민감한 문서를 다룰 만큼 사적입니다. 다음에 Smallpdf나 iLovePDF에 손이 가기 전에 로컬 우선 도구를 먼저 써 보세요. 당신이 변환하는 파일은 당신이 갖고 있는 파일 그대로일 뿐 — 누군가의 서버에 남은 사본이 아닙니다.
