কপি-পেস্ট কাজ না করলে PDF থেকে টেক্সট বের করা
আপনি একটি PDF খুলেছেন, কিছু টেক্সট সিলেক্ট করতে চেষ্টা করছেন, কিন্তু কিছুই হচ্ছে না। কার্সর কিছু হাইলাইট করছে না। বা আরও খারাপ, আপনি টেক্সট সিলেক্ট ও কপি করতে পেরেছেন, একটি ডকুমেন্টে পেস্ট করেছেন, আর পেয়েছেন এলোমেলো অক্ষর এবং ভাঙা ফরম্যাটিং।
এটি সবচেয়ে সাধারণ PDF হতাশাগুলোর একটি, এবং আপনি যতটা ভাবেন তার চেয়ে বেশি ঘটে। ভালো খবর হলো প্রায় সবসময়ই একটি সমাধান আছে।
কেন PDF-এ কপি-পেস্ট ব্যর্থ হয়
সব PDF সমানভাবে তৈরি হয় না। আপনি কেন টেক্সট কপি করতে পারছেন না তা নির্ভর করে PDF কীভাবে তৈরি হয়েছে তার উপর।
কারণ ১: PDF একটি স্ক্যান করা ছবি
এটি সবচেয়ে সাধারণ কারণ। যখন আপনি একটি কাগজের ডকুমেন্ট স্ক্যান করেন, স্ক্যানার প্রতিটি পৃষ্ঠার ছবি তোলে। ফলে PDF-এ থাকে ছবি, টেক্সট নয়। আপনার চোখে পৃষ্ঠায় শব্দ দেখা যায়। কম্পিউটারের কাছে এটি কেবল পিক্সেল, একটি ফটোগ্রাফ থেকে ভিন্ন কিছু নয়।
আপনি সাধারণত জুম ইন করে একটি স্ক্যান করা PDF চিনতে পারেন। যদি উচ্চ জুম লেভেলে টেক্সট পিক্সেলেটেড বা দানাদার হয়ে যায়, এটি একটি ছবি। টেক্সট-ভিত্তিক PDF যেকোনো জুম লেভেলে পরিষ্কার থাকে।
আপনি কি জানতেন? একটি PDF একই পৃষ্ঠায় আসল টেক্সট এবং স্ক্যান করা ছবির মিশ্রণ থাকতে পারে। কিছু স্ক্যানার মৌলিক OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) সম্পাদন করে এবং ছবির পিছনে একটি অদৃশ্য টেক্সট স্তর এম্বেড করে, দৃশ্যমান বিষয়বস্তু স্ক্যান হলেও টেক্সট সিলেক্টযোগ্য করে তোলে।
কারণ ২: PDF সুরক্ষিত
PDF লেখকরা ব্যবহারকারীরা ডকুমেন্টের সাথে কী করতে পারে তা সীমাবদ্ধ করে অনুমতি সেট করতে পারেন। একটি সাধারণ সীমাবদ্ধতা হলো টেক্সট সিলেকশন এবং কপি অক্ষম করা। এটি প্রায়ই কপিরাইটযুক্ত উপাদান, পরীক্ষার প্রশ্নপত্র বা মালিকানাধীন রিপোর্টের জন্য ব্যবহৃত হয়।
যখন একটি PDF কপি-সুরক্ষিত, আপনি সাধারণত টেক্সট দেখতে ও পড়তে পারেন, কিন্তু আপনার কার্সর এটি সিলেক্ট করবে না, বা কপি ফাংশন ধূসর হয়ে যায়।
কারণ ৩: টেক্সট এনকোডিং ভাঙা
কিছু PDF কাস্টম ফন্ট এনকোডিং বা এম্বেডেড সাবসেট ব্যবহার করে যা মানক অক্ষরে ম্যাপ হয় না। টেক্সট টেকনিক্যালি আছে, এবং আপনি এটি সিলেক্ট করতে পারেন, কিন্তু অন্যত্র পেস্ট করলে "The quick brown fox"-এর পরিবর্তে "Wkh txlfn eurzq ira"-এর মতো বিকৃত আউটপুট পান।
এটি প্রায়ই পুরানো সফটওয়্যার, নির্দিষ্ট LaTeX কনফিগারেশন, বা ডিজাইন টুল দিয়ে তৈরি PDF-এ ঘটে যা টেক্সটকে আউটলাইনে রূপান্তর করে।
দুই ধরনের PDF বোঝা
সমস্যা সমাধানে, দুটি প্রধান ধরনের PDF বিষয়বস্তুর মধ্যে মৌলিক পার্থক্য বোঝা সহায়ক।
টেক্সট-ভিত্তিক PDF (ডিজিটাল-নেটিভ)
এগুলো সরাসরি ওয়ার্ড প্রসেসর, স্প্রেডশিট, ওয়েব পেজ বা ডিজাইন অ্যাপ্লিকেশন থেকে তৈরি। ফাইলের মধ্যে প্রকৃত ক্যারেক্টার ডেটা হিসেবে টেক্সট বিদ্যমান। এই PDF গুলো সার্চযোগ্য, সিলেক্টযোগ্য এবং সাধারণত ফাইল আকারে ছোট।
উদাহরণ: Word, Google Docs বা ওয়েব ব্রাউজার থেকে "Print to PDF" ব্যবহার করে রপ্তানি করা ডকুমেন্ট।
ছবি-ভিত্তিক PDF (স্ক্যান করা)
এগুলোতে পৃষ্ঠার ফটোগ্রাফ থাকে। ফাইলের মধ্যে কোনো আসল টেক্সট ডেটা নেই। প্রতিটি পৃষ্ঠা মূলত একটি ছবি। এই PDF গুলো সার্চযোগ্য নয়, সিলেক্টযোগ্য নয়, এবং সাধারণত অনেক বড়।
উদাহরণ: ফ্ল্যাটবেড স্ক্যানার, ফোন ক্যামেরা স্ক্যান অ্যাপ, বা ফ্যাক্স-থেকে-PDF সেবা থেকে তৈরি ডকুমেন্ট।
যদি টেক্সট সিলেক্ট না হয় বা ভুলভাবে পেস্ট হয়, আপনার একটি টেক্সট নিষ্কাশন টুল দরকার।
কপি-পেস্ট ব্যর্থ হলে কীভাবে টেক্সট বের করবেন
স্ক্যান করা PDF-এর জন্য: OCR
Optical Character Recognition (OCR) হলো সেই প্রযুক্তি যা ছবি থেকে টেক্সট পড়ে। আধুনিক OCR ইঞ্জিন অত্যন্ত নির্ভুল, বিশেষত পরিষ্কারভাবে মুদ্রিত ডকুমেন্টে। তারা ছবিতে অক্ষরের আকৃতি বিশ্লেষণ করে সম্পাদনযোগ্য টেক্সটে রূপান্তর করে।
OCR সবচেয়ে ভালো কাজ করে যখন:
- ডকুমেন্ট মুদ্রিত (হাতে লেখা নয়)
- স্ক্যানের গুণমান যুক্তিসঙ্গত (150 DPI বা তার বেশি)
- টেক্সট সাধারণ ভাষায়
- পৃষ্ঠা বেশি তির্যক বা ঘোরানো নয়
সতর্কতা OCR নিখুঁত নয়। হাতের লেখা, অস্বাভাবিক ফন্ট, নিম্নমানের স্ক্যান, বা জটিল লেআউটের (যেমন টেবিল ও ছবিসহ মাল্টি-কলাম টেক্সট) ডকুমেন্টে সমস্যা হতে পারে। গুরুত্বপূর্ণ ডকুমেন্টে ব্যবহারের আগে সর্বদা OCR আউটপুট প্রুফরিড করুন।
সুরক্ষিত PDF-এর জন্য
যদি একটি PDF-এ কপি সীমাবদ্ধতা থাকে, একটি টেক্সট নিষ্কাশন টুল প্রায়ই অনুমতি সেটিংস নির্বিশেষে অন্তর্নিহিত টেক্সট ডেটা পড়তে পারে। টেক্সট ফাইলে এখনো আছে; মানক PDF ভিউয়ারে শুধু কপি ফাংশনটি অক্ষম করা হয়েছে।
এনকোডিং সমস্যার জন্য
যখন টেক্সট আছে কিন্তু বিকৃত, নিষ্কাশন টুল কখনো কখনো ক্যারেক্টার ম্যাপিং সঠিকভাবে ব্যাখ্যা করতে এবং পরিষ্কার আউটপুট দিতে পারে। যদি তা ব্যর্থ হয়, OCR পৃষ্ঠাটিকে ছবি হিসেবে বিবেচনা করে অক্ষরগুলো পুনরায় চিনতে পারে।
আরও ভালো টেক্সট নিষ্কাশনের ব্যবহারিক পরামর্শ
প্রথমে উৎস পরীক্ষা করুন। PDF থেকে টেক্সট বের করার আগে, মূল ডকুমেন্ট পাওয়া যায় কিনা দেখুন। কেউ আপনাকে Word ডকুমেন্টের PDF পাঠিয়ে থাকলে, Word ফাইলটি চান।
স্ক্যানের গুণমান উন্নত করুন। আপনি নিজে ডকুমেন্ট স্ক্যান করলে, কমপক্ষে 200 DPI ব্যবহার করুন এবং কাগজ সমতল ও ভালো আলোতে আছে কিনা নিশ্চিত করুন। ছায়া, ভাঁজ এবং কম রেজোলিউশন সব OCR নির্ভুলতা কমায়।
তির্যক পৃষ্ঠা সোজা করুন। একটি স্ক্যান ঘোরানো বা তির্যক হলে, OCR চালানোর আগে সোজা করুন। বেশিরভাগ স্ক্যানিং অ্যাপে ডিস্কিউ অপশন আছে।
শুধু একটি পৃষ্ঠা নয়, পুরো ডকুমেন্ট চেষ্টা করুন। কিছু টুল পুরো ডকুমেন্ট একসাথে প্রসেস করলে ভালো কাজ করে, কারণ পার্শ্ববর্তী পৃষ্ঠার প্রসঙ্গ নির্ভুলতা উন্নত করতে সাহায্য করে।
ফলাফল প্রুফরিড করুন। OCR আউটপুট সর্বদা পর্যালোচনা করা উচিত। সাধারণ ত্রুটিগুলোর মধ্যে রয়েছে "l" আর "1", "O" আর "0" গুলিয়ে ফেলা, এবং বিরাম চিহ্ন ভুল পড়া।
পরামর্শ আপনি স্ক্যান করা ডকুমেন্ট সহ যেকোনো PDF থেকে বিনামূল্যে আপনার ব্রাউজারে টেক্সট বের করতে পারেন। আমাদের টুল টেক্সট-ভিত্তিক এবং ছবি-ভিত্তিক দুই ধরনের PDF স্বয়ংক্রিয়ভাবে পরিচালনা করে।
বের করা টেক্সট দিয়ে আপনি কী করতে পারেন
একবার টেক্সট পেলে, সম্ভাবনাগুলো উন্মুক্ত হয়:
- ওয়ার্ড প্রসেসরে বিষয়বস্তু এডিট করুন
- পৃষ্ঠায় পৃষ্ঠায় স্ক্রোল না করে নির্দিষ্ট তথ্য অনুসন্ধান করুন
- টেক্সট অন্য ভাষায় অনুবাদ করুন
- অন্য ডকুমেন্ট বা উপস্থাপনার জন্য বিষয়বস্তু পুনরায় ফরম্যাট করুন
- টেবিল ও ফর্ম থেকে ডেটা বিশ্লেষণ করুন
- স্ক্রিন রিডারের জন্য ডকুমেন্টের অ্যাক্সেসযোগ্য সংস্করণ তৈরি করুন
সাধারণ ব্যবহারের ক্ষেত্র
- ছাত্ররা নোটের জন্য একাডেমিক পেপার ও পাঠ্যবই থেকে টেক্সট বের করছে
- আইনজীবীরা তুলনার জন্য স্ক্যান করা চুক্তি থেকে ধারা বের করছেন
- হিসাবরক্ষকরা স্ক্যান করা চালান ও রসিদ থেকে ডেটা বের করছেন
- গবেষকরা বিশ্লেষণের জন্য পুরানো মুদ্রিত উপকরণ ডিজিটাইজ করছেন
- প্রশাসনিক কর্মীরা স্ক্যান করা ফর্মকে সম্পাদনযোগ্য ডকুমেন্টে রূপান্তর করছেন
এখনই একটি PDF থেকে টেক্সট বের করতে চান? আমাদের ধাপে ধাপে গাইড অনুসরণ করুন: কীভাবে PDF টেক্সট বের করবেন। এটি টেক্সট-ভিত্তিক এবং স্ক্যান করা দুই ধরনের PDF-এ কাজ করে, সরাসরি আপনার ব্রাউজারে।