HTML টেক্সট এক্সট্র্যাক্টর
সমস্ত ট্যাগ, স্ক্রিপ্ট, স্টাইল এবং মন্তব্য সরিয়ে HTML ডকুমেন্ট থেকে সাধারণ টেক্সট নিষ্কাশন করুন
ইনপুট
আউটপুট
রিডমি
HTML টেক্সট এক্সট্র্যাকশন কী?
HTML টেক্সট এক্সট্র্যাকশন হল একটি HTML ডকুমেন্ট থেকে সমস্ত মার্কআপ ট্যাগ, অ্যাট্রিবিউট এবং কোড সরিয়ে শুধুমাত্র মানব-পাঠযোগ্য টেক্সট কন্টেন্ট পুনরুদ্ধার করার প্রক্রিয়া। HTML (HyperText Markup Language) ওয়েব পেজগুলিকে <p>, <div>, <span> এবং আরও শত শত ট্যাগ ব্যবহার করে কাঠামোবদ্ধ করে যা কন্টেন্ট কীভাবে প্রদর্শিত হয় তা সংজ্ঞায়িত করে। ব্রাউজারগুলি এই ট্যাগগুলি অদৃশ্যভাবে রেন্ডার করে, তবে অন্তর্নিহিত সোর্স কোডে শুধুমাত্র টেক্সটের চেয়ে অনেক বেশি কিছু রয়েছে।
যখন আপনি একটি ওয়েবপেজ থেকে টেক্সট কপি করেন, আপনি সাধারণত পরিষ্কার টেক্সট পান। কিন্তু কাঁচা HTML সোর্স কোডের সাথে কাজ করার সময়, অর্থপূর্ণ টেক্সট এক্সট্র্যাক্ট করার জন্য নেস্টেড ট্যাগের মধ্য দিয়ে পার্সিং করা, স্ক্রিপ্ট এবং স্টাইলের মতো বিশেষ উপাদানগুলি পরিচালনা করা এবং হোয়াইটস্পেস সঠিকভাবে পরিচালনা করা প্রয়োজন। এটি বিশেষত গুরুত্বপূর্ণ কন্টেন্ট বিশ্লেষণ, ডেটা মাইগ্রেশন, অ্যাক্সেসিবিলিটি অডিটিং বা আরও প্রক্রিয়াকরণের জন্য টেক্সট প্রস্তুত করার মতো কাজের জন্য।
টুল বর্ণনা
এই টুলটি যেকোনো HTML ইনপুট থেকে সমস্ত HTML ট্যাগ সরিয়ে বিশুদ্ধ টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করে। এটি বুদ্ধিমানের সাথে ব্লক-লেভেল উপাদান, ইনলাইন কন্টেন্ট এবং স্ক্রিপ্ট এবং স্টাইল ব্লকের মতো বিশেষ উপাদানগুলি পরিচালনা করে। এক্সট্র্যাক্ট করা টেক্সট ঐচ্ছিক ফরম্যাটিং নিয়ন্ত্রণ এবং কন্টেন্ট সম্পর্কে ব্যাপক পরিসংখ্যান সহ উপস্থাপন করা হয়।
উদাহরণ
ইনপুট:
<html>
<head>
<style>
body {
color: black;
}
</style>
<script>
console.log("Hello");
</script>
</head>
<body>
<h1>Welcome to Our Site</h1>
<p>
This is a <strong>sample</strong> paragraph with <em>formatted</em> text.
</p>
<ul>
<li>First item</li>
<li>Second item</li>
</ul>
<!-- This is a comment -->
</body>
</html>আউটপুট:
Welcome to Our Site
This is a sample paragraph with formatted text.
First item
Second itemবৈশিষ্ট্য
- টেক্সট কন্টেন্ট সংরক্ষণ করার সময় সমস্ত HTML ট্যাগ সরিয়ে দেয়
- ডিফল্টরূপে স্ক্রিপ্ট, স্টাইল এবং মন্তব্য কন্টেন্ট বাদ দেয়
- বুদ্ধিমান লাইন ব্রেক হ্যান্ডলিং সহ ডকুমেন্ট কাঠামো সংরক্ষণ করে
- রিয়েল-টাইম ক্যারেক্টার, শব্দ, লাইন এবং অনুচ্ছেদ পরিসংখ্যান
- সিনট্যাক্স-হাইলাইট করা HTML ইনপুট এডিটর
বিকল্পগুলি ব্যাখ্যা করা হয়েছে
| বিকল্প | বর্ণনা |
|---|---|
| লাইন ব্রেক সংরক্ষণ করুন | ব্লক-লেভেল HTML উপাদান (অনুচ্ছেদ, divs, শিরোনাম, তালিকা আইটেম) কে লাইন ব্রেকে রূপান্তরিত করে, ডকুমেন্টের ভিজ্যুয়াল কাঠামো বজায় রাখে |
| অতিরিক্ত হোয়াইটস্পেস সরান | একাধিক ক্রমাগত স্পেসকে একক স্পেসে সংকুচিত করে এবং লাইন ব্রেক সাধারণ করে, পরিষ্কার আউটপুট তৈরি করে |
| স্ক্রিপ্ট বাদ দিন | এক্সট্র্যাকশন থেকে সমস্ত <script> ট্যাগ এবং তাদের JavaScript কন্টেন্ট সরিয়ে দেয় |
| স্টাইল বাদ দিন | এক্সট্র্যাকশন থেকে সমস্ত <style> ট্যাগ এবং তাদের CSS কন্টেন্ট সরিয়ে দেয় |
| মন্তব্য বাদ দিন | এক্সট্র্যাকশন থেকে HTML মন্তব্য (<!-- ... -->) সরিয়ে দেয় |
ব্যবহারের ক্ষেত্র
- কন্টেন্ট মাইগ্রেশন: লিগেসি HTML পেজ থেকে টেক্সট এক্সট্র্যাক্ট করুন যখন একটি নতুন CMS বা প্ল্যাটফর্মে কন্টেন্ট স্থানান্তরিত করছেন পুরানো মার্কআপ ছাড়াই
- SEO বিশ্লেষণ: ট্যাগ হস্তক্ষেপ ছাড়াই কীওয়ার্ড ঘনত্ব, পাঠযোগ্যতা স্কোর বা কন্টেন্ট দৈর্ঘ্য পরীক্ষা করতে একটি ওয়েবপেজের প্রকৃত টেক্সট কন্টেন্ট বিশ্লেষণ করুন
- ডেটা প্রক্রিয়াকরণ: প্রাকৃতিক ভাষা প্রক্রিয়াকরণ, টেক্সট বিশ্লেষণ বা মেশিন লার্নিং পাইপলাইনের জন্য HTML কন্টেন্ট প্রস্তুত করুন যা সাধারণ টেক্সট ইনপুট প্রয়োজন