أداة استخراج نصوص HTML
استخراج النص العادي من مستندات HTML بإزالة جميع الوسوم والبرامج النصية والأنماط والتعليقات
الإدخال
الإخراج
ملف القراءة
ما هو استخراج نص HTML؟
استخراج نص HTML هو عملية إزالة جميع علامات الترميز والسمات والأكواد من مستند HTML لاسترجاع محتوى النص القابل للقراءة من قبل الإنسان فقط. HTML (لغة الترميز النصية الفائقة) تنظم صفحات الويب باستخدام علامات مثل <p> و <div> و <span> ومئات العلامات الأخرى التي تحدد كيفية عرض المحتوى. بينما تعرض المتصفحات هذه العلامات بشكل غير مرئي، يحتوي الكود المصدري الأساسي على أكثر بكثير من مجرد نص.
عندما تنسخ نصًا من صفحة ويب، تحصل عادةً على نص نظيف. لكن عند العمل مع كود HTML المصدري الخام، يتطلب استخراج النص ذي المعنى تحليل العلامات المتداخلة والتعامل مع العناصر الخاصة مثل البرامج النصية والأنماط وإدارة المسافات البيضاء بشكل صحيح. هذا مهم بشكل خاص للمهام مثل تحليل المحتوى والهجرة البيانات وتدقيق إمكانية الوصول أو تحضير النص لمعالجة إضافية.
وصف الأداة
تزيل هذه الأداة جميع علامات HTML وتستخرج محتوى النص النقي من أي إدخال HTML. تتعامل بذكاء مع العناصر على مستوى الكتلة والمحتوى المضمن والعناصر الخاصة مثل كتل البرامج النصية والأنماط. يتم عرض النص المستخرج مع عناصر تحكم في التنسيق الاختياري وإحصائيات شاملة عن المحتوى.
أمثلة
الإدخال:
<html>
<head>
<style>
body {
color: black;
}
</style>
<script>
console.log("Hello");
</script>
</head>
<body>
<h1>Welcome to Our Site</h1>
<p>
This is a <strong>sample</strong> paragraph with <em>formatted</em> text.
</p>
<ul>
<li>First item</li>
<li>Second item</li>
</ul>
<!-- This is a comment -->
</body>
</html>الإخراج:
Welcome to Our Site
This is a sample paragraph with formatted text.
First item
Second itemالميزات
- إزالة جميع علامات HTML مع الحفاظ على محتوى النص
- استبعاد محتوى البرامج النصية والأنماط والتعليقات افتراضيًا
- الحفاظ على هيكل المستند مع معالجة ذكية لفواصل الأسطر
- إحصائيات فورية للأحرف والكلمات والأسطر والفقرات
- محرر إدخال HTML مع تمييز بناء الجملة
شرح الخيارات
| الخيار | الوصف |
|---|---|
| الحفاظ على فواصل الأسطر | تحويل عناصر HTML على مستوى الكتلة (الفقرات والأقسام والعناوين وعناصر القائمة) إلى فواصل أسطر، مع الحفاظ على البنية المرئية للمستند |
| إزالة المسافات البيضاء الإضافية | دمج عدة مسافات متتالية في مسافة واحدة وتطبيع فواصل الأسطر، مما ينتج عنه إخراج أنظف |
| استبعاد البرامج النصية | إزالة جميع علامات <script> ومحتوى JavaScript الخاص بها من الاستخراج |
| استبعاد الأنماط | إزالة جميع علامات <style> ومحتوى CSS الخاص بها من الاستخراج |
| استبعاد التعليقات | إزالة تعليقات HTML (<!-- ... -->) من الاستخراج |
حالات الاستخدام
- هجرة المحتوى: استخراج النص من صفحات HTML القديمة عند نقل المحتوى إلى نظام إدارة محتوى جديد أو منصة دون نقل الترميز القديم
- تحليل SEO: تحليل محتوى النص الفعلي لصفحة ويب للتحقق من كثافة الكلمات الرئيسية أو درجات القراءة أو طول المحتوى دون تدخل العلامات
- معالجة البيانات: تحضير محتوى HTML لمعالجة اللغة الطبيعية أو تحليل النص أو خطوط أنابيب التعلم الآلي التي تتطلب إدخال نص عادي