ما هو استخراج نص HTML؟

استخراج نص HTML هو عملية إزالة جميع علامات الترميز والسمات والأكواد من مستند HTML لاسترجاع محتوى النص القابل للقراءة من قبل الإنسان فقط. HTML (لغة الترميز النصية الفائقة) تنظم صفحات الويب باستخدام علامات مثل <p> و <div> و <span> ومئات العلامات الأخرى التي تحدد كيفية عرض المحتوى. بينما تعرض المتصفحات هذه العلامات بشكل غير مرئي، يحتوي الكود المصدري الأساسي على أكثر بكثير من مجرد نص.

عندما تنسخ نصًا من صفحة ويب، تحصل عادةً على نص نظيف. لكن عند العمل مع كود HTML المصدري الخام، يتطلب استخراج النص ذي المعنى تحليل العلامات المتداخلة والتعامل مع العناصر الخاصة مثل البرامج النصية والأنماط وإدارة المسافات البيضاء بشكل صحيح. هذا مهم بشكل خاص للمهام مثل تحليل المحتوى والهجرة البيانات وتدقيق إمكانية الوصول أو تحضير النص لمعالجة إضافية.

وصف الأداة

تزيل هذه الأداة جميع علامات HTML وتستخرج محتوى النص النقي من أي إدخال HTML. تتعامل بذكاء مع العناصر على مستوى الكتلة والمحتوى المضمن والعناصر الخاصة مثل كتل البرامج النصية والأنماط. يتم عرض النص المستخرج مع عناصر تحكم في التنسيق الاختياري وإحصائيات شاملة عن المحتوى.

أمثلة

الإدخال:

<html>
  <head>
    <style>
      body {
        color: black;
      }
    </style>
    <script>
      console.log("Hello");
    </script>
  </head>
  <body>
    <h1>Welcome to Our Site</h1>
    <p>
      This is a <strong>sample</strong> paragraph with <em>formatted</em> text.
    </p>
    <ul>
      <li>First item</li>
      <li>Second item</li>
    </ul>
    <!-- This is a comment -->
  </body>
</html>

الإخراج:

Welcome to Our Site

This is a sample paragraph with formatted text.

First item

Second item

الميزات

  • إزالة جميع علامات HTML مع الحفاظ على محتوى النص
  • استبعاد محتوى البرامج النصية والأنماط والتعليقات افتراضيًا
  • الحفاظ على هيكل المستند مع معالجة ذكية لفواصل الأسطر
  • إحصائيات فورية للأحرف والكلمات والأسطر والفقرات
  • محرر إدخال HTML مع تمييز بناء الجملة

شرح الخيارات

الخيار الوصف
الحفاظ على فواصل الأسطر تحويل عناصر HTML على مستوى الكتلة (الفقرات والأقسام والعناوين وعناصر القائمة) إلى فواصل أسطر، مع الحفاظ على البنية المرئية للمستند
إزالة المسافات البيضاء الإضافية دمج عدة مسافات متتالية في مسافة واحدة وتطبيع فواصل الأسطر، مما ينتج عنه إخراج أنظف
استبعاد البرامج النصية إزالة جميع علامات <script> ومحتوى JavaScript الخاص بها من الاستخراج
استبعاد الأنماط إزالة جميع علامات <style> ومحتوى CSS الخاص بها من الاستخراج
استبعاد التعليقات إزالة تعليقات HTML (<!-- ... -->) من الاستخراج

حالات الاستخدام

  • هجرة المحتوى: استخراج النص من صفحات HTML القديمة عند نقل المحتوى إلى نظام إدارة محتوى جديد أو منصة دون نقل الترميز القديم
  • تحليل SEO: تحليل محتوى النص الفعلي لصفحة ويب للتحقق من كثافة الكلمات الرئيسية أو درجات القراءة أو طول المحتوى دون تدخل العلامات
  • معالجة البيانات: تحضير محتوى HTML لمعالجة اللغة الطبيعية أو تحليل النص أو خطوط أنابيب التعلم الآلي التي تتطلب إدخال نص عادي