HTML-tekstextractor
Extraheer platte tekst uit HTML-documenten door alle tags, scripts, stijlen en opmerkingen te verwijderen
Invoer
Uitvoer
Readme
Wat is HTML-tekstextractie?
HTML-tekstextractie is het proces waarbij alle opmaaktags, attributen en code uit een HTML-document worden verwijderd om alleen de voor mensen leesbare tekstinhoud op te halen. HTML (HyperText Markup Language) structureert webpagina's met behulp van tags zoals <p>, <div>, <span> en honderden anderen die bepalen hoe inhoud wordt weergegeven. Hoewel browsers deze tags onzichtbaar weergeven, bevat de onderliggende broncode veel meer dan alleen tekst.
Wanneer u tekst van een webpagina kopieert, krijgt u doorgaans schone tekst. Maar bij het werken met onbewerkte HTML-broncode vereist het extraheren van betekenisvolle tekst het parseren van geneste tags, het afhandelen van speciale elementen zoals scripts en stijlen, en het correct beheren van witruimte. Dit is vooral belangrijk voor taken zoals inhoudsanalyse, gegevensmigratie, toegankelijkheidscontrole of het voorbereiden van tekst voor verdere verwerking.
Hulpprogrammabeschrijving
Dit hulpprogramma verwijdert alle HTML-tags en extraheert zuivere tekstinhoud uit elke HTML-invoer. Het verwerkt op intelligente wijze blok-niveau elementen, inline-inhoud en speciale elementen zoals script- en stijlblokken. De geëxtraheerde tekst wordt gepresenteerd met optionele opmaakbesturingselementen en uitgebreide statistieken over de inhoud.
Voorbeelden
Invoer:
<html>
<head>
<style>
body {
color: black;
}
</style>
<script>
console.log("Hello");
</script>
</head>
<body>
<h1>Welkom op onze site</h1>
<p>
Dit is een <strong>voorbeeldparagraaf</strong> met
<em>opgemaakte</em> tekst.
</p>
<ul>
<li>Eerste item</li>
<li>Tweede item</li>
</ul>
<!-- Dit is een opmerking -->
</body>
</html>Uitvoer:
Welkom op onze site
Dit is een voorbeeldparagraaf met opgemaakte tekst.
Eerste item
Tweede itemFuncties
- Verwijdert alle HTML-tags terwijl tekstinhoud behouden blijft
- Sluit script-, stijl- en opmerkingeninhoud standaard uit
- Behoudt documentstructuur met intelligente regelafbreking
- Statistieken in real-time voor tekens, woorden, regels en alinea's
- Syntaxisgemarkeerde HTML-invoereditor
Opties uitgelegd
| Optie | Beschrijving |
|---|---|
| Regelafbrekingen behouden | Converteert HTML-elementen op blokniveau (alinea's, div's, koppen, lijstitems) naar regelafbrekingen, waarbij de visuele structuur van het document behouden blijft |
| Extra witruimte verwijderen | Vouwt meerdere opeenvolgende spaties samen tot enkele spaties en normaliseert regelafbrekingen, wat leidt tot schonere uitvoer |
| Scripts uitsluiten | Verwijdert alle <script>-tags en hun JavaScript-inhoud uit de extractie |
| Stijlen uitsluiten | Verwijdert alle <style>-tags en hun CSS-inhoud uit de extractie |
| Opmerkingen uitsluiten | Verwijdert HTML-opmerkingen (<!-- ... -->) uit de extractie |
Gebruiksscenario's
- Inhoudsmigratie: Extraheer tekst uit verouderde HTML-pagina's bij het verplaatsen van inhoud naar een nieuw CMS of platform zonder verouderde opmaak mee te nemen
- SEO-analyse: Analyseer de werkelijke tekstinhoud van een webpagina om trefwoorddichtheid, leesbaarheidsscores of inhoudslengte te controleren zonder taginterferentie
- Gegevensverwerking: Bereid HTML-inhoud voor op natuurlijke taalverwerking, tekstanalyse of machine learning-pijplijnen die invoer in platte tekst vereisen