Tekst uit webpagina's extraheren

Het extraheren van tekst van een webpagina kan op verschillende manieren. De methode die u kiest, moet afhangen van het doel dat u voor de tekst in gedachten hebt. Als al uw zakelijke behoeften bestaan ​​uit het afdrukken van de tekst voor gebruik als instructies of richtlijnen, kunt u de tekst alleen als HTML extraheren. Als er afbeeldingen en tekst op de webpagina staan ​​en u wilt de pagina in de oorspronkelijke vorm houden, moet u de volledige webpagina extraheren. Er zijn drie manieren om de tekst uit te pakken en er zijn twee manieren om de tekst en afbeeldingen samen te extraheren.

Alleen tekst uitpakken

1.

Open de webpagina waaruit u tekst wilt extraheren. Klik op het menu "Bestand" en klik op de optie "Opslaan als" of "Pagina opslaan als". Selecteer "Webpagina, alleen HTML" in het vervolgkeuzemenu Opslaan als type, typ een naam voor het bestand en klik op "Opslaan". De tekst wordt geëxtraheerd en opgeslagen als een HTML-bestand met de oorspronkelijke opties voor het opmaken van pagina's intact. Het bestand kan worden bekeken in webbrowsers en het kan worden bewerkt in teksteditors zoals Kladblok.

2.

Klik op de optie 'Opslaan als' of 'Pagina opslaan als' en selecteer 'Tekstbestanden' in het vervolgkeuzemenu Opslaan als type. Typ een naam voor het tekstbestand en klik op 'Opslaan'. De tekst van de webpagina wordt geëxtraheerd en opgeslagen als een tekstbestand dat kan worden bekeken in teksteditors en documentprogramma's zoals Microsoft Word.

3.

Klik en sleep om de tekst te selecteren op de webpagina die u wilt extraheren en druk op "Ctrl-C" om de tekst te kopiëren. Open een teksteditor of documentprogramma en druk op "Ctrl-V" om de tekst van de webpagina in het tekstbestand of documentvenster te plakken. Sla het tekstbestand of document op uw computer op.

Tekst en afbeeldingen uitpakken

1.

Klik op het menu "Bestand" in uw webbrowser en klik op de optie "Opslaan als" of "Pagina opslaan als". Selecteer 'Webpagina, voltooid' in het vervolgkeuzemenu Opslaan als type en typ een naam voor het bestand. Klik op 'Opslaan'. De tekst en afbeeldingen van de webpagina worden geëxtraheerd en opgeslagen. De tekst wordt in een HTML-bestand geplaatst en de afbeeldingen worden in een map op dezelfde locatie als het HTML-bestand geplaatst.

2.

Dubbelklik op het HTML-bestand om de geëxtraheerde tekst en afbeeldingen te bekijken. Ze gaan open in uw webbrowser. De andere methode voor het extraheren van tekst en afbeeldingen is alleen beschikbaar in de Internet Explorer-browser. Open de gewenste webpagina in Internet Explorer voordat u doorgaat naar de volgende stap.

3.

Klik op de optie "Opslaan als" in het menu Bestand en selecteer "Webarchief, enkel bestand (* .mht)" in het vervolgkeuzemenu Opslaan als type. Typ een naam voor het bestand en klik op de knop "Opslaan". De tekst en afbeeldingen worden van de webpagina naar het bestand geëxporteerd. Dubbelklik op het bestand om de geëxtraheerde tekst en afbeeldingen in uw webbrowser te bekijken.

Populaire Berichten