2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Hoe kopieer ik tekst uit een PDF zonder verlies van opmaak?

Als ik tekst uit een PDF-bestand kopieer naar een teksteditor, wordt deze op verschillende manieren gemangeld. Opmaak zoals vet en cursief gaan verloren; zachte regeleinden binnen een alinea tekst worden omgezet in harde regeleinden; streepjes om een woord over twee regels te breken blijven behouden, zelfs als dat niet zou moeten; en enkele en dubbele aanhalingstekens worden vervangen door ? tekens.

Idealiter wil ik tekst uit een PDF kunnen kopiëren en opmaak laten omzetten naar HTML-codes, “slimme aanhalingstekens” laten omzetten naar “ en ‘, en regeleinden goed laten uitvoeren. Is er een manier om dit te doen?

Antwoorden (9)

54
54
54
2010-10-11 21:30:12 +0000

Ten eerste moet je begrijpen wat een PDF is. PDF’s zijn ontworpen om een gedrukte pagina na te bootsen, en ze zijn ontworpen alleen als een output formaat, niet als een input formaat. een PDF is in principe een kaart die de exacte locatie van tekens (individuele letters of interpunctie, enz.) of afbeeldingen bevat. In de meeste gevallen slaat een PDF niet eens informatie op over waar het ene woord eindigt en het andere begint, veel minder dingen als zachte pauzes versus harde pauzes voor alinea-einden.

(Een paar recente PDF’s slaan wel wat informatie over dit soort dingen op, maar dat is een nieuwe technologie, en je hebt geluk dat je zulke PDF’s kunt vinden. Zelfs als je dat zou doen, zou je PDF viewer het misschien niet weten.)

Hoe dan ook, het is aan je software om een soort “kunstmatige intelligentie” te implementeren om alleen maar uit de locaties van individuele karakters te halen wat een woord is, wat een alinea is, enzovoort. Andere software zal dit beter doen dan andere, en het zal ook afhangen van de manier waarop de PDF is gemaakt. In ieder geval moet u nooit een perfect resultaat verwachten. Het hebben van de uitvoer-PDF is niet hetzelfde als het hebben van het brondocument. Veel beter is het om te proberen dat te verkrijgen als je dat kunt.

De standaard oplossing voor jouw soort probleem is om Adobe Acrobat Professional (de dure, niet de gratis reader) te gebruiken om de PDF naar HTML te converteren. Zelfs dat zal geen perfect resultaat opleveren.

Er is gratis software die gebruikt kan worden om tekst uit PDF’s te extraheren met enige opmaak intact, maar nogmaals, verwacht geen perfect resultaat. Zie bijvoorbeeld kaliber (dat naar RTF-formaat kan worden geconverteerd), pdftohtml/pdfreflow of de AbiWord tekstverwerker (met alle import/exportplugins ingeschakeld). Er is ook een PDF-importplugin voor OpenOffice.

Maar verwacht geen perfectie met een van deze resultaten. Je gaat hier tegen de stroom in. PDF is gewoon niet bedoeld als een bewerkbaar invoerformaat.

8
8
8
2013-01-24 07:05:37 +0000

Een andere optie is om te downloaden en te beginnen met de gratis pdf-viewer, Foxit (zijn goed). Vervolgens kunt u ‘Opslaan als’ en kiezen voor .txt om het om te zetten naar een tekstbestand. Zo blijft alle opmaak behouden. Weet niet of je hetzelfde kunt doen in Adobe, want ik ben er een tijdje geleden mee gestopt toen ik naar Foxit converteerde.

5
5
5
2012-12-01 13:48:55 +0000

Open uw PDF-bestand met een browser (Google Chrome en Firefox zijn getest) en kopieer daar uw tekst.

5
5
5
2012-12-01 14:29:34 +0000

Er is een zeer goede online tool genaamd Sej-da. Het gaat over Geavanceerde PDF Manipulatie. Er is geen software om te downloaden. Aangezien het een nieuw online hulpmiddel is, is het op dit moment nog steeds in Beta. Het stelt u in staat om tekst uit een PDF te halen, evenals een groot aantal andere PDF-functionaliteiten http://www.sejda.com/

Een korte videoreview van de sejda-functies werd gedaan 14 november 2012 door Revisie 3 het kan hier worden gevonden: http://revision3.com/tzdaily/sejda-online-pdf

4
4
4
2012-09-06 19:00:19 +0000

U kunt hiervoor Adobe Acrobat Pro gebruiken.

Voor tabellen: Bij Acrobat 9/10 was er een selectieve tabellenfunctie. Met Acrobat X kun je gewoon op Opslaan als> Spreadsheet> Excel klikken. Het voegt zelfs pagina’s samen tot één lange spreadsheet. Geweldige functie.

Voor tekst: Een soortgelijke functie bestaat voor het exporteren naar MS Word. Bewaar als een tekst> Word> Word Doc.

Bronnen:

0
0
0
2015-04-13 11:19:56 +0000

Foxit zal schakelen tussen het weergeven van het originele bestand als normale PDF of als tekst door op Ctrl + 6 te drukken (met een beetje gepruts met het zoomniveau van de tekstmodus wordt er niet veel heen en weer gesprongen tussen het lezen en kopiëren)

0
0
0
2017-02-25 23:17:51 +0000

Ik vond dit zeer nuttig ( Remove Line Breaks ):

Hier is een handige truc om dit snel op te lossen zonder alle lijnbreuken handmatig te hoeven verwijderen. In principe is het enige wat het doet, het automatisch vervangen van alle ongewenste regeleinden door een enkele spatie, waardoor alle tekst samenloopt in een enkele paragraaf:

1- kopieer de tekst die je wilt hebben van de PDF.

2 - plakken in een nieuw Word-document.

3- klik “bewerken” dan “vervangen”

4- zorg ervoor dat je in het “vind wat” veld

5- klik “meer” dan “speciaal”

6- selecteer “paragraaf markering” (boven in de lijst)

7- klik in het “vervang door” veld

8- druk de spatiebalk eenmaal in

9- klik “vervang alles”

10 klik “ok” en sluit dan het “vind & vervang” vakje.

-1
-1
-1
2016-01-22 16:15:08 +0000

Ik probeerde de tekst en het formaat van een pdf op te slaan in een tabel. In Acrobat Professional realiseerde ik me dat er een ‘Save As’ optie is die het mogelijk maakt om op te slaan als een excel-document. Dit werkte goed voor mijn behoeften. Ik merkte ook dat er een Save As Word-documentoptie is. Ik heb het echter niet geprobeerd.

-1
-1
-1
2015-12-11 04:23:43 +0000

U kunt van adobe reader naar MS Excel kopiëren en de gewenste opmaak (tabel) maken en vervolgens vanuit Excel kopiëren en plakken. Deze oplossing werkt geweldig. U hoeft geen dure professionele kopie van adobe te kopen.