2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

PDF heeft vervormde tekst bij het kopiëren en plakken

Ik probeer tekst uit een PDF-bestand te kopiëren en te plakken.

Echter, wanneer ik de originele tekst plak is het een grote warboel van tekens. De tekst ziet er als volgt uit (dit is slechts een klein fragment):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Ik heb het geprobeerd in zowel Adobe als Foxit PDF lezers. Ik heb een ‘Opslaan als tekst’ gedaan in Adobe Reader en het resulterende tekstbestand is dezelfde verminkte tekst.

Iemand een idee hoe ik deze tekst er niet-vervormd uit kan krijgen? (Anders dan handmatig typen… er is veel tekst uit te halen).

Antwoorden (11)

11
11
11
2011-04-08 14:40:29 +0000

De eenvoudigste manier om dit te omzeilen is om het bestand te openen in een recente versie van Google Chrome met ingebouwde PDF-lees-plugin. Dan kun je Chrome’s zoekfunctie gebruiken om tekst te vinden, en het kopiëren en plakken werkt correct.

Ik zou pipitas’ commentaar op Shiki’s antwoord graag omhoog willen stemmen, maar ik heb de geloofsbrieven niet :( Het probleem kan liggen in custom font encoding, niet in encryptie. Klik in Acrobat op Bestand > Eigenschappen, klik dan op het tabblad Lettertypen om de codering te zien, en op het tabblad Beveiliging om te zien of het gecodeerd is.

4
4
4
2012-03-18 14:36:54 +0000

Er is nog een heel makkelijke manier om dit te omzeilen :)

Druk het document gewoon af met CutePdf, Adobe 2 Pdf printer of iets dergelijks. Waar het op neerkomt is, dat je moet afdrukken in pdf-formaat.

In veel gevallen zal dat het probleem gemakkelijk verhelpen.

4
4
4
2010-05-18 22:18:44 +0000

Ik ontdekte dit probleem met PDF’s die ik had gemaakt, en ik geloof dat ik de bron van het probleem heb gevonden: het gebruik van Mac OS X’s Voorvertoning om de bestandsgrootte van PDF’s te verkleinen.

Ik had een aantal Quartz filters gemaakt met Colorsync Utility om afbeeldingen in PDF’s te comprimeren om de totale bestandsgrootte van PDF’s met afbeeldingen te verkleinen. Zoals hier beschreven: http://www.macosxhints.com/article.php?story=20031106133852693

Ik heb ontdekt dat ik gemakkelijk tekst kan kopiëren en plakken uit het originele (ongecomprimeerde) PDF-bestand, maar nadat ik die PDF door een Reduce File Size filter heb gehaald die ik heb gemaakt, kopieert en plakt de resulterende gecomprimeerde PDF niet duidelijk (het ziet er uit als de tekenreeksen die u hebt gepost).

Maar als je diezelfde originele PDF door Adobe Acrobat Pro’s Document- Reduce File Size-functie haalt, kan de resulterende gecomprimeerde PDF met succes tekst kopiëren en plakken.

Dus, dit is niet helemaal nuttig in uw geval, ervan uitgaande dat uw PDF-bestand werd ontvangen van elders en je kunt niet naar de oorspronkelijke versie, als het inderdaad was gecomprimeerd op een of andere manier. Maar dat zou de verklaring kunnen zijn - dat het bestand op de een of andere manier is verminkt in een poging om de bestandsgrootte te verkleinen.

Dit kan nuttig zijn voor makers van inhoud die tegen soortgelijke problemen aanlopen bij het kopiëren en plakken van tekst uit PDF’s - wees voorzichtig met het gebruik van OS X Quartz filters om je PDF’s te verkleinen!

–edit– Ik heb dit probleem ook gemerkt bij het combineren van PDF’s met Voorvertoning. De twee bron PDF’s kunnen prima gekopieerd en geplakt worden, maar wanneer je een pagina van het ene bestand naar het andere bestand sleept, en vervolgens de gecombineerde PDF opslaat, kan de tekst in het gecombineerde document niet gekopieerd/geplakt worden. Dit zijn twee documenten die beide op hetzelfde moment zijn gegenereerd met Filemaker Pro 11 op Mac - ik kan me niet voorstellen dat ze verschillende coderingen of iets dergelijks zouden hebben.

3
3
3
2013-01-03 20:36:58 +0000

Oplossing die voor mij werkte:

  • Upload het document naar Google Drive/Docs
  • Google zal het importeren (vanaf 2013) als een PDF
  • Open de PDF-weergave en kies Bestand > Openen met > Google Docs
  • Het zal ongeveer een minuut duren om het document te exporteren

Het resultaat was niet perfect, maar bracht me 80% van de weg daarheen en voorzag me van genoeg tekst dat ik niet alles hoefde te herschrijven!

2
2
2
2013-03-24 23:59:49 +0000

OPGELOST: (werkte voor mij op Windows 8, Acrobat XI, Office 2010)

Optie 1:

  1. Print vanuit Acrobat met “Microsoft XPS Document Writer” Output is: “uw bestandsnaam.oxps”
  2. Open “…oxps” met XPS Viewer. *(zie de download-link in de opmerkingen hieronder)
  3. Druk af naar PDF (Acrobat PDF, of CutePDF), met de hoogste resolutie (600 DPI).
  4. Open met Acrobat en gebruik de OCR-optie (Searchable Image (Exact)).

BINGO!

Opmerkingen:

  • Gebruik de hoogste resolutie en Doorzoekbare afbeelding (exact) om je tekst op te slaan zonder dat het er minder mooi uitziet. Een lage resolutie maakt je tekst leesbaar, maar ziet er niet uit.
  • Download Microsoft XPS (bestanden): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Als u niet weet wat OCR is, of waar u Doorzoekbare afbeelding (exact) kunt vinden, of Hoe u moet afdrukken met “Microsoft XPS Document Writer”, Googel het dan a.u.b. zelf, voor uw eigen beste ervaringen.

*Download alleen als u XPS niet geïnstalleerd hebt.

Optie 2:

Doe hetzelfde, maar sla op als afbeelding (png, tiff, …), dan moet je alle pagina’s weer samenvoegen in één “PDF” bestand.

1
1
1
2011-10-26 18:58:50 +0000

Een van mijn gebruikers meldde zojuist hetzelfde probleem (PDF is gemaakt met Distiller voor Windows), dat gekopieerde tekst alleen verminkte tekst is en dat hij niet in een document kon zoeken. Ik probeerde het op mijn Mac en vond geen probleem. Het bleek, dat ik Apple’s Preview programma gebruikte, terwijl hij Adobe Reader gebruikte op zijn Windows machine. Toen probeerde ik Adobe Reader op mijn Mac en ondervond hetzelfde effect. Voor mij ziet het er zo uit:

  • Adobe Reader is aan het zoeken in de opgeslagen tekst.

  • Apple’s Voorvertoning kopieert en zoekt na het toepassen van de coderingsvector.

Ik kan dit niet met zekerheid zeggen, maar het zou mijn waarneming verklaren. En het zou het inderdaad mogelijk maken om allerlei coderingen te maken bij het opslaan van gecombineerde/verkleinde bestanden, zoals beschreven in een andere post hier: met Voorvertoning kun je de tekst er toch weer uithalen.

Eerst dacht ik dat het logischer zou zijn om de ingesloten lettertype-subset te coderen als aaneengesloten ingangen in plaats van er gaten in te laten en de oorspronkelijke tekenlocatie te gebruiken. Maar toen realiseerde ik me, dat door een coderingsvector te gebruiken voor de font subset met originele entries, karakters die vaak gebruikt worden minder bits op 1 gezet kunnen worden in hun byte en op een betere manier gecomprimeerd kunnen worden (het kan de entrophy van de totale tekst op deze manier verlagen).

1
1
1
2010-06-21 20:51:02 +0000

Het risico bestaat dat de informatie helemaal niet meer terug te vinden is. PDF-documenten zijn in wezen één document over een ander, het ene eenvoudige tekst, het andere een afbeelding. Wanneer je uit het document kopieert en plakt, markeer je de tekst terwijl je naar het plaatje kijkt, maar wat naar je klembord wordt gekopieerd is het overeenkomstige stukje van het tekstgedeelte.

Afhankelijk van de manier waarop het document is gemaakt, kan de kwaliteit en de beschikbaarheid van het tekstgedeelte sterk verschillen. Als u een tekstverwerkingsdocument opslaat in PDF-formaat, met Acrobat, Word, een PDF-printerstuurprogramma of een andere methode, zal de kwaliteit meestal uitstekend zijn, omdat het tekstbestand kan worden gemaakt op basis van de tekst van het origineel. Sommige speciale tekens kunnen vervormd raken, maar gewone tekst is meestal prima.

Als het document echter van een gescande afbeelding is gemaakt, wordt het tekstgedeelte meestal gemaakt door OCR-bewerking van de afbeelding, wat nogal bedroevende resultaten kan opleveren, vooral als het origineel niet optimaal is voor het doel.

Een slecht programma om de PDF te maken, of de verkeerde instellingen, kunnen er ook voor zorgen dat het tekstgedeelte volledig vervormd raakt, net als, waarneembaar, sommige vormen van encryptie die op het bestand worden toegepast nadat het is gemaakt.

Waar het op neerkomt is dat als het tekstgedeelte van het document echt slecht is, er geen manier is om het beter te maken. Je beste kans zou zijn om het tekstgedeelte helemaal te verwijderen, en het programma het OCR proces opnieuw te laten doen. Ik denk dat dat mogelijk is vanuit Acrobat, maar ik ben niet helemaal zeker.

1
1
1
2010-06-24 14:23:21 +0000

Een mogelijke reden hiervoor is dat de lettertypes in de PDF een aangepaste codering gebruikten, die niet correct wordt toegepast bij het kopiëren van tekst uit de PDF.

Je kunt verschillende methoden toepassen om jezelf te besparen van het handmatig overtypen van alle inhoud.

  1. Heb je geprobeerd de tekst te extraheren met een van de ‘pdftotext.exe’ tools die overal op het ‘net’ te downloaden zijn? (Ik raad degene aan die in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip zit).
  2. De nieuwste versie van Acrobat Reader heeft een optie “Opslaan als tekst…”. Dit maakt geen gebruik van “copy'n'paste” (waardoor je de vervormde tekst kreeg), maar gebruikt waarschijnlijk dezelfde software routines als gebruikt worden voor het renderen van de tekst op het scherm, en kan daardoor meer bruikbare resultaten opleveren.
  3. Als ‘2.’ niet werkt, en als je toegang hebt tot Acrobat Professional: probeer dan de PDF opnieuw te destilleren met een van de font-embedding Distiller profielen.
  4. Als ‘3.’ niet werkt, en u hebt wel toegang tot Acrobat Professional: probeer de PDF dan opnieuw te destilleren, maar gebruik deze keer de optie ‘afdrukken als afbeelding’ (beschikbaar via de knop ‘Geavanceerd’ in de linkerbenedenhoek van het hoofddialoogvenster voor afdrukken). Zorg ervoor dat u 600 dpi gebruikt (hoewel dat een enorm bestand kan opleveren). De resulterende PDF opent u vervolgens weer in Acrobat Pro. Pas nu Acrobat’s ‘OCR’ algoritme toe op het bestand, wat zal resulteren in ingesloten tekst (niet gebruikt voor weergave op het scherm in de Reader, maar gebruikt voor het zoeken en markeren van strings). Nu kunt u opnieuw proberen om de tekst uit deze PDF te extraheren, met behulp van een van de hierboven besproken methoden.
1
1
1
2013-03-15 21:19:30 +0000

Ik heb de Google Docs optie nog niet geprobeerd omdat deze nog niet wordt ondersteund in mijn kantoor. Echter, door het bestand af te drukken naar “ScanSoft PDF Create!” vanuit “Acrobat 9” (drukt het hele bestand af naar beeld) en het afgedrukte bestand te openen in “Nuance PDF Converter” (het vroeg me of ik het beeldbestand doorzoekbaar en bewerkbaar wilde maken, wat ik gedaan heb), was ik in staat om een Word-document te maken dat ik gemakkelijk kan kopiëren en plakken van. Het is echter niet perfect, met een nauwkeurigheid van slechts 80-90%. Maar hey, je hebt nog steeds het originele PDF bestand om mee te vergelijken en die delen te compenseren die gewoon niet kunnen worden gerepareerd. Bespaart tijd van het typen van het hele ding. Mijn 2c.

1
1
1
2012-10-02 19:05:44 +0000

Het uploaden naar Google docs en het gebruiken van de optie Bekijk >Lege HTML , geeft kopieerbare tekst correct tot ongeveer 80% met enkele kleine spaties die ontbreken. Deze thread met geaccepteerd antwoord op hetzelfde probleem legt dit uit met een werkend voorbeeld.

0
0
0
2011-10-16 21:34:19 +0000

Ik heb een aantal PDF’s met bewerkbare tekst gemaakt met een oude versie van Scansoft PDF Converter voor Windows XP, en vervolgens de pagina’s gecombineerd in het programma Voorvertoning op de Mac. Voor elk van de afzonderlijke pagina’s kon ik tekst correct zoeken, kopiëren en exporteren vanuit Adobe Reader op de Mac. Wanneer gecombineerd door Voorvertoning en opgeslagen als één bestand, zag alles er goed uit op het scherm, maar slechts een paar passages waren correct doorzoekbaar/exporteerbaar. Dat probleem bracht me hier.

De berichten hier gaven me een paar goede tips (dank je wel!). Ik keek naar de bestandseigenschappen voor lettertypen. De enkele pagina bestanden van Win XP (waar alles goed is) zeiden dat de encoding ANSI was. Het gecombineerde bestand in Voorvertoning (waar gekopieerde tekst verminkt is) gaf voor de meeste lettertypes de codering “Ingebouwd” met een paar als “Romeins”.

De oplossing voor mijn probleem lag al die tijd onder mijn neus - het Scansoft programma zelf kan bestanden combineren. Toen ik de combiner van Scansoft gebruikte, en het bestand op de Mac opende, werden alle fonts als ANSI-gecodeerd weergegeven en alle tekst werd perfect geëxporteerd/gekopieerd. Waarom ik ze in hemelsnaam niet heb gecombineerd in PDF Converter, weet ik niet. Bedankt, posters!

Hetzelfde geldt voor het openen van de bestanden op een Linux systeem.

Ik weet dat dit de Windows-only problemen niet verklaart - tenzij de PDF een soortgelijke gemengde oorsprong had?