2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

Plik PDF ma zniekształcony tekst podczas kopiowania i wklejania

Próbuję skopiować i wkleić tekst z pliku PDF.

Jednak za każdym razem, gdy wklejam oryginalny tekst, jest to ogromna plątanina zniekształconych znaków. Tekst wygląda jak poniższy (to tylko jeden mały fragment):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Próbowałem tego zarówno w Adobe jak i Foxit PDF reader. Zrobiłem ‘Zapisz jako tekst’ w Adobe Reader i wynikowy plik tekstowy to ten sam zniekształcony tekst.

Jakieś pomysły, jak mogę uzyskać ten tekst bez zniekształceń? (Poza ręcznym wpisywaniem… jest dużo tekstu do wyodrębnienia).

Odpowiedzi (11)

11
11
11
2011-04-08 14:40:29 +0000

Najprostszym sposobem na obejście tego problemu jest otwarcie pliku w nowszej wersji Google Chrome z wbudowaną wtyczką do czytania plików PDF. Wtedy możesz użyć funkcji wyszukiwania w Chrome do znalezienia tekstu, a kopiuj-wklej działa poprawnie.

Chciałbym zagłosować na komentarz pipitasa do odpowiedzi Shiki, ale nie mam creds :( Problemem może być niestandardowe kodowanie czcionek, a nie szyfrowanie. W Acrobacie kliknij Plik -> Właściwości, a następnie kliknij kartę Czcionki, aby zobaczyć kodowanie, a także kartę Bezpieczeństwo, aby zobaczyć, czy jest ona szyfrowana.

4
4
4
2012-03-18 14:36:54 +0000

Istnieje inny bardzo łatwy sposób na obejście :)

Po prostu wydrukuj dokument używając CutePdf, Adobe 2 Pdf printer lub innych podobnych rzeczy. Najważniejsze jest to, że musisz drukować do formatu pdf.

W wielu przypadkach łatwo usunie to problem.

4
4
4
2010-05-18 22:18:44 +0000

Odkryłem ten problem z utworzonymi przeze mnie plikami PDF i wydaje mi się, że namierzyłem jego źródło: użycie programu Preview systemu Mac OS X do zmniejszenia rozmiaru pliku PDF.

Stworzyłem kilka filtrów Quartz przy użyciu Colorsync Utility do kompresji obrazów w plikach PDF, aby zmniejszyć ogólny rozmiar plików PDF z obrazami. Takie jak opisane tutaj: http://www.macosxhints.com/article.php?story=20031106133852693

Odkryłem, że jestem w stanie łatwo kopiować i wklejać tekst z oryginalnego (nieskompresowanego) pliku PDF, ale po przepuszczeniu tego PDF przez utworzony przeze mnie filtr Reduce File Size, wynikowy skompresowany PDF nie kopiuje wklejania wyraźnie (wychodzi wyglądający jak ciągi, które zamieściłeś).

Jednak po uruchomieniu tego samego oryginalnego pliku PDF przez funkcję Adobe Acrobat Pro “Document > Reduce File Size”, wynikowy skompresowany plik PDF może z powodzeniem kopiować i wklejać tekst.

Tak więc, nie jest to całkowicie pomocne w twoim przypadku, zakładając, że twój plik PDF został otrzymany z innego miejsca i nie możesz dostać się do oryginalnej wersji, jeśli rzeczywiście został skompresowany w jakiś sposób. Ale to może być wyjaśnienie - że plik został w jakiś sposób zmanipulowany w celu zmniejszenia rozmiaru pliku.

Może to być przydatne dla twórców treści napotykających na podobne problemy z kopiowaniem i wklejaniem tekstu z plików PDF - uważaj, używając filtrów OS X Quartz do zmniejszania plików PDF!

–edit– Zauważyłem ten problem również podczas łączenia plików PDF za pomocą Podglądu. Dwa źródłowe pliki PDF mogą być kopiowane i wklejane bez problemu, ale podczas przeciągania strony z jednego pliku do drugiego, a następnie zapisywania połączonego PDF, tekst w połączonym dokumencie nie może być kopiowany/wklejany. Są to dwa dokumenty wygenerowane w tym samym czasie za pomocą Filemaker Pro 11 na Macu - nie mogę sobie wyobrazić, że mogą mieć różne kodowania lub coś podobnego.

3
3
3
2013-01-03 20:36:58 +0000

Rozwiązanie, które zadziałało dla mnie:

  • Prześlij dokument do Google Drive/Docs
  • Google zaimportuje go (od 2013 roku) jako PDF
  • Otwórz widok PDF i wybierz File > Open With > Google Docs
  • Eksport dokumentu zajmie około minuty

Rezultaty nie były idealne, ale dostały mi 80% drogi tam i zapewniły mi wystarczająco dużo tekstu, że nie musiałem przepisywać wszystkiego!

2
2
2
2013-03-24 23:59:49 +0000

SOLVED: (pracował dla mnie na Windows 8, Acrobat XI, Office 2010)

Opcja 1:

  1. Drukuj z Acrobat za pomocą “Microsoft XPS Document Writer” Wyjście to: “twoja nazwa pliku.oxps”
  2. Otwórz “…oxps” za pomocą XPS Viewer. *(zobacz link do pobrania w komentarzach poniżej)
  3. Wydrukuj do PDF (Acrobat PDF, lub CutePDF), używając najwyższej rozdzielczości (600 DPI).
  4. Otwórz w programie Acrobat i użyj opcji OCR (Searchable Image (Exact)).

BINGO!

Komentarze:

  • Użycie najwyższej rozdzielczości i opcji Searchable Image (exact) pozwoli zachować tekst bez utraty jego czystego wyglądu. Niska rozdzielczość sprawi, że Twój tekst będzie czytelny, ale będzie wyglądał kiepsko.
  • Pobierz Microsoft XPS (pliki): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Jeśli nie wiesz czym jest OCR, lub gdzie znaleźć Searchable Image (exact), lub Jak drukować używając “Microsoft XPS Document Writer”, PROSZĘ, wygoogluj to na własną rękę, dla własnych najlepszych doświadczeń.

\Pobierz tylko jeśli nie masz zainstalowanego XPS.

Opcja 2:

Zrób podobnie, ale zapisz jako obraz (png, tiff, …), następnie będziesz musiał połączyć wszystkie strony z powrotem w jeden plik “PDF”.

1
1
1
2011-10-26 18:58:50 +0000

Jeden z moich użytkowników właśnie zgłosił ten sam problem (PDF został utworzony za pomocą Distillera dla Windows), że skopiowany tekst jest tylko zniekształcony i nie może wyszukiwać wewnątrz dokumentu. Spróbowałem na moim Macu i nie znalazłem żadnego problemu. Okazało się, że ja używałem aplikacji Apple Preview, podczas gdy on używał Adobe Reader na swoim komputerze z Windows. Następnie wypróbowałem Adobe Readera na moim Macu i napotkałem ten sam efekt. Dla mnie wygląda to tak:

  • Adobe Reader kantuje i szuka w zapisanym tekście.

  • Apple’s Preview kopiuje i przeszukuje po zastosowaniu wektora kodowania.

Nie mogę tego powiedzieć na pewno, ale wyjaśniłoby to moją obserwację. I rzeczywiście pozwoliłoby to na wykonanie wszelkiego rodzaju kodowania podczas zapisywania połączonych / zmniejszonych plików, jak opisano w innym poście tutaj: z Preview nadal można ponownie wydobyć tekst.

Najpierw pomyślałem, że logiczniej byłoby zakodować osadzony podzbiór czcionek jako ciągłe wpisy, zamiast zostawiać dziury w środku i używać oryginalnej lokalizacji znaków. Ale potem zdałem sobie sprawę, że używając wektora kodowania do podzbioru czcionek z oryginalnymi wpisami, znaki, które są często używane, mogą mieć mniej bitów ustawionych na 1 w swoim bajcie i mogą być skompresowane w lepszy sposób (może to obniżyć entrofię całego tekstu w ten sposób).

1
1
1
2010-06-21 20:51:02 +0000

Istnieje ryzyko, że informacje nie będą w ogóle możliwe do odzyskania. Dokumenty PDF są zasadniczo jednym dokumentem nałożonym na drugi, jeden to prosty tekst, a drugi to obraz. Kiedy kopiujesz i wklejasz z dokumentu, zaznaczasz tekst, patrząc na obrazek, ale to, co jest kopiowane do schowka, to odpowiedni fragment części tekstowej.

W zależności od sposobu tworzenia dokumentu, jakość i dostępność części tekstowej może się bardzo różnić. Jeśli zapiszesz dokument edytora tekstu w formacie PDF, używając programu Acrobat, Word, sterownika drukarki PDF lub innej metody, jakość będzie zazwyczaj doskonała, ponieważ plik tekstowy może być utworzony z tekstu oryginału. Niektóre znaki specjalne mogą zostać zniekształcone, ale zwykły tekst jest zazwyczaj w porządku.

Jeżeli jednak dokument jest tworzony na podstawie zeskanowanego obrazu, część tekstowa jest zazwyczaj tworzona poprzez przetwarzanie obrazu metodą OCR, co może dać raczej przykre rezultaty, zwłaszcza jeżeli oryginał nie jest optymalny do tego celu.

Zły program użyty do stworzenia PDF, lub niewłaściwe ustawienia, mogą również spowodować, że część tekstowa będzie całkowicie zniekształcona, podobnie jak niektóre rodzaje szyfrowania zastosowane na pliku po jego stworzeniu.

Wniosek jest taki, że jeśli część tekstowa dokumentu jest naprawdę zła, nie ma sposobu, aby ją poprawić. Najlepszym rozwiązaniem byłoby całkowite usunięcie części tekstowej i ponowne wykonanie procesu OCR przez program. Myślę, że może to być wykonalne z poziomu Acrobata, ale nie jestem do końca pewien.

1
1
1
2010-06-24 14:23:21 +0000

Jednym z możliwych powodów może być to, że czcionki osadzone w PDF używały niestandardowego kodowania, które nie jest poprawnie stosowane podczas kopiowania tekstu z PDF.

Możesz zastosować różne metody, aby zaoszczędzić sobie ręcznego wpisywania całej zawartości.

  1. Czy próbowałeś wyodrębnić tekst za pomocą jednego z narzędzi ‘pdftotext.exe’ dostępnych do pobrania w sieci? (Polecam ten zawarty w ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. Najnowsza wersja Acrobat Reader posiada opcję “Save as Text…”. To nie używa “copy'n'paste” (co dało ci zniekształcony tekst), ale prawdopodobnie używa tych samych procedur programowych, które są używane do renderowania tekstu na ekranie, i dlatego może dać bardziej użyteczne wyniki.
  3. Jeśli ‘2.’ nie działa, i jeśli masz dostęp do Acrobat Professional: spróbuj ponownie destylować PDF używając jednego z profili Distiller do osadzania czcionek.
  4. Jeżeli “3.” nie zadziała, pomimo posiadania dostępu do Acrobat Professional: spróbuj ponownie nawiercić plik PDF, ale tym razem powinieneś użyć opcji “drukuj jako obraz” (dostępnej poprzez przycisk “Zaawansowane” w lewym dolnym rogu głównego okna dialogowego drukowania). Upewnij się, że używasz rozdzielczości 600 dpi (chociaż może to spowodować utworzenie ogromnego pliku). Otrzymany w ten sposób plik PDF można ponownie otworzyć w programie Acrobat Pro. Teraz zastosuj algorytm ‘OCR’ Acrobata do pliku, co spowoduje osadzenie tekstu (nie używanego do renderowania na ekranie w Readerze, ale używanego do wyszukiwania i podświetlania ciągów znaków). Teraz możesz spróbować ponownie wyodrębnić tekst z tego pliku PDF, używając jednej z wyżej omówionych metod.
1
1
1
2013-03-15 21:19:30 +0000

Nie próbowałem opcji Google Docs, ponieważ nadal nie jest ona obsługiwana w moim biurze. Jednakże, drukując plik do “ScanSoft PDF Create!” z “Acrobat 9” (drukuje cały plik do obrazu) i otwierając wydrukowany plik w “Nuance PDF Converter” (zapytał mnie, czy chcę, aby plik obrazu był przeszukiwalny i edytowalny, co wybrałem), byłem w stanie mieć dokument Word, który mogę łatwo kopiować i wklejać. To nie jest idealne chociaż tylko około 80-90% dokładności. Ale hej, nadal masz oryginalny plik PDF do porównania z i zrównoważyć te części, które po prostu nie mogą być naprawione. Oszczędza czas od wpisywania całej rzeczy. Moje 2c.

1
1
1
2012-10-02 19:05:44 +0000

Wgrywając go do Google docs i używając opcji View > Plain HTML , daje tekst kopiowalny poprawny do około 80% z kilkoma małymi brakującymi spacjami. Ten wątek z zaakceptowaną odpowiedzią na ten sam problem wyjaśnia to z działającym przykładem.

0
0
0
2011-10-16 21:34:19 +0000

Stworzyłem kilka plików PDF z edytowalnym tekstem za pomocą starej wersji Scansoft PDF Converter dla Windows XP, a następnie połączyłem strony w programie Podgląd na Macu. Dla każdej z oddzielnych stron mogłem wyszukiwać, kopiować i eksportować tekst poprawnie z Adobe Readera na Macu. Po połączeniu przez Preview i zapisaniu jako jeden plik, wszystko wyglądało dobrze na ekranie, ale tylko kilka fragmentów można było wyszukać/wyeksportować poprawnie. Ten problem sprowadził mnie tutaj.

Posty tutaj dały mi kilka dobrych wskazówek (dziękuję!). Spojrzałem na właściwości pliku dla czcionek. Pojedyncze pliki stron z Win XP (gdzie wszystko jest dobrze) powiedziały, że kodowanie to ANSI. Plik połączony w Preview (gdzie skopiowany tekst jest zniekształcony) pokazał kodowanie dla większości czcionek jako “Built-in” z kilkoma jako “Roman”.

Rozwiązanie mojego problemu było cały czas pod moim nosem - program Scansoft sam potrafi łączyć pliki. Kiedy użyłem Scansoftowego combinera i otworzyłem plik na Macu, wszystkie czcionki były widoczne jako zakodowane w ANSI, a cały tekst wyeksportowany/skopiowany idealnie. Dlaczego na Ziemi nie połączyłem ich w PDF Converter w pierwszej kolejności, nie wiem. Dzięki, plakaty!

To samo dotyczy otwierania plików w systemie Linux.

Wiem, że to nie wyjaśnia problemów z Windows-only - chyba że PDF miał podobne mieszane pochodzenie?