2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Jak skopiować tekst z pliku PDF bez utraty formatowania?

Kiedy skopiuję tekst z pliku PDF do edytora tekstu, kończy się on na różne sposoby. Formatowanie jak pogrubiona czcionka i kursywa są tracone; miękkie przerwy w linii w paragrafie tekstu są konwertowane na twarde przerwy w linii; kreski do złamania słowa w dwóch liniach są zachowane nawet wtedy, gdy nie powinny być; i pojedyncze i podwójne cudzysłowy są zastępowane znakami.

Idealnie, chciałbym być w stanie skopiować tekst z pliku PDF i formatowanie przekonwertowane na kody HTML, “inteligentne cudzysłowy” przekonwertowane na “ i ”, a przerwy w linii wykonane prawidłowo. Czy jest jakiś sposób, aby to zrobić?

Odpowiedzi (9)

54
54
54
2010-10-11 21:30:12 +0000

Po pierwsze, musisz zrozumieć, co to jest PDF. PDFy są zaprojektowane tak, aby naśladować drukowaną stronę, i są zaprojektowane tylko jako format wyjściowy, a nie wejściowy. PDF jest w zasadzie mapą zawierającą dokładne położenie znaków (pojedynczych liter lub interpunkcji, itp.) lub obrazów. W większości przypadków, PDF nie przechowuje nawet informacji o tym, gdzie jedno _słowo się kończy, a drugie zaczyna, o wiele mniej rzeczy takich jak miękkie przerwy i twarde przerwy na końcu akapitu.

(Kilka ostatnich plików PDF przechowuje pewne informacje o tych rzeczach, ale to nowa technologia, i miałbyś szczęście znaleźć takie pliki PDF. Nawet jeśli to zrobiłeś, Twoja przeglądarka plików PDF może o tym nie wiedzieć.)

Tak czy inaczej, to do Twojego oprogramowania należy zaimplementowanie jakiegoś rodzaju “sztucznej inteligencji”, aby wydobyć tylko z lokalizacji poszczególnych znaków to, co jest słowem, co jest akapitem, i tak dalej. Inne oprogramowanie zrobi to lepiej niż inne, i będzie to również zależało od tego, jak plik PDF został wykonany. W każdym razie, należy nigdy oczekiwać doskonałych rezultatów. Posiadanie pliku wyjściowego PDF to nie to samo, co posiadanie dokumentu źródłowego. O wiele lepiej postaraj się to uzyskać, jeśli możesz.

Standardowym rozwiązaniem Twojego rodzaju problemu jest użycie Adobe Acrobat Professional (ten drogi, nie darmowy czytnik) do konwersji PDF do HTML. Nawet to nie przyniesie doskonałych rezultatów.

Istnieje darmowe oprogramowanie, które może być używane do wyodrębnienia tekstu z plików PDF z niektórych formatowania w nienaruszonym stanie, ale ponownie, nie oczekuj doskonałych rezultatów. Zobacz np., kaliber (który może konwertować do formatu RTF), pdftohtml/pdfreflow lub AbiWord word processor (z włączonymi wszystkimi wtyczkami importowymi/eksportowymi). Istnieje również wtyczka do importu PDF dla OpenOffice.

Ale nie oczekuj doskonałości z żadnym z tych wyników. Idziesz tutaj pod prąd. PDF po prostu nie jest rozumiany jako edytowalny format wejściowy.

8
8
8
2013-01-24 07:05:37 +0000

Inną opcją jest pobranie i rozpoczęcie korzystania z darmowej przeglądarki pdf Foxit (jej dobry). Następnie można ‘Zapisz jako’ i wybrać .txt, aby przekonwertować go do pliku tekstowego. To pozwoli zachować wszystkie formatowania. Nie wiem, czy można zrobić to samo w Adobe, ponieważ przestałem go używać jakiś czas temu, kiedy konwertowałem do Foxit.

5
5
5
2012-12-01 13:48:55 +0000

Otwórz swój plik PDF za pomocą przeglądarki (Google chrome i firefox są testowane) i skopiuj tam swój tekst.

5
5
5
2012-12-01 14:29:34 +0000

Istnieje bardzo dobre narzędzie online o nazwie Sej-da. Zajmuje się ono zaawansowaną manipulacją plikami PDF. Nie ma żadnego oprogramowania do pobrania. Ponieważ jest to nowe narzędzie online, jest ono obecnie nadal w Beta. Pozwala on na wyodrębnienie tekstu z pliku PDF, jak również udostępnia mnóstwo innych funkcji PDF http://www.sejda.com/

Krótki przegląd funkcji sejda został zrobiony 14 listopada 2012 przez Revision 3 można go znaleźć tutaj: http://revision3.com/tzdaily/sejda-online-pdf

4
4
4
2012-09-06 19:00:19 +0000

Można do tego celu użyć programu Adobe Acrobat Pro.

Dla tabel: W programie Acrobat 9/10 pojawiła się funkcja wybranych stołów. W programie Acrobat X możesz po prostu kliknąć Zapisz jako > Arkusz kalkulacyjny > Excel. Pozwala on nawet łączyć strony w jeden długi arkusz kalkulacyjny. Niesamowita funkcja.

Dla tekstu: Podobna funkcja istnieje dla eksportu do MS Word. Save As > Word >Dokument Word.

Źródła:

0
0
0
2015-04-13 11:19:56 +0000

Foxit przełączy się pomiędzy wyświetlaniem oryginalnego pliku jako zwykły plik PDF lub jako tekst, naciskając Ctrl + 6 (Przy małym zbliżeniu przy poziomie zoomu trybu tekstowego nie ma zbyt dużego przeskoku w pozycji tam i z powrotem pomiędzy czytaniem a kopiowaniem).

0
0
0
2017-02-25 23:17:51 +0000

Uznałem to za bardzo użyteczne ( Usuwanie przerwania linii ):

Oto użyteczna sztuczka, aby szybko rozwiązać ten problem bez konieczności ręcznego usuwania wszystkich przerwania linii. Zasadniczo, wszystko co to robi to automatyczne zastąpienie wszystkich niepożądanych przerwania linii pojedynczym odstępem, co powoduje, że cały tekst biegnie razem w jednym akapicie:

1- skopiuj żądany tekst z pliku PDF.

2- wklej do nowego dokumentu Word.

3- kliknij “edytuj”, następnie “zamień”

4- upewnij się, że jesteś w polu “znajdź co”

5- kliknij “więcej”, a następnie “specjalny”

6- wybierz “znak akapitu” (na górze listy)

7- kliknij w pole “zamień z”

8- naciśnij raz spację

9- kliknij “zamień wszystko”

10- kliknij “ok”, a następnie zamknij pole “znajdź i zamień”.

-1
-1
-1
2016-01-22 16:15:08 +0000

Starałem się zapisać tekst i format pdf, który został zorganizowany w tabeli. W Acrobat Professional zdałem sobie sprawę, że istnieje opcja ‘Zapisz jako’, która pozwala na zapisywanie jako dokument excel. Zadziałało to dobrze na moje potrzeby. Zauważyłem również, że istnieje również opcja zapisu jako dokument Word. Nie próbowałem jej jednak.

-1
-1
-1
2015-12-11 04:23:43 +0000

Możesz kopiować z czytnika adobe do MS Excel i formatu (tabeli) w dowolny sposób, a następnie kopiować i wklejać z Excela. To rozwiązanie działa świetnie. Nie musisz kupować drogiej profesjonalnej kopii adobe.