Jak skopiować tekst z pliku PDF bez utraty formatowania?

Question

2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000

40

Jak skopiować tekst z pliku PDF bez utraty formatowania?

Kiedy skopiuję tekst z pliku PDF do edytora tekstu, kończy się on na różne sposoby. Formatowanie jak pogrubiona czcionka i kursywa są tracone; miękkie przerwy w linii w paragrafie tekstu są konwertowane na twarde przerwy w linii; kreski do złamania słowa w dwóch liniach są zachowane nawet wtedy, gdy nie powinny być; i pojedyncze i podwójne cudzysłowy są zastępowane znakami.

Idealnie, chciałbym być w stanie skopiować tekst z pliku PDF i formatowanie przekonwertowane na kody HTML, “inteligentne cudzysłowy” przekonwertowane na “ i ”, a przerwy w linii wykonane prawidłowo. Czy jest jakiś sposób, aby to zrobić?

pdf

Źródło

Colen http://superuser.stackexchange.com/users/613

Odpowiedzi (9)

8

2013-01-24 07:05:37 +0000

Inną opcją jest pobranie i rozpoczęcie korzystania z darmowej przeglądarki pdf Foxit (jej dobry). Następnie można ‘Zapisz jako’ i wybrać .txt, aby przekonwertować go do pliku tekstowego. To pozwoli zachować wszystkie formatowania. Nie wiem, czy można zrobić to samo w Adobe, ponieważ przestałem go używać jakiś czas temu, kiedy konwertowałem do Foxit.

Źródło

chris http://superuser.stackexchange.com/users/613

5

2012-12-01 13:48:55 +0000

Otwórz swój plik PDF za pomocą przeglądarki (Google chrome i firefox są testowane) i skopiuj tam swój tekst.

Źródło

harsini http://superuser.stackexchange.com/users/613

5

2012-12-01 14:29:34 +0000

Istnieje bardzo dobre narzędzie online o nazwie Sej-da. Zajmuje się ono zaawansowaną manipulacją plikami PDF. Nie ma żadnego oprogramowania do pobrania. Ponieważ jest to nowe narzędzie online, jest ono obecnie nadal w Beta. Pozwala on na wyodrębnienie tekstu z pliku PDF, jak również udostępnia mnóstwo innych funkcji PDF http://www.sejda.com/

Krótki przegląd funkcji sejda został zrobiony 14 listopada 2012 przez Revision 3 można go znaleźć tutaj: http://revision3.com/tzdaily/sejda-online-pdf

Źródło

Simon http://superuser.stackexchange.com/users/613

4

2012-09-06 19:00:19 +0000

Można do tego celu użyć programu Adobe Acrobat Pro.

Dla tabel: W programie Acrobat 9/10 pojawiła się funkcja wybranych stołów. W programie Acrobat X możesz po prostu kliknąć Zapisz jako > Arkusz kalkulacyjny > Excel. Pozwala on nawet łączyć strony w jeden długi arkusz kalkulacyjny. Niesamowita funkcja.

Dla tekstu: Podobna funkcja istnieje dla eksportu do MS Word. Save As > Word >Dokument Word.

Źródła:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Właśnie to zrobiłem i zadziałało jak urok.

Źródło

user156787 http://superuser.stackexchange.com/users/613

0

2015-04-13 11:19:56 +0000

Foxit przełączy się pomiędzy wyświetlaniem oryginalnego pliku jako zwykły plik PDF lub jako tekst, naciskając Ctrl + 6 (Przy małym zbliżeniu przy poziomie zoomu trybu tekstowego nie ma zbyt dużego przeskoku w pozycji tam i z powrotem pomiędzy czytaniem a kopiowaniem).

Źródło

Stoatly http://superuser.stackexchange.com/users/613

0

2017-02-25 23:17:51 +0000

Uznałem to za bardzo użyteczne ( Usuwanie przerwania linii ):

Oto użyteczna sztuczka, aby szybko rozwiązać ten problem bez konieczności ręcznego usuwania wszystkich przerwania linii. Zasadniczo, wszystko co to robi to automatyczne zastąpienie wszystkich niepożądanych przerwania linii pojedynczym odstępem, co powoduje, że cały tekst biegnie razem w jednym akapicie:

1- skopiuj żądany tekst z pliku PDF.

2- wklej do nowego dokumentu Word.

3- kliknij “edytuj”, następnie “zamień”

4- upewnij się, że jesteś w polu “znajdź co”

5- kliknij “więcej”, a następnie “specjalny”

6- wybierz “znak akapitu” (na górze listy)

7- kliknij w pole “zamień z”

8- naciśnij raz spację

9- kliknij “zamień wszystko”

10- kliknij “ok”, a następnie zamknij pole “znajdź i zamień”.

Źródło

sky-light http://superuser.stackexchange.com/users/613

-1

2016-01-22 16:15:08 +0000

Starałem się zapisać tekst i format pdf, który został zorganizowany w tabeli. W Acrobat Professional zdałem sobie sprawę, że istnieje opcja ‘Zapisz jako’, która pozwala na zapisywanie jako dokument excel. Zadziałało to dobrze na moje potrzeby. Zauważyłem również, że istnieje również opcja zapisu jako dokument Word. Nie próbowałem jej jednak.

Źródło

Douglas Thompson http://superuser.stackexchange.com/users/613

-1

2015-12-11 04:23:43 +0000

-->

Możesz kopiować z czytnika adobe do MS Excel i formatu (tabeli) w dowolny sposób, a następnie kopiować i wklejać z Excela. To rozwiązanie działa świetnie. Nie musisz kupować drogiej profesjonalnej kopii adobe.

Źródło

Murali Sastry http://superuser.stackexchange.com/users/613

Pytania pokrewne

8

Jak zapisać certyfikat SSL zdalnego serwera lokalnie jako plik 342

19

Jak porównać różnice między dwoma plikami PDF w systemie Windows? 209

12

Jak przekonwertować Markdown z Githuba na PDF? 159

9

Łączenie/połączanie plików PDF w systemie Windows? 137

13

Skąd mam wiedzieć, które czcionki są używane w wybranej części dokumentu PDF 121

frabjous http://superuser.stackexchange.com/users/613 · Accepted Answer · 2010-10-11 21:30:12 +0000

Po pierwsze, musisz zrozumieć, co to jest PDF. PDFy są zaprojektowane tak, aby naśladować drukowaną stronę, i są zaprojektowane tylko jako format wyjściowy, a nie wejściowy. PDF jest w zasadzie mapą zawierającą dokładne położenie znaków (pojedynczych liter lub interpunkcji, itp.) lub obrazów. W większości przypadków, PDF nie przechowuje nawet informacji o tym, gdzie jedno _słowo się kończy, a drugie zaczyna, o wiele mniej rzeczy takich jak miękkie przerwy i twarde przerwy na końcu akapitu.

(Kilka ostatnich plików PDF przechowuje pewne informacje o tych rzeczach, ale to nowa technologia, i miałbyś szczęście znaleźć takie pliki PDF. Nawet jeśli to zrobiłeś, Twoja przeglądarka plików PDF może o tym nie wiedzieć.)

Tak czy inaczej, to do Twojego oprogramowania należy zaimplementowanie jakiegoś rodzaju “sztucznej inteligencji”, aby wydobyć tylko z lokalizacji poszczególnych znaków to, co jest słowem, co jest akapitem, i tak dalej. Inne oprogramowanie zrobi to lepiej niż inne, i będzie to również zależało od tego, jak plik PDF został wykonany. W każdym razie, należy nigdy oczekiwać doskonałych rezultatów. Posiadanie pliku wyjściowego PDF to nie to samo, co posiadanie dokumentu źródłowego. O wiele lepiej postaraj się to uzyskać, jeśli możesz.

Standardowym rozwiązaniem Twojego rodzaju problemu jest użycie Adobe Acrobat Professional (ten drogi, nie darmowy czytnik) do konwersji PDF do HTML. Nawet to nie przyniesie doskonałych rezultatów.

Istnieje darmowe oprogramowanie, które może być używane do wyodrębnienia tekstu z plików PDF z niektórych formatowania w nienaruszonym stanie, ale ponownie, nie oczekuj doskonałych rezultatów. Zobacz np., kaliber (który może konwertować do formatu RTF), pdftohtml/pdfreflow lub AbiWord word processor (z włączonymi wszystkimi wtyczkami importowymi/eksportowymi). Istnieje również wtyczka do importu PDF dla OpenOffice.

Ale nie oczekuj doskonałości z żadnym z tych wyników. Idziesz tutaj pod prąd. PDF po prostu nie jest rozumiany jako edytowalny format wejściowy.