Po pierwsze, musisz zrozumieć, co to jest PDF. PDFy są zaprojektowane tak, aby naśladować drukowaną stronę, i są zaprojektowane tylko jako format wyjściowy, a nie wejściowy. PDF jest w zasadzie mapą zawierającą dokładne położenie znaków (pojedynczych liter lub interpunkcji, itp.) lub obrazów. W większości przypadków, PDF nie przechowuje nawet informacji o tym, gdzie jedno _słowo się kończy, a drugie zaczyna, o wiele mniej rzeczy takich jak miękkie przerwy i twarde przerwy na końcu akapitu.
(Kilka ostatnich plików PDF przechowuje pewne informacje o tych rzeczach, ale to nowa technologia, i miałbyś szczęście znaleźć takie pliki PDF. Nawet jeśli to zrobiłeś, Twoja przeglądarka plików PDF może o tym nie wiedzieć.)
Tak czy inaczej, to do Twojego oprogramowania należy zaimplementowanie jakiegoś rodzaju “sztucznej inteligencji”, aby wydobyć tylko z lokalizacji poszczególnych znaków to, co jest słowem, co jest akapitem, i tak dalej. Inne oprogramowanie zrobi to lepiej niż inne, i będzie to również zależało od tego, jak plik PDF został wykonany. W każdym razie, należy nigdy oczekiwać doskonałych rezultatów. Posiadanie pliku wyjściowego PDF to nie to samo, co posiadanie dokumentu źródłowego. O wiele lepiej postaraj się to uzyskać, jeśli możesz.
Standardowym rozwiązaniem Twojego rodzaju problemu jest użycie Adobe Acrobat Professional (ten drogi, nie darmowy czytnik) do konwersji PDF do HTML. Nawet to nie przyniesie doskonałych rezultatów.
Istnieje darmowe oprogramowanie, które może być używane do wyodrębnienia tekstu z plików PDF z niektórych formatowania w nienaruszonym stanie, ale ponownie, nie oczekuj doskonałych rezultatów. Zobacz np., kaliber (który może konwertować do formatu RTF), pdftohtml/pdfreflow lub AbiWord word processor (z włączonymi wszystkimi wtyczkami importowymi/eksportowymi). Istnieje również wtyczka do importu PDF dla OpenOffice.
Ale nie oczekuj doskonałości z żadnym z tych wyników. Idziesz tutaj pod prąd. PDF po prostu nie jest rozumiany jako edytowalny format wejściowy.