Hollosi Information eXchange /HIX/
HIX GURU 7116
Copyright (C) HIX
2019-02-15
Új cikk beküldése (a cikk tartalma az író felelőssége)
Megrendelés Lemondás
1 Re: *** HIX GURU *** #7115 (mind)  33 sor     (cikkei)
2 PDF szerkeszto / konvertalo (mind)  45 sor     (cikkei)
3 PDF szerkeszto / konvertalo (mind)  17 sor     (cikkei)
4 ekezetes PDF konvertalas (mind)  14 sor     (cikkei)
5 re: PDF szerkeszto / konvertalo (mind)  89 sor     (cikkei)
6 Re: PDF szerkeszto / konvertalo (mind)  8 sor     (cikkei)

+ - Re: *** HIX GURU *** #7115 (mind) VÁLASZ  Feladó: (cikkei)

2019. 02. 14. 2:59 keltezéssel, HIX GURU írta:

>     Üdv! 

    A gond2 az, hogy ezek a PDF-ek úgy készültek, hogy wordból / akármiből
    PDF nyomtatóra voltak küldve, és nem törődtek olyasmivel, hogy
    kitöltsék a szerző, cím, és stb. mezőket, amit pl. a mai mobilos
    readerek megjelenítenek a felületükön. Azaz nagyon nehéz kikeresni 
az
    áhított művet olyan borítóképek közül, amiken a szerzők Word 4.0, a
    művek címe pedig egy random valami. + Gond, hogy sokszor a képek nem
    kerültek a fájlba, hanem egy külön mappába lettek mentve sokuknál
    valami logika alapján.

    ...
      
    Török István

Szia Pista!

Nem tudom hány fájlról van szó, de a szerzői és egyéb információk 
szerkesztésére esetleg kereshetnél programot. Csak példaképpen Linux 
alatt a pdfmod-ra ezt írja a telepítő:

"PDF Mod is a simple application for modifying PDF documents

You can reorder, rotate, and remove pages, export images from a document,
*edit the title, subject, author, and keywords,* and combine documents 
via drag and drop."

Szerintem a *pdftk* is tud ilyesmit, de nem nézetem meg.

Török Árpád
+ - PDF szerkeszto / konvertalo (mind) VÁLASZ  Feladó: (cikkei)

Szia!

A PDF formátum saját, nem Unicode kódolásokat használ. A cél ugye a
dokumentum megjelenésének a megőrzése. A kódolás jobb esetben
egybeesik valamilyen szabványossal, ha a PDF generátornak eszébe jut
olyat használni, de előfordulhat, hogy csak találomra újradefiniál
ezt-azt. Most csak hogy hasból mondjak egy példát, a PDF nyomtatónak
nem jut eszébe magyar szöveghez a 852-es kódlapot használni, mert
mondjuk nem is ismeri, ezért a 850-est használja, csak mondjuk a @-ot
átdefiniálja ő-vé, a &-t meg ű-vé. Vagy nem is definiál át semmit,
csak a felhasznált fontra bízza a helyes megjelenítést. Vagy nincs is
felhasznált font, mert szkennelt könyv esetében a szokásos eljárás,
hogy a megjelenítést kép biztosítja, amihez csatolódik egy külön
szövegréteg. Én nem tudom, hogy a te dokumentumaid hogyan épülnek fel,
de az utóbbi -- azaz képből megjelenített könyvlapok + szöveg-layer --
esetben már eleve az OCR-nél is elcsúszhatott a dolog, ami eddig sosem
derült ki, mert sosem a szöveget babráltad, hanem a képeket olvastad.
Bármelyik is a helyzet, az egyetlen járható útnak az újra-OCR-ezést
tartom, mert akár fontokból, akár képből van berakva a megjelenés,
szite biztos, hogy csak az "sértetlen" tartalom, a karakterkódolás már
a .pdf-ben el van barmolva, és ha vissza is állítható, szoftver legyen
a talpán, amelyik megcsinálja. Inkább meg kéne nyitni és szövegréteg
nélkül újra elmenteni, vagy valami pdf->pdf konverterrel ezt
megcsinálni. Esetleg pdf->PostScript konverzióval, ami kihagyja a
szöveget és csak a nyomtatni való megjelenést kódolja. Majd ezekből a
fájlokból újrakonvertálni .pdf-fé új, modern OCR-rel. Szerintem azt
akár az Online Converter is megteszi, de biztos vannak letölthető
konverterek. Én nem nagyon használok ilyeneket. PDF -> PostScript
convertert igen, de csak DOS-on. Ez a PDFTOPS.EXE, elküldöm, mert
szélsőséges esetben Windows-on is használhatod, ha nem találsz semmi
egyszerűbb megoldást, mondjuk DOSBox-ban, de úgy jóval lassabb lehet,
mint igazi vason. Innen érheted el: http://www.nomdo.dds.nl/psview.htm
csak az a link él, amelyik a 3.02-es verzióra irányít. Az a gyanúm
azért, hogy Windows-ra is létezik néhány PostScript generátor és jobb
esetben nem hagyják benne a szöveget, vagy legalább opciót hagynak rá,
hogy kivedd.

Üdv:
-- 
KORMOS Krisztián
+36304778633
- User of Links 2.17/2.15 web browser for DOS operating system on Caldera
DR-DOS 7.03 KormaX distribution, 2019.
-- Author of KormaX DOS distribution for modern PC's
DOS ain't dead C:\>_
+ - PDF szerkeszto / konvertalo (mind) VÁLASZ  Feladó: (cikkei)

Még valami, bár szintén DOS, de ahogy elnézem Linuxra és Windowsra is
létezik, tartalmazza egyrészt a PDFTOPS.EXE eggyel újabb verzióját,
másrészt egy szöveg extractort és egy .pdf -> html konvertert is
egyebek között (képextractor, stb.). Lehet, hogy van Windows-ra is,
XPDF a neve. https://www.opus.co.tt/dave/apps.htm
"Xpdf v3.03"-ként keresd az oldalon és a "DOS binary and source
download"-linkre kattintva töltheted le DOS-ra, az alap link viszont
Linux és Windows letöltésekhez vezet, esetleg érdemes kipróbálnod.

Üdv
-- 
KORMOS Krisztián
+36304778633
- User of Links 2.17/2.15 web browser for DOS operating system on Caldera
DR-DOS 7.03 KormaX distribution, 2019.
-- Author of KormaX DOS distribution for modern PC's
DOS ain't dead C:\>_
+ - ekezetes PDF konvertalas (mind) VÁLASZ  Feladó: (cikkei)

Sziasztok!


Szerintem sehogy. Anno decibel a PDF-ekben nem volt olyan font, ami magyar 
ekezetes karaktert tudott volna, tehat kvazi nyomdaszatilag ossze lett 
rakva 
egy o betubol meg egy ekezetbol. Innentol kezdve OCR nelkul eselytelen 
vagy 
konvertalni.


Udv,

marky
+ - re: PDF szerkeszto / konvertalo (mind) VÁLASZ  Feladó: (cikkei)

PDF szerkeszto / konvertalo (Török István HIX GURU 7115 2019-02-14)

Környezetem:
MacBook 10.13.6 (OS X, BSD Unix alapú),
Aquamacs 3.4 (leánynevén emacs)
Reguláris kifejezés: véges automatával felismerhető
jelsorozat 

Az OS X teljesen Unicode, azaz tud ,,minden" ábécét
(majdnem...), így ékezetes betűket is.

Pár részleges tippel szolgálhatok csak - ráadásul mindezt
unix-linux stb. alapon, de tudtommal mennek Windows alatt
is, annak kezelését másra hagynám.

1. PDF szerkesztés
Pdf-et korábban Adobe Acrobat DC (?) szerkesztővel
szerkesztettem, ez fizetős (drága). Nem emlékszem már,
mennyire volt könnyű vagy sem a helyettesítés, de nem
hiszem, hogy fölvenné a versenyt az Emacs/Unix
módszerrel. Az OS X Preview nevű programja (része a
rendszernek) tkp. az Adobe Reader-t helyettesíti, ebbe
kezdetlegesen be lehet írni, jegyzetelni hozzá, hasznos, de
neked sajnos nem ez kell.  

2. Emacs konvertálás
A Unix/Linux egyik erőssége a szövegkeresés illetve
helyettesítés, különösen reguláris kifejezésekkel, de
amióta (régóta) Emacs-hívő lettem, elszoktam az ehhez
használatos alkalmi pársoros szövegátalakító, kereső
stb. shell programocskáktól, hanem kb. minden ilyesmit
Emacs-ban végzek. Szövegszerkesztést is, gyakori eszközöm
a LaTeX, amit az Emacs jól támogat. 
tr, sed ilyen Unix alapprogramok. Újabban Perl-ben űzik
mindezt - már aki nem Emacs-ban. Mindezt? Milyen mindezt?
Pl. egykor (mondjuk 20 éve) a HIX még nem tudott magyar
ékezetes betűket írni, az én akkor gépi környezetem már
igen, így az ékezetekkel ellátott magyar betűket át kellett
alakítani a HIX megfelelő ISO 8859-1 betűkre. Ha jól látom,
ez ma is a helyzet, csak már a HIX ezt maga is megteszi,
visszabutítja (egységesíti) a karakterkészletet erre. Na,
ezt az átalakítást végeztem Emacs makrókkal: az adott
magyar ISO-8859-2 (magyar ékezetes) szöveget
HIX-konverzióra változtattam, ez egyetlen parancs (emacs
makró) volt, a szöveget ezen végigfuttatva küldhettem a
HIX-nek. Ma az egész világ Unicode (ebben tévedhetek).

Ez az Emacs-Lisp nagyon könnyű (ilyen egyszerűbb
esetekben), az Emacs-makrók is, hamar meg lehet tanulni és
azontúl nagyon kényelmes tetszőleges nagy szöveg, több száz
oldal átalakítására. Néha, finomításként, többet alkalmaztam
egymás után, amikor pl. az u" (u után közvetlenül kettős
ékezet) nem akart volna ű (magyar hosszú ű, azaz az u-n
kettős hosszú ékezet) lenni, hanem maradnia kellett u
záró idézőjelnek. Ez a kézi vacakolás a reguláris
kifejezések szövegfüggetlen voltából következik, kicsit
ügyeskedni kell, de ebbe nem megyek bele, nem érdemes külön
környezetfüggő nyelvtant gyártani pár alkalmi kivételre. 

Mindehhez azonban el kell jutni egy szöveghez - legyen
azontúl akár ISO 8859 karakterkészletben, akár Unicode-ban
- a PDF-ből.

Ennek egy lehetséges eszköze a pdf-tools
https://github.com/politza/pdf-tools
ez Emacs alapú, Windows-ban és OS X-ben (meg persze
Linux-ban) is megy. Ha ehhez hozzájutsz illetve
elsajátítod, sokat tudó eszköz lesz a kezedben. Ezt csak
képzelem, ugyanis nem próbáltam. Ez tud pdf-ből sima
szöveget gyártani, ás akkor már nyert ügyed van, Emacs-ban
helyreteszed a hibás betűket és visszaalakítod PDF-fé.

3. Szövegből ismét PDF - Emacs, org

Az Emacs-nak van egy szövegszerkesztő módja, org a neve.
Ha egy file-t ilyen kiterjesztéssel gyártunk, akkor abból
pdf, LaTeX, html, text (és még tán másféle) szöveget is
gyárthatunk egyszerű Export-álással. 

Nem a te kérdésed, de szakcikket, könyvet legjobban 
TeX ill. LaTeX formában érdemes gyártani, így a legjobb a
minőség, a ,,gyári" szövegszerkesztők, Word, Notes akármi
nyomukba sem érnek, ha nem közönséges módon kell a szöveget
kezelni - pl. egy vastag könyvet LaTeX-ben pillanatok alatt
úgy le lehet kicsinyíteni, mondjuk felére (vagy
1/e-szeresére), hogy a méreteken kívül minden ugyanilyan
marad - sorok, elválasztások, bekezdések, fejezetek.

Üdvözlettel      Gaál Tamás (F)
+ - Re: PDF szerkeszto / konvertalo (mind) VÁLASZ  Feladó: (cikkei)

Próbáld meg az eredeti ékezetes szöveges fileokat (pl html) sima notepad-al 
megnyitni majd változtatás nélkül elmenteni saveas-al úgy hogy nem a alapértelm
e
zett ANSI kódolás van kiválasztva hanem az UTF-8.. (Ha hozzáad még txt 
kiterjesz
tést azt töröld) Ezután a konvertálóprogik jól kezelik az ékezeteket remélhetől
e
g.

AGYKONTROLL ALLAT AUTO AZSIA BUDAPEST CODER DOSZ FELVIDEK FILM FILOZOFIA FORUM GURU HANG HIPHOP HIRDETES HIRMONDO HIXDVD HUDOM HUNGARY JATEK KEP KONYHA KONYV KORNYESZ KUKKER KULTURA LINUX MAGELLAN MAHAL MOBIL MOKA MOZAIK NARANCS NARANCS1 NY NYELV OTTHON OTTHONKA PARA RANDI REJTVENY SCM SPORT SZABAD SZALON TANC TIPP TUDOMANY UK UTAZAS UTLEVEL VITA WEBMESTER WINDOWS