HIX GURU 7116 2019-02-15

Hollosi Information eXchange /HIX/

HIX GURU 7116

Copyright Myths

2019-02-15

Új cikk beküldése	(a cikk tartalma az író felelőssége)
Megrendelés	Lemondás

1.	Re: * HIX GURU * #7115 (mind)	33 sor	(cikkei)
2.	PDF szerkeszto / konvertalo (mind)	45 sor	(cikkei)
3.	PDF szerkeszto / konvertalo (mind)	17 sor	(cikkei)
4.	ekezetes PDF konvertalas (mind)	14 sor	(cikkei)
5.	re: PDF szerkeszto / konvertalo (mind)	89 sor	(cikkei)
6.	Re: PDF szerkeszto / konvertalo (mind)	8 sor	(cikkei)

+ -	Re: * HIX GURU * #7115 (mind)	VÁLASZ	Feladó: (cikkei)
2019. 02. 14. 2:59 keltezéssel, HIX GURU írta: > Üdv! A gond2 az, hogy ezek a PDF-ek úgy készültek, hogy wordból / akármiből PDF nyomtatóra voltak küldve, és nem törődtek olyasmivel, hogy kitöltsék a szerző, cím, és stb. mezőket, amit pl. a mai mobilos readerek megjelenítenek a felületükön. Azaz nagyon nehéz kikeresni az áhított művet olyan borítóképek közül, amiken a szerzők Word 4.0, a művek címe pedig egy random valami. + Gond, hogy sokszor a képek nem kerültek a fájlba, hanem egy külön mappába lettek mentve sokuknál valami logika alapján. ... Török István Szia Pista! Nem tudom hány fájlról van szó, de a szerzői és egyéb információk szerkesztésére esetleg kereshetnél programot. Csak példaképpen Linux alatt a pdfmod-ra ezt írja a telepítő: "PDF Mod is a simple application for modifying PDF documents You can reorder, rotate, and remove pages, export images from a document, edit the title, subject, author, and keywords, and combine documents via drag and drop." Szerintem a pdftk is tud ilyesmit, de nem nézetem meg. Török Árpád
+ -	PDF szerkeszto / konvertalo (mind)	VÁLASZ	Feladó: (cikkei)
Szia! A PDF formátum saját, nem Unicode kódolásokat használ. A cél ugye a dokumentum megjelenésének a megőrzése. A kódolás jobb esetben egybeesik valamilyen szabványossal, ha a PDF generátornak eszébe jut olyat használni, de előfordulhat, hogy csak találomra újradefiniál ezt-azt. Most csak hogy hasból mondjak egy példát, a PDF nyomtatónak nem jut eszébe magyar szöveghez a 852-es kódlapot használni, mert mondjuk nem is ismeri, ezért a 850-est használja, csak mondjuk a @-ot átdefiniálja ő-vé, a &-t meg ű-vé. Vagy nem is definiál át semmit, csak a felhasznált fontra bízza a helyes megjelenítést. Vagy nincs is felhasznált font, mert szkennelt könyv esetében a szokásos eljárás, hogy a megjelenítést kép biztosítja, amihez csatolódik egy külön szövegréteg. Én nem tudom, hogy a te dokumentumaid hogyan épülnek fel, de az utóbbi -- azaz képből megjelenített könyvlapok + szöveg-layer -- esetben már eleve az OCR-nél is elcsúszhatott a dolog, ami eddig sosem derült ki, mert sosem a szöveget babráltad, hanem a képeket olvastad. Bármelyik is a helyzet, az egyetlen járható útnak az újra-OCR-ezést tartom, mert akár fontokból, akár képből van berakva a megjelenés, szite biztos, hogy csak az "sértetlen" tartalom, a karakterkódolás már a .pdf-ben el van barmolva, és ha vissza is állítható, szoftver legyen a talpán, amelyik megcsinálja. Inkább meg kéne nyitni és szövegréteg nélkül újra elmenteni, vagy valami pdf->pdf konverterrel ezt megcsinálni. Esetleg pdf->PostScript konverzióval, ami kihagyja a szöveget és csak a nyomtatni való megjelenést kódolja. Majd ezekből a fájlokból újrakonvertálni .pdf-fé új, modern OCR-rel. Szerintem azt akár az Online Converter is megteszi, de biztos vannak letölthető konverterek. Én nem nagyon használok ilyeneket. PDF -> PostScript convertert igen, de csak DOS-on. Ez a PDFTOPS.EXE, elküldöm, mert szélsőséges esetben Windows-on is használhatod, ha nem találsz semmi egyszerűbb megoldást, mondjuk DOSBox-ban, de úgy jóval lassabb lehet, mint igazi vason. Innen érheted el: http://www.nomdo.dds.nl/psview.htm csak az a link él, amelyik a 3.02-es verzióra irányít. Az a gyanúm azért, hogy Windows-ra is létezik néhány PostScript generátor és jobb esetben nem hagyják benne a szöveget, vagy legalább opciót hagynak rá, hogy kivedd. Üdv: -- KORMOS Krisztián +36304778633 - User of Links 2.17/2.15 web browser for DOS operating system on Caldera DR-DOS 7.03 KormaX distribution, 2019. -- Author of KormaX DOS distribution for modern PC's DOS ain't dead C:\>_
+ -	PDF szerkeszto / konvertalo (mind)	VÁLASZ	Feladó: (cikkei)
Még valami, bár szintén DOS, de ahogy elnézem Linuxra és Windowsra is létezik, tartalmazza egyrészt a PDFTOPS.EXE eggyel újabb verzióját, másrészt egy szöveg extractort és egy .pdf -> html konvertert is egyebek között (képextractor, stb.). Lehet, hogy van Windows-ra is, XPDF a neve. https://www.opus.co.tt/dave/apps.htm "Xpdf v3.03"-ként keresd az oldalon és a "DOS binary and source download"-linkre kattintva töltheted le DOS-ra, az alap link viszont Linux és Windows letöltésekhez vezet, esetleg érdemes kipróbálnod. Üdv -- KORMOS Krisztián +36304778633 - User of Links 2.17/2.15 web browser for DOS operating system on Caldera DR-DOS 7.03 KormaX distribution, 2019. -- Author of KormaX DOS distribution for modern PC's DOS ain't dead C:\>_
+ -	ekezetes PDF konvertalas (mind)	VÁLASZ	Feladó: (cikkei)
Sziasztok! Szerintem sehogy. Anno decibel a PDF-ekben nem volt olyan font, ami magyar ekezetes karaktert tudott volna, tehat kvazi nyomdaszatilag ossze lett rakva egy o betubol meg egy ekezetbol. Innentol kezdve OCR nelkul eselytelen vagy konvertalni. Udv, marky
+ -	re: PDF szerkeszto / konvertalo (mind)	VÁLASZ	Feladó: (cikkei)
PDF szerkeszto / konvertalo (Török István HIX GURU 7115 2019-02-14) Környezetem: MacBook 10.13.6 (OS X, BSD Unix alapú), Aquamacs 3.4 (leánynevén emacs) Reguláris kifejezés: véges automatával felismerhető jelsorozat Az OS X teljesen Unicode, azaz tud ,,minden" ábécét (majdnem...), így ékezetes betűket is. Pár részleges tippel szolgálhatok csak - ráadásul mindezt unix-linux stb. alapon, de tudtommal mennek Windows alatt is, annak kezelését másra hagynám. 1. PDF szerkesztés Pdf-et korábban Adobe Acrobat DC (?) szerkesztővel szerkesztettem, ez fizetős (drága). Nem emlékszem már, mennyire volt könnyű vagy sem a helyettesítés, de nem hiszem, hogy fölvenné a versenyt az Emacs/Unix módszerrel. Az OS X Preview nevű programja (része a rendszernek) tkp. az Adobe Reader-t helyettesíti, ebbe kezdetlegesen be lehet írni, jegyzetelni hozzá, hasznos, de neked sajnos nem ez kell. 2. Emacs konvertálás A Unix/Linux egyik erőssége a szövegkeresés illetve helyettesítés, különösen reguláris kifejezésekkel, de amióta (régóta) Emacs-hívő lettem, elszoktam az ehhez használatos alkalmi pársoros szövegátalakító, kereső stb. shell programocskáktól, hanem kb. minden ilyesmit Emacs-ban végzek. Szövegszerkesztést is, gyakori eszközöm a LaTeX, amit az Emacs jól támogat. tr, sed ilyen Unix alapprogramok. Újabban Perl-ben űzik mindezt - már aki nem Emacs-ban. Mindezt? Milyen mindezt? Pl. egykor (mondjuk 20 éve) a HIX még nem tudott magyar ékezetes betűket írni, az én akkor gépi környezetem már igen, így az ékezetekkel ellátott magyar betűket át kellett alakítani a HIX megfelelő ISO 8859-1 betűkre. Ha jól látom, ez ma is a helyzet, csak már a HIX ezt maga is megteszi, visszabutítja (egységesíti) a karakterkészletet erre. Na, ezt az átalakítást végeztem Emacs makrókkal: az adott magyar ISO-8859-2 (magyar ékezetes) szöveget HIX-konverzióra változtattam, ez egyetlen parancs (emacs makró) volt, a szöveget ezen végigfuttatva küldhettem a HIX-nek. Ma az egész világ Unicode (ebben tévedhetek). Ez az Emacs-Lisp nagyon könnyű (ilyen egyszerűbb esetekben), az Emacs-makrók is, hamar meg lehet tanulni és azontúl nagyon kényelmes tetszőleges nagy szöveg, több száz oldal átalakítására. Néha, finomításként, többet alkalmaztam egymás után, amikor pl. az u" (u után közvetlenül kettős ékezet) nem akart volna ű (magyar hosszú ű, azaz az u-n kettős hosszú ékezet) lenni, hanem maradnia kellett u záró idézőjelnek. Ez a kézi vacakolás a reguláris kifejezések szövegfüggetlen voltából következik, kicsit ügyeskedni kell, de ebbe nem megyek bele, nem érdemes külön környezetfüggő nyelvtant gyártani pár alkalmi kivételre. Mindehhez azonban el kell jutni egy szöveghez - legyen azontúl akár ISO 8859 karakterkészletben, akár Unicode-ban - a PDF-ből. Ennek egy lehetséges eszköze a pdf-tools https://github.com/politza/pdf-tools ez Emacs alapú, Windows-ban és OS X-ben (meg persze Linux-ban) is megy. Ha ehhez hozzájutsz illetve elsajátítod, sokat tudó eszköz lesz a kezedben. Ezt csak képzelem, ugyanis nem próbáltam. Ez tud pdf-ből sima szöveget gyártani, ás akkor már nyert ügyed van, Emacs-ban helyreteszed a hibás betűket és visszaalakítod PDF-fé. 3. Szövegből ismét PDF - Emacs, org Az Emacs-nak van egy szövegszerkesztő módja, org a neve. Ha egy file-t ilyen kiterjesztéssel gyártunk, akkor abból pdf, LaTeX, html, text (és még tán másféle) szöveget is gyárthatunk egyszerű Export-álással. Nem a te kérdésed, de szakcikket, könyvet legjobban TeX ill. LaTeX formában érdemes gyártani, így a legjobb a minőség, a ,,gyári" szövegszerkesztők, Word, Notes akármi nyomukba sem érnek, ha nem közönséges módon kell a szöveget kezelni - pl. egy vastag könyvet LaTeX-ben pillanatok alatt úgy le lehet kicsinyíteni, mondjuk felére (vagy 1/e-szeresére), hogy a méreteken kívül minden ugyanilyan marad - sorok, elválasztások, bekezdések, fejezetek. Üdvözlettel Gaál Tamás (F)
+ -	Re: PDF szerkeszto / konvertalo (mind)	VÁLASZ	Feladó: (cikkei)
Próbáld meg az eredeti ékezetes szöveges fileokat (pl html) sima notepad-al megnyitni majd változtatás nélkül elmenteni saveas-al úgy hogy nem a alapértelm e zett ANSI kódolás van kiválasztva hanem az UTF-8.. (Ha hozzáad még txt kiterjesz tést azt töröld) Ezután a konvertálóprogik jól kezelik az ékezeteket remélhetől e g.

AGYKONTROLL ALLAT AUTO AZSIA BUDAPEST CODER DOSZ FELVIDEK FILM FILOZOFIA FORUM GURU HANG HIPHOP HIRDETES HIRMONDO HIXDVD HUDOM HUNGARY JATEK KEP KONYHA KONYV KORNYESZ KUKKER KULTURA LINUX MAGELLAN MAHAL MOBIL MOKA MOZAIK NARANCS NARANCS1 NY NYELV OTTHON OTTHONKA PARA RANDI REJTVENY SCM SPORT SZABAD SZALON TANC TIPP TUDOMANY UK UTAZAS UTLEVEL VITA WEBMESTER WINDOWS