Velmi dlouhý text v html/txt, čím otevřít a prohledávat?

klak (148)|29.1.2007 17:10

Hledám způsob jak vyřešit následující problém:

Chci mít stále při ruce vemi dlouhý text (seznam), který je k dispozici na internetu. Ve formátu HTML má 2MB, po přeformátování do TXT má "jen" 0,4MB. Navíc se postupem času pomalu zvětšuje.

Napsal jsem si skript, který stránku z internetu sám stáhne, překonvertuje do textu a předhodí synchronizaci k umístění na PDA. Mám však problém s tím, najít aplikaci pro PDA, která soubor v rozumné době otevře a umožní v něm navíc hledat slova.

PIE i Opera jej jako HTML otevírají neúnosně dlouho, jako TXT je to lepší ale zase komolí češtinu a nemají vyhledávání. Word jej jako TXT vůbec otevřít nedokáže.

Máte dobrou zkušenost s nějakým softwarem, který umí takovýto dlouhý dokument rozumně rychle otevřít v libovolném z těchto dvou formátů a umí jednoduché a opět rozumně rychlé vyhledávání?

Zde je ukázka těch dokumentů na vyzkoušení:
webová stránka
textový soubor

Forstner (20)|29.1.2007 19:20

Taky jsem kdysi resil tenhle problem a dospel jsem k tomu, ze nejlepsi je to zkonvertovat pomoci napriklad programu DocReader.exe ( najdes na http://www.pdb.estranky.cz/clanky/pdb-readery/docreader ) na *.PDB a to pak pohodlne cist nejakym prohlizecem E-knizek... napriklad MobipocketReader ( Mobipocket.com ) umi i vyhledavat...

klak (148)|30.1.2007 15:55

Děkuji Ti Forstnere za odpověď. Použít čtečku knih, kterou jsem doposud nepoužíval, mě nenapadlo. Výsledek je zatím takovýto:

Mobipocket Reader, je bezvadný program. Umí otevřít i prostý textový soubor, nicméně další práce s ním (listování, hledání) je pak přecejen o trochu pomalejší než práce s PDB souborem. Dokonce zvládnul otevřít i ten můj 2MB HTML soubor, ale bylo to ještě pomalejší, formátování nevyhovovalo a nepřizpůsobil se kódování češtiny. Ostatně ani u textového souboru nezobrazoval češtinu správně, vyžaduje totiž Unicode a má data jsou ve Win-1250.

Potřeboval jsem tedy opravdu převést data do PDB souboru. Nicméně je třeba to dát do skriptu, takže klikací DocReader nevyhovuje. Naštěstí jsem našel malý dosový MakeDoc8, který odvede stejně dobrou práci.

Nyní mi už jen zbývá vyřešit přeformátování TXT z kódování Win-1250 do Unicode. Kdyby někdo znal utilitu, která to zvládne z příkazové řádky, dejte prosím vědět. Zatím překódovávám do ASCII, abych mohl v dokumentu hledat.

klak

P.S. Ten MobipocketReader mě okouzlil. Asi začnu číst z PDA :-)

Surgical (2364)|30.1.2007 16:15

Moment, CP 1250 jest Unicode. Jen si musis do cihly nahrat fonty, aby ti je MobiPocket korektne zobrazoval, blize v diskusi zde.

Jinak diky MobiPocket Readeru jsem toho za posledni roky precetl taky hodne :)

xtonda (811)|30.1.2007 16:39

[QUOTE="Surgical"]Moment, CP 1250 jest Unicode.[/QUOTE]
Tak takovouhle blbost jsem už dloho nečetl, cp1250 aka windows-1250 nemá nic společného s Unicode krom toho že se shodují v USASCII, tj. znacích 0-127.

klak (148)|30.1.2007 16:58

[QUOTE="Surgical"]Moment, CP 1250 jest Unicode. Jen si musis do cihly nahrat fonty, aby ti je MobiPocket korektne zobrazoval, blize v diskusi zde.[/QUOTE]

Jak píše xtonda, Unicode opravdu není Win-1250. Druhé je jednobajtové, první je dvojbajtové, tzn. na každý znak (krom základních ASCII) jsou použity dva bajty.

Nějak jsem při zběžném prohlédnutí nenašel jak importovat nové fonty do PDA a taky si myslím, že to vůbec není systémové řešení, nýbrž že je to pěkná prasárna, použitelná jen v nouzi nejvyšší.

jojolaser (82)|31.1.2007 00:50

[QUOTE="klak"]Unicode opravdu není Win-1250. Druhé je jednobajtové, první je dvojbajtové, tzn. na každý znak (krom základních ASCII) jsou použity dva bajty.[/QUOTE]
Len pre upresnenie, Unicode je obrovska tabulka znakov vsetkych abecied. Unicode moze byt vyjadreny roznymi kodovaniami a to co popisujete vy je kodovanie UTF-8, ktore pre kazdy znak pouziva jeden az sest bajtov (aj ked pre cesku abecedu stacia maximalne dva bajty).
Sorry za OT.