Seite drucken - HTml Datei in mehrere Dateien zerschneiden

Sonstiges => Offtopic => Thema gestartet von: flaite am 05.04.06 - 11:37:03

Titel: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 05.04.06 - 11:37:03

Hi,

ich habe eine html-Datei, die zerteilt werden will.
Und zwar immer in der ersten leeren Zeile vor <a name=">

Es sind mehrere "<a name=" da.

Also werden damit dann verschiedene Dateien erzeugt.

Inhaltsverzeichnis
aName1
aName2
aName3
etc.

Ich krieg das mit Regular Expressions nicht hin und mache es mit Java (was ziemlich uncool ist, aber das beherrsche ich inzwischen wenigstens ganz gut).
Oder kennt vielleicht jemand ein Tool? Oder ein Python-Script. Ein Ruby-Script. Ein Groovy-Script. Ein Perl-Script oder was auch immer.

thx Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 05.04.06 - 12:22:26

Bitte schön:

Code

use strict;
use English;

my $filename = "";

if (not defined @ARGV ) {
	print STDERR "Usage: " . $PROGRAM_NAME . " FILENAME\n";
	exit;
}

open(IN, $ARGV[0] ) or die "Lesefehler '" . $ARGV[0] . "'! Grund: $!\n";
while(<IN>) {
	if( /\<a\s+name\s*=\s*\"(.*?)\"\s*\>/i ) {
		$filename = cleanup($1) . ".html";
		if( $filename ne "") {
			close(OUT);
		}
		print STDERR "Neuer Filename: $filename\n";
		open(OUT, ">$filename") or die "Schreibfehler '$filename'! Grund: $!\n";
	} else {
		print OUT $_ if($filename ne "");
	}
}
close(OUT) if($filename ne "");
close(IN);

sub cleanup {
	my $text = shift @_;

	$text =~ s/[\s,;]/_/gi;
	$text =~ s/[:\\\/\"']/-/gi;

	return($text);
}

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 06.04.06 - 11:36:11

Danke. Das probiere ich mal aus.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 06.04.06 - 12:41:47

Sehr freundlich.
Das hat mir jetzt auf jeden Fall weitergeholfen.
Es scheint noch ein kleines Problem zu geben:
-> Der beginnt erst mit der ersten Zeile nach dem gefundenen <a\s+name\s*=\s*\"(.*?)\"\s*\>

Am Anfang eines Abschnittes wird aus:

Code

<h3 style='margin-left:0cm;text-indent:0cm'><a name="_Toc131827276">2.9.1<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp; </span>Buchungsjournale</a></h3> etc.

das hier:

Code

 
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp; </span>Buchungsjournale</a></h3> etc.

Falls sich jemand dafür interessiert: Über Activestate.com ist Perl umsonst und sehr schnell auf Windowsrechnern installiert.

Gruß Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 06.04.06 - 13:00:06

Jup, Activestate ist SEHR angenehm.

Axel, ich bau Dir das Script gerne um, Du musst nur bitte sagen, wie Du es gerne hättest.

1) Soll er den Text vor dem ersten "<a name...." auch speichern? Wenn ja, unter welchem Namen?

2) Was soll mit der Zeile passieren, in der sich das "<a name..." befindet? Soll sie mit ausgegeben werden (in welches File)? Soll der Text "<a name ...>....</a>" entfernt werden? Oder ganz was anderes?

Ist alles kein Problem, ich muss nur wissen, was Du gern hättest.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 06.04.06 - 13:25:25

Er nimmt den Inhalt des Textes von dem Attribute name in a als Dateinamen (sehr gut).
Gut wäre es, wenn er die ganze Zeile, in der er das <a name gefunden hat in die Datei schreiben würde. Eigentlich sämtliche Zeichen nach der letzten leeren Zeile vor dem <a name=. (hoffe das ist verständlich).
Sonst hilft mir das aber wirklich schon so weiter hier eine schnelle Lösung zu entwickeln.

... wobei ich zunehmend dazu tendiere, dieses ganze (Verfahren zur Generierung von Dokumentation) auf DocBook Basis nochmal neu starte. Das läuft dann aber ausserhalb des Budgets hier.

Gruß Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 06.04.06 - 13:29:26

Soda, jetzt wird die Zeile mit dem "<a name ..." auch ins File geschrieben:

Code

use strict;
use English;

my $filename = "";

if (not defined @ARGV ) {
	print STDERR "Usage: " . $PROGRAM_NAME . " FILENAME\n";
	exit;
}

open(IN, $ARGV[0] ) or die "Lesefehler '" . $ARGV[0] . "'! Grund: $!\n";
while(<IN>) {
	if( /\<a\s+name\s*=\s*\"(.*?)\"\s*\>/i ) {
		$filename = cleanup($1) . ".html";
		if( $filename ne "") {
			close(OUT);
		}
		print STDERR "Neuer Filename: $filename\n";
		open(OUT, ">$filename") or die "Schreibfehler '$filename'! Grund: $!\n";
	}
	print OUT $_ if($filename ne "");
}
close(OUT) if($filename ne "");
close(IN);

sub cleanup {
	my $text = shift @_;

	$text =~ s/[\s,;]/_/gi;
	$text =~ s/[:\\\/\"']/-/gi;

	return($text);
}

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 06.04.06 - 15:51:18

Das funkioniert sehr gut. Thx.
Hab 2 Dinge gelernt:
1. Will man eine online html-Hilfe (hier für 2 Portlets) erstellen, ist der Weg über Word 2003 als Html Editor und PerlScripte (oder ähnliche regex-fähige Skriptsprachen) auf jeden Fall machbar.
2. Ich muß unbedingt eine regex-fähige Skriptsprache lernen (und es wird nicht Perl sein).

Versuch jetzt mehr aus Interesse, ob für die Aufgabe -> komfortable Erstellung von html artiger Dokumentationsseiten <- nicht vielleicht noch besser mit DocBook-XML und xslt gelöst werden kann.
Poste, wenn ich dazu was sinnvolles zu sagen habe.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 11.04.06 - 17:11:30

Hallo Martin,

hab noch eine Frage:
Kann ich in das Perl Script irgendwie einbauen, dass "Word-Typische"-Tags entfernt werden.

Hier ist die Regex:

Title:    Pattern Title     [Details] [Test]
Expression:
(?s)( class=\w+(?=([^<]*>)))|()|(<!\[if !\w+\]>)|(<!\[endif\]>)|(<o:p>[^<]*</o:p>)|(<span[^>]*>)|(</span>)|(font-family:[^>]*[;'])|(font-size:[^>]*[;'])(?-s)

Description:    Word HTML cleanup code. Use this expression to get rid of most of the stuff that Word adds to an HTML document such as: lots of span elements, font-family and font-size style attributes, class attributes, a whole bunch of if-then statements. Use this expression in a regex.replace(originalHtml, regExpr, "").
Matches:    <span>
Non-Matches:    <table>

Author:    Peter Donker

(von http://regexlib.com/DisplayPatterns.aspx?cattabindex=7&categoryId=8)

Gruß Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 12.04.06 - 08:00:24

Hallo Axel,

ja klatr, sollte kein Problem sein. Ich schau es mir im Laufe des Tages an. Hast Du ev. ein Testdokument bei der Hand?

Ich persönlich würde ja eher tidy (http://tidy.sourceforge.net/) oder den demoroniser (http://www.fourmilab.ch/webtools/demoroniser/) drüber laufen lassen.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 12.04.06 - 09:31:10

Tidy habe ich mir auch schon überlegt. Ich bekomme damit aber nicht so etwas wie:

Code

<span style='font:7.0pt "Times New Roman"'>
        &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</span>

weg. Selbst wenn ich den vorhandenen Word 2000 Flag einschalte (benutze Tidy GUI).
Vielleicht kenne ich mich auch zu wenig mit Tidy aus. Aber imho kann man damit nicht einfach Tags entfernen.

Beispieldatei hänge ich in der nächsten Stunde hier an.

Gruß Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 12.04.06 - 10:15:48

Soda, damit sollte es klappen:

Code

use strict;
use English;

my $filename = "";

if (not defined @ARGV ) {
    print STDERR "Usage: " . $PROGRAM_NAME . " FILENAME\n";
    exit;
}

open(IN, $ARGV[0] ) or die "Lesefehler '" . $ARGV[0] . "'! Grund: $!\n";
while(<IN>) {
    if( /\<a\s+name\s*=\s*\"?(.*?)\"?\s*\>/i ) {
        $filename = cleanup($1) . ".html";
        if( $filename ne "") {
            close(OUT);
        }
        print STDERR "Neuer Filename: $filename\n";
        open(OUT, ">$filename") or die "Schreibfehler '$filename'! Grund: $!\n";
    }
    s#(?s)( class=\w+(?=([^<]*>)))|(<!--\[if.*?<!\[endif\]-->)|(<!\[if !\w+\]>)|(<!\[endif\]>)|(<o:p>[^<]*</o:p>)|(<span[^>]*>)|(</span>)|(font-family:[^>]*[;'])|(font-size:[^>]*[;'])(?-s)##gi;
    print OUT $_ if($filename ne "");
}
close(OUT) if($filename ne "");
close(IN);

sub cleanup {
    my $text = shift @_;
    
    $text =~ s/[\s,;]/_/gi;
    $text =~ s/[:\\\/\"']/-/gi;
    
    return($text);
}

Ich hab auch die Erkennung für den "<a name=..." so geändert, dass es auch ohne " um den Attributwert funktioniert. Ist zwar nicht Standardkonform, aber Word generiert solche Tags. :(

Known Bug: Ich lese das File Zeiel für Zeile ein, der Word-Demoronizer erkennt daher ev. nicht jeden Word-Schwachsinn. Falls das ein Problem sein sollte, gib bescheid, dann bau ich es um.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 12.04.06 - 15:25:54

Wiederhole mich, aber nochmal danke.
Es gibt noch einen kleinen Bug, den ich morgen kurz beschreibe. Heute ist hier zu viel anderes zu tun. Es ist aber schon so eine echte Hilfe.

Gruß Axel

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: m3 am 20.04.06 - 10:22:45

Aufwärm. Kann ich noch was für Dich tun?

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 20.04.06 - 10:27:46

Hmm. Danke für die Nachfrage. Es kann noch sein. Ich melde mich spätestens am WE. Momentan bin ich mit etwas anderem beschäftigt (was so gar keinen Spaß macht).

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 08.05.06 - 12:09:55

Attachment von txt in .html umbenennen.
Pfade in c# code sind hartcodiert.

So. Konnte mich dem nun nach längerer Zeit wieder widmen.
Ein paar Dinger gab es da noch.
Die konnte ich aber mit Hilfe dieses C# codes erstmal beheben.

Das angehängte File ist ein solcher "Problemfall". Es sollte relativ offensichtlich sein, was mit dem C# code transformiert wird (und somit vorher anders war als erwünscht).

Nix gegen Martin (war eine große Hilfe). Ich habe auch die Infos sehr tröpfchenweise herausgelassen.
Ich hab erstmal mit Java Regex angefangen. Angesichts dieses Beispiels war dann aber C# einfacher (http://tim.mackey.ie/CleanWordHTMLUsingRegularExpressions.aspx)
Ich arbeite allerdings noch an entsprechenden Java Code und hab schon Regex mit NIO am Laufen.

Poste hierzu später.

Hört sich chaotisch an? Yes. Indeed. Sorry.

Axel

Code

using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
using System.IO;

namespace ConsoleApplication1
{
    class Program
    {
        static void Main(string[] args)
        {
 Encoding encode = Encoding.GetEncoding("ISO-8859-1");
            //Console.WriteLine(new Program().CleanHtml("<SPAN lang=EN-IE style=\"mso-ansi-language: EN-IE\">"));
            FileStream file = new FileStream("C://perlMy//Version_4//_Toc134343703.html", FileMode.Open, FileAccess.Read);
            StreamReader sr = new StreamReader(file, encode);
            String inRead = sr.ReadToEnd();
            String res = new Program().CleanHtml(inRead);
            FileStream fileNew = new FileStream("C://perlMy//Version_4//zz.html", FileMode.Create, FileAccess.Write);
            StreamWriter sw = new StreamWriter(fileNew, encode);
            sw.Write(res);
            sw.Close();
            sr.Close();
            Console.WriteLine(res); 
            
            


        }

        private string CleanHtml(string html)
        {
            // start by completely removing all unwanted tags 
            html = Regex.Replace(html, @"<[/]?(font|span|xml|del|ins|[ovwxp]:\w+)[^>]*?>", "", RegexOptions.IgnoreCase);
            // then run another pass over the html (twice), removing unwanted attributes 
            html = Regex.Replace(html, @"<([^>]*)(?:class|lang|style|size|face|[ovwxp]:\w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>", "<$1$2>", RegexOptions.IgnoreCase);
            html = Regex.Replace(html, @"<([^>]*)(?:class|lang|style|size|face|[ovwxp]:\w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>", "<$1$2>", RegexOptions.IgnoreCase);
            return html;
        }
    }
}

Geh jetzt erstmal suchen, wie ich mit C# alle Dateien eines Verzeichnisses verarbeite.

Titel: Re: HTml Datei in mehrere Dateien zerschneiden
Beitrag von: flaite am 08.05.06 - 12:30:20

Na. War klar. Encoding Alarm. Alle Germän Umlaute verschwanden einfach.
Hab den code aber entsprechend geändert und oben berichtigt. Es sieht sehr gut aus.
Ich finde man sieht damit auch, wie gut sich Regular Expression heute in verschiedenen Plattformen einsetzen lassen. Muß da natürlich noch was tun, damit ich mir das nicht immer bei Martin oder aus dem Internet besorgen muß.

Das Notes Forum

Sonstiges => Offtopic => Thema gestartet von: flaite am 05.04.06 - 11:37:03