Attachment von txt in .html umbenennen.
Pfade in c# code sind hartcodiert.
So. Konnte mich dem nun nach längerer Zeit wieder widmen.
Ein paar Dinger gab es da noch.
Die konnte ich aber mit Hilfe dieses C# codes erstmal beheben.
Das angehängte File ist ein solcher "Problemfall". Es sollte relativ offensichtlich sein, was mit dem C# code transformiert wird (und somit vorher anders war als erwünscht).
Nix gegen Martin (war eine große Hilfe). Ich habe auch die Infos sehr tröpfchenweise herausgelassen.
Ich hab erstmal mit Java Regex angefangen. Angesichts dieses Beispiels war dann aber C# einfacher (
http://tim.mackey.ie/CleanWordHTMLUsingRegularExpressions.aspx)
Ich arbeite allerdings noch an entsprechenden Java Code und hab schon Regex mit NIO am Laufen.
Poste hierzu später.
Hört sich chaotisch an? Yes. Indeed. Sorry.
Axel
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
using System.IO;
namespace ConsoleApplication1
{
class Program
{
static void Main(string[] args)
{
Encoding encode = Encoding.GetEncoding("ISO-8859-1");
//Console.WriteLine(new Program().CleanHtml("<SPAN lang=EN-IE style=\"mso-ansi-language: EN-IE\">"));
FileStream file = new FileStream("C://perlMy//Version_4//_Toc134343703.html", FileMode.Open, FileAccess.Read);
StreamReader sr = new StreamReader(file, encode);
String inRead = sr.ReadToEnd();
String res = new Program().CleanHtml(inRead);
FileStream fileNew = new FileStream("C://perlMy//Version_4//zz.html", FileMode.Create, FileAccess.Write);
StreamWriter sw = new StreamWriter(fileNew, encode);
sw.Write(res);
sw.Close();
sr.Close();
Console.WriteLine(res);
}
private string CleanHtml(string html)
{
// start by completely removing all unwanted tags
html = Regex.Replace(html, @"<[/]?(font|span|xml|del|ins|[ovwxp]:\w+)[^>]*?>", "", RegexOptions.IgnoreCase);
// then run another pass over the html (twice), removing unwanted attributes
html = Regex.Replace(html, @"<([^>]*)(?:class|lang|style|size|face|[ovwxp]:\w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>", "<$1$2>", RegexOptions.IgnoreCase);
html = Regex.Replace(html, @"<([^>]*)(?:class|lang|style|size|face|[ovwxp]:\w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>", "<$1$2>", RegexOptions.IgnoreCase);
return html;
}
}
}
Geh jetzt erstmal suchen, wie ich mit C# alle Dateien eines Verzeichnisses verarbeite.