Umlaute sind m.E. erlaubt, und müssen nicht übersetzt werden, wenn die Encodierung passt.
entweder setzt du die Codierung in einem HTML-Header, das geht in einem Notes-Agenten z.B. mit
print "Content-Type: text/html; charset=utf-8"
print "" ' leerzeile zum signaisieren: Header ende
print "<doctype....."
Alternativ kann man den Contet-Type bzwl Charset *) auch in der Maske/Page/... angeben (option müsste ich jetzt nachsehen)
oder eben über einen speziellen "<meta...." Tag.
Bis jetzt hatte ich (nach dem ich das richtige Encoding rausgefunden hatte) keine Probleme mit Umlauten, auch ohne Ersetzung (bis auf die Steuerzeichen < > & " )
Die Ersetzungsliste ist ja inzwischen endlos:
http://de.selfhtml.org/html/referenz/zeichen.htmWobei eine Ersetzung von ä=>ä etc. mit Sicherheit nicht falsch ist, allerdings wird man nie alle, wenn auch in unserer Region seltene, Sonderzeichen erfassen können, so dass man versuchen sollte, das Problem durch ein korrektes Encoding zu fixen.
(@Peter: Da deine Datei jetzt sauber aussieht, denke ich hast du das auch geschafft)
Wenn die Umlaute, Steuer und escapezeichen ( < > " ' & / \ ) dann sauber durchkommen, mach ich als Härtetest oft eine "UTF-8-Insel": *̡͌l̡*̡̡ ̴̡ı̴̴̡ ̡̡͡|̲̲̲͡͡͡ ̲▫̲͡ ̲̲̲͡͡π̲̲͡͡ ̲̲͡▫̲̲͡͡ ̲|̡̡̡ ̡ ̴̡ı̴*̡͌l̡*-
Wenn diese Sonderzeichen 1x den Roundtrip schaffen, gehe ich davon aus, dass ich nicht viel beim Encoding falsch gemacht habe.
Gruß
Roland
*) Vielleicht nochmal zur Klarstellung, weil ich das selber oft ein wenig vermische
Content-Type:Der "Doumenttyp", z.B. text/html, image/gif, application/octet-stream....
Content-Transefer-Encoding:Die Art, wie der Content über den Kommunkikationskanal übertragen wird. Gängig ist: None bzw. Binary, Base64, quoted-printable, 7bit (falls keine Zeichen > 128), chunked
(letzteres ist bei Notes-Agenten nützlich, wenn man größere Attachments senden will:
http://atnotes.de/index.php/topic,50597.msg324992.html#msg324992)
Charset:Das Charset spielt eigentlich nur bei Texten eine Rolle. Nachdem der Content encodiert wurde, muss der Browser (oder auch Texteditor) wissen, wie er die einzelnen Bytes darstellen muss. Am Gängisten ist inzwischen wohl UTF-8, gefolgt von ISO-8859-15, CP1252, ASCII,....
das Charset wird i.d.R. hinter dem Content-Type angegeben: z.B. "text/html; charset=UTF-8" (das funktioniert auch, wenn man das so in einer Maske/Page eingibt)