Autor Thema: Redundanzmanagement  (Gelesen 13347 mal)

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Redundanzmanagement
« am: 15.02.05 - 14:17:58 »
hallo zusammen.
ich bin student an der uni paderborn und muss im rahmen einer seminararbeit lösungen zum redundanzmanagement unter lotus notes vorstellen.
die problemfelder sind:
1) fehlerhafte informationen (2 dokumente, einmal meik und einmal mike)
2) unvollständige daten (2 dokumente, in einem fehlt z.b. die plz)
3) doppelt daten (2 identlische dokumente, unterschiedliche unique-id)
4) inkonsistenz ( 2 sich widersprechende dokumente: 2 adressen)

im moment befinde ich mich bei der lösung zu den fehlerhaften informationen. meiner meinung nach ist es nahezu unmöglich, diese in einer großen DB mithilfe eines algorithmus aufzuspüren. wenn, dann nur durch mehrfachen vergleich verschiedener felder, und dies würde meiner meinung nach viel zu lange dauern, wenn es überhaupt machbar ist.
meine fragen jetzt an die experten:

1) was haltet ihr von meinem ansatz?

2) kennt ihr eine möglichkeit, fehlerhafte information zu finden, die mir bisher noch nicht in den kopf gekommen ist?

3) wie kann ich felder innerhalb einer view automatisch vergleichen? ich habe mir das so vorgestellt: ich nehme einen feldwert aus dem ersten eintrag der db und vergleiche ihn mit den einträgen der anderen dokumente. falls kein gleicher wert gefunden wird, nehme ich den nächsten eintrag und vergleiche ihn mit den folgenden, usw. falls ein doppelter eintrag gefunden wird, sollen die beiden dokumente dem benutzer am besten vergleichbar, also nebeneinander angezeigt werden, wovon der benutzer dann eins auswählt. das andere dokument wird gelöscht. ich weiss, nicht ob dies so möglich ist!?!? wenn ja, wie? andere lösungsvorschläge?

vielen dank für eure hilfe. würde mich echt weiterbringen!?!?

gruß jan

Offline Thomas Schulte

  • @Notes Preisträger
  • Freund des Hauses!
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 4.388
  • Geschlecht: Männlich
  • Ich glaub mich tritt ein Pferd
Re: Redundanzmanagement
« Antwort #1 am: 15.02.05 - 14:45:30 »
Hallo und willkommen im Forum Jan

Das Problem das deine Profs dir da aufgehalst haben ist wirklich nicht trivial. Alleine über die Suche nach Ähnlichkeiten in Datensätzen sind schon haufenweise Doktorarbeiten geschreiben worden. Bei den fehlerhaften Informationen muss du im Prinzip einen Ähnlichkeitsalgorhytmus aufbauen und dann die Dokumente durchgehen und Dokumente mit dem gleichen Wert anzeigen. Um das vernünftig zu regeln musst du dich zumindest mit Phonetischer Analyse, dem LevenShtein Algorythmus und Klangfarbenanalyse beschäftigen.
Ein erster Ansatz dazu sind ein paar Artikel von WFlamme zu diesen Themen.

« Letzte Änderung: 15.02.05 - 15:36:08 von Thomas Schulte »
Thomas Schulte

Collaborative Project Portfolio and Project Management Software

"Aber wo wir jetzt einmal soweit gekommen sind, möchte ich noch nicht aufgeben. Versteh mich recht, aufgeben liegt mir irgendwie nicht."

J.R.R.Tolkien Herr der Ringe, Der Schicksalsberg

OpenNTF Project: !!HELP!! !!SYSTEM!!  !!DRIVER!!

Skype: thomasschulte-kulmbach

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Re: Redundanzmanagement
« Antwort #2 am: 15.02.05 - 14:55:19 »
vielen dank für deine tipps.
ich soll eine lösung nur kurz umschreiben, nicht alles programmieren bzw. bis ins kleinste detail lösen. das wäre zu umfangreich.
aber dein post sagt mir, dass ein fehlerhafter datensatz nur schwierig gefunden werden kann. das reicht mir schon als aussage!  ;D

aber können zwei dokumente neben oder übereinander dargestellt werden, von dem ich eins aussuche und das andere verwerfe? z.b. bei inkonsistenz oder doppelten daten?

ich glaube, fehlerhafte daten zu finden ist das schwierigste aller redundanzprobleme!?!?

Marinero Atlántico

  • Gast
Re: Redundanzmanagement
« Antwort #3 am: 15.02.05 - 15:15:19 »
[...] sind schon haufenweise Doktorarbeiten geschreiben [...] einen Ähnlichkeitsalgorhytmus aufbauen  [...]  Phonetischer Analyse, dem LevenShtein Algorhytmus und Klangfarbenanalyse [...]

hat nicht vielleicht jemand der doctores ein paar openSores Libraries hinterlassen, so dass man es ausschlachten könnte?

klaussal

  • Gast
Re: Redundanzmanagement
« Antwort #4 am: 15.02.05 - 15:18:31 »
Zitat
aber können zwei dokumente neben oder übereinander dargestellt werden, von dem ich eins aussuche und das andere verwerfe? z.b. bei inkonsistenz oder doppelten daten?

Ja, das geht. Kommt allerdings darauf an, wie man die Dokumente per Ansicht darstellt (Sortierreihenfolge, etc).

klaus

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Re: Redundanzmanagement
« Antwort #5 am: 15.02.05 - 15:24:29 »
die view ist nach der ersten spalte sortiert.
wie funktioniert es denn dann?

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich
Re: Redundanzmanagement
« Antwort #6 am: 15.02.05 - 15:30:04 »
Mit stino Ansichten geht das nicht. Du könntest aber die beiden (oder noch mehr) Dokumente in einen Ordner verschieben oder auch für ein Anzeigedokument aufbereiten, das auch die entsprechenden Aktionen für das Verwerfven etc. enthält (so mache ich das).

Bernhard

Glombi

  • Gast
Re: Redundanzmanagement
« Antwort #7 am: 15.02.05 - 15:31:01 »
Ich würde mich mit der Funktion @Soundex beschäftigen.

Bsp.:
@Prompt([Ok];"Mike";@Soundex("Mike"));
@Prompt([Ok];"Meik";@Soundex("Meik"));

liefert beides mal "M200"

Andreas

klaussal

  • Gast
Re: Redundanzmanagement
« Antwort #8 am: 15.02.05 - 15:33:29 »
@bernhard,

wenn der Key z. Bsp. Name + Vorname sind, kann ich sehr wohl über eine Ansicht zwei Willi Müller finden. Ob das der gleiche Willi ist, kann man über den Vergleich der restlichen Felder herausfinden.

klaus

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich
Re: Redundanzmanagement
« Antwort #9 am: 15.02.05 - 15:39:57 »
Klar, dann geht das, Klaus. Aber ich nehme an, dass der Fall hier nicht so "billig" gelagert ist. Beispiel:
Es gibt zwei Dokumente, die auf die gleiche Firma verweisen:
1) Konstruktionsbüro Willi Müller GmbH
2) Müller Konstruktionsbüro Musterstadt

Wegen Soundex:
Das ist EIN Ansatz. Der hilft aber nicht in allen Fällen weiter. Beispiele:
07745 Jena vs. 07743 Jena
oder
"Johann-Wolfgang-von-Goethe-Strasse 21" vs. "Goethestr."
Hier müsste also mit einer gewissen Normierung gearbeitet werden (die dann aber ggf. wieder Soundex zulässt).

Auf jeden Fall ein tolles Thema, nicht nur für eine Seminararbeit.

Bernhard

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Re: Redundanzmanagement
« Antwort #10 am: 15.02.05 - 15:41:22 »
ok, verschieben sollte kein problem sein.
aber wie bekomme ich die zwei inhalte des ansich gleichen felds angezeigt? über unique-id? das bereitet mir gerade kopfzerbrechen. wenn ich die beiden dokumente gegenübergestellt habe, sollte das auswählen und das löschen auch kein problem mehr sein!?!

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Re: Redundanzmanagement
« Antwort #11 am: 15.02.05 - 15:43:06 »
"wenn der Key z. Bsp. Name + Vorname sind, kann ich sehr wohl über eine Ansicht zwei Willi Müller finden. Ob das der gleiche Willi ist, kann man über den Vergleich der restlichen Felder herausfinden."

das ist eher das problem doppelte daten. allerdings liegt mein problem gerade bei den fehlerhaften informationen: mike müller und meik müller.

Glombi

  • Gast
Re: Redundanzmanagement
« Antwort #12 am: 15.02.05 - 15:48:03 »
Zitat
allerdings liegt mein problem gerade bei den fehlerhaften informationen: mike müller und meik müller
Das geht einfach mit Soundex - siehe oben

Andreas

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich
Re: Redundanzmanagement
« Antwort #13 am: 15.02.05 - 15:49:39 »
A propos "fehlerhafte Informationen": Schenk' uns mal ein paar Grossbuchstaben an den richtigen Stellen, Jan.  ;)

Bernhard

Offline Semeaphoros

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 8.152
  • Geschlecht: Männlich
  • ho semeaphoros - agr.: der Notesträger
    • LIGONET GmbH
Re: Redundanzmanagement
« Antwort #14 am: 15.02.05 - 15:50:03 »
Jan, für Mike une Meik hat Glombi Dir eigentlich den Weg gezeigt. Das ist nicht die ganze Wahrheit, das ist schon so, aber damit kann man mal anfangen. Ansonsten würde ich eigentlich ganz gerne mein Hirn ein wenig entlasten und wünsche mir eine bessere Lesbarkeit des Textes mit ein paar "erwachsenen" Buchstaben, wenns möglich ist.
Jens-B. Augustiny

Beratung und Unterstützung für Notes und Domino Infrastruktur und Anwendungen

Homepage: http://www.ligonet.ch

IBM Certified Advanced Application Developer - Lotus Notes and Domino 7 und 6
IBM Certified Advanced System Administrator - Lotus Notes and Domino 7 und 6

Offline Thomas Schulte

  • @Notes Preisträger
  • Freund des Hauses!
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 4.388
  • Geschlecht: Männlich
  • Ich glaub mich tritt ein Pferd
Re: Redundanzmanagement
« Antwort #15 am: 15.02.05 - 15:50:47 »
hat nicht vielleicht jemand der doctores ein paar openSores Libraries hinterlassen, so dass man es ausschlachten könnte?
Open Source libraries leider nicht aber Doktorarbeiten. Und weil sich herausgestellt hat das es doch nicht so einfach ist, haben die dann alle Firmen gegründet und versuchen damit Geld zu verdienen. Die Artikel vom Wolfgang sind definitiv lesenswert.
Wobei die Frage eigentlich ist, gibt es Möglichkeiten Datensätze so zu vergleichen ,das Fehler erkannt werden und da ist die Aussage von Bernhard schon richtig. Das geht mit normalen Ansichten nicht.
Weil finde hier mal den Fehler:
Torsten Müller Weihnachtsstraße 20 56780 Nicklashausen : Torsten  Müller Weihnachtsstraße 20 56780 Nicklashausen.
Klar wenn man den Fehler dann gefunden hat ist es ein leichtes dagegen code zu schreiben. Nur das ist eine Möglichkeit.
Ich habe daheim ein Beispiel aus dem Adressbuch von Nürnberg, wo es einen Tobias Schmidt, Torsten Schmidt und Thorsten Schmidt in ein und demselben Haus gibt und alle drei sind mit T. im Telefonbuch gelistet. Sind jetzt alle drei Adressen falsch oder richtig?
Könnte es sein das Thorsten und Torsten der gleiche sind? Phonetisch sind sie sich ja extrem ähnlich.
Wie schon gesagt das Thema ist nicht trivial.
Man müsste das in Script über Lists, Parsen durch die Dokumente Levenshtein und noahc ein paar andere Zaubereien halbwegs lösen können, aber eine hundertprozentige Lösung gibt s da nicht. Zumindest keine die ich auf meine User loslassen würde.

Und allzuweit sollten wir dir vielleicht auch nicht helfen, denn ich glaube durchaus das der eine oder andere von deinen Profs hier mitliest.
Thomas Schulte

Collaborative Project Portfolio and Project Management Software

"Aber wo wir jetzt einmal soweit gekommen sind, möchte ich noch nicht aufgeben. Versteh mich recht, aufgeben liegt mir irgendwie nicht."

J.R.R.Tolkien Herr der Ringe, Der Schicksalsberg

OpenNTF Project: !!HELP!! !!SYSTEM!!  !!DRIVER!!

Skype: thomasschulte-kulmbach

Offline JanHoener

  • Junior Mitglied
  • **
  • Beiträge: 66
  • Geschlecht: Männlich
  • auf der Suche...
Re: Redundanzmanagement
« Antwort #16 am: 15.02.05 - 15:58:05 »
Alles klar. Bin die Kleinbuchstabenschreibweise so aus dem Web und den Mails gewohnt, dass ich das hier auch so gehalten habe! Nun also mit erwachsener Schreibweise  ;)

Ich werde mir mal einen Ansatz mit @Soundex basteln. Mal sehen, was dabei herauskommt.

Die Möglichkeiten über Phonetische Ansätze usw. nehme ich auch mit auf, werde sie aber nicht vertiefen, da, dies zu umfangreich ist.

Und das hier einer meiner Profs. mitliest, ist überhaupt kein Problem, da ein Punkt der Seminararbeit war, eine Recherche durchzuführen, was es schon gibt bzw was möglich ist. Und ihr programmiert mir ja nicht meine Ansätze :-)
Trotzdem würde es mich noch interessieren, wie man nun zwei Dokumente vergleichend darstellen kann. Wie kann ich den einen Wert z.B. nach rechts, den anderen nach links packen?

Vielen Dank schonmal für die rege Diskussion hier. Hilft mir sehr.

Offline Thomas Schulte

  • @Notes Preisträger
  • Freund des Hauses!
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 4.388
  • Geschlecht: Männlich
  • Ich glaub mich tritt ein Pferd
Re: Redundanzmanagement
« Antwort #17 am: 15.02.05 - 16:01:16 »
Schau dir mal den NotesMan von Martin Scott an und da speziell das Tool Doc.Delta. Der vergleicht zwei manuell ausgewählte Dokumente miteinander. Wenn du genauer hinguckst kommst du auch hinter das Prinzip das dahintersteckt
Thomas Schulte

Collaborative Project Portfolio and Project Management Software

"Aber wo wir jetzt einmal soweit gekommen sind, möchte ich noch nicht aufgeben. Versteh mich recht, aufgeben liegt mir irgendwie nicht."

J.R.R.Tolkien Herr der Ringe, Der Schicksalsberg

OpenNTF Project: !!HELP!! !!SYSTEM!!  !!DRIVER!!

Skype: thomasschulte-kulmbach

Glombi

  • Gast
Re: Redundanzmanagement
« Antwort #18 am: 15.02.05 - 16:04:09 »
Zitat
Trotzdem würde es mich noch interessieren, wie man nun zwei Dokumente vergleichend darstellen kann. Wie kann ich den einen Wert z.B. nach rechts, den anderen nach links packen?
Euer Prof. hat ja einen Deal mit Teamstudio. Du installierst Dir also Teamstudio Delta. Dann kannst Du ganz einfach 2 Dokumente miteinander vergleichen.

Andreas

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich
Re: Redundanzmanagement
« Antwort #19 am: 15.02.05 - 16:08:16 »
Thomas und Andreas: Das ist aber ein rein manuelles Verfahren und hilft nicht bei der automatischen Ermittlung der zweifelhaften Dokumente.

Bernhard

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz