Domino 9 und frühere Versionen > ND6: Entwicklung

Redundanzmanagement

(1/9) > >>

JanHoener:
hallo zusammen.
ich bin student an der uni paderborn und muss im rahmen einer seminararbeit lösungen zum redundanzmanagement unter lotus notes vorstellen.
die problemfelder sind:
1) fehlerhafte informationen (2 dokumente, einmal meik und einmal mike)
2) unvollständige daten (2 dokumente, in einem fehlt z.b. die plz)
3) doppelt daten (2 identlische dokumente, unterschiedliche unique-id)
4) inkonsistenz ( 2 sich widersprechende dokumente: 2 adressen)

im moment befinde ich mich bei der lösung zu den fehlerhaften informationen. meiner meinung nach ist es nahezu unmöglich, diese in einer großen DB mithilfe eines algorithmus aufzuspüren. wenn, dann nur durch mehrfachen vergleich verschiedener felder, und dies würde meiner meinung nach viel zu lange dauern, wenn es überhaupt machbar ist.
meine fragen jetzt an die experten:

1) was haltet ihr von meinem ansatz?

2) kennt ihr eine möglichkeit, fehlerhafte information zu finden, die mir bisher noch nicht in den kopf gekommen ist?

3) wie kann ich felder innerhalb einer view automatisch vergleichen? ich habe mir das so vorgestellt: ich nehme einen feldwert aus dem ersten eintrag der db und vergleiche ihn mit den einträgen der anderen dokumente. falls kein gleicher wert gefunden wird, nehme ich den nächsten eintrag und vergleiche ihn mit den folgenden, usw. falls ein doppelter eintrag gefunden wird, sollen die beiden dokumente dem benutzer am besten vergleichbar, also nebeneinander angezeigt werden, wovon der benutzer dann eins auswählt. das andere dokument wird gelöscht. ich weiss, nicht ob dies so möglich ist!?!? wenn ja, wie? andere lösungsvorschläge?

vielen dank für eure hilfe. würde mich echt weiterbringen!?!?

gruß jan

Thomas Schulte:
Hallo und willkommen im Forum Jan

Das Problem das deine Profs dir da aufgehalst haben ist wirklich nicht trivial. Alleine über die Suche nach Ähnlichkeiten in Datensätzen sind schon haufenweise Doktorarbeiten geschreiben worden. Bei den fehlerhaften Informationen muss du im Prinzip einen Ähnlichkeitsalgorhytmus aufbauen und dann die Dokumente durchgehen und Dokumente mit dem gleichen Wert anzeigen. Um das vernünftig zu regeln musst du dich zumindest mit Phonetischer Analyse, dem LevenShtein Algorythmus und Klangfarbenanalyse beschäftigen.
Ein erster Ansatz dazu sind ein paar Artikel von WFlamme zu diesen Themen.

JanHoener:
vielen dank für deine tipps.
ich soll eine lösung nur kurz umschreiben, nicht alles programmieren bzw. bis ins kleinste detail lösen. das wäre zu umfangreich.
aber dein post sagt mir, dass ein fehlerhafter datensatz nur schwierig gefunden werden kann. das reicht mir schon als aussage!  ;D

aber können zwei dokumente neben oder übereinander dargestellt werden, von dem ich eins aussuche und das andere verwerfe? z.b. bei inkonsistenz oder doppelten daten?

ich glaube, fehlerhafte daten zu finden ist das schwierigste aller redundanzprobleme!?!?

Marinero Atlántico:

--- Zitat von: Thomas Schulte am 15.02.05 - 14:45:30 ---[...] sind schon haufenweise Doktorarbeiten geschreiben [...] einen Ähnlichkeitsalgorhytmus aufbauen  [...]  Phonetischer Analyse, dem LevenShtein Algorhytmus und Klangfarbenanalyse [...]

--- Ende Zitat ---

hat nicht vielleicht jemand der doctores ein paar openSores Libraries hinterlassen, so dass man es ausschlachten könnte?

klaussal:

--- Zitat ---aber können zwei dokumente neben oder übereinander dargestellt werden, von dem ich eins aussuche und das andere verwerfe? z.b. bei inkonsistenz oder doppelten daten?

--- Ende Zitat ---

Ja, das geht. Kommt allerdings darauf an, wie man die Dokumente per Ansicht darstellt (Sortierreihenfolge, etc).

klaus

Navigation

[0] Themen-Index

[#] Nächste Seite

Zur normalen Ansicht wechseln