Das Notes Forum
Domino 9 und frühere Versionen => ND6: Entwicklung => Thema gestartet von: geissbock am 27.06.07 - 14:30:53
-
Hallo,
ich bräuchte mal weider ein paar Denkanstösse bzgl. dieser Thematik:
Gegeben Datenbank mit ca. 100000 Doks mit einem Feld Company nach dem eine Ansicht kategorisiert die Dokumente anbietet.
Problem: Daten in diesem Feld sind äusserst unsauber, sprich ein und dieselbe Company ist in zig unterschiedlichen Schreibweisen vertreten (s. Screenshot) und somit werden n Kategorien gebildet. Nun sollen diese Daten bereinigt werden.
Wie kann man das sinnvoll angehen?
Ich dachte an eine Liste der korrekten Namen (hab ich leider auch noch nicht), um diese dann mit den Feldinhalten zu vergleichen und ggf. zu ersetzen.
Aber bisher fehlt mir noch wirklich eine sinnvolle Vorgehensweise, sodaß ich für jeden Hinweis dankbar bin.
Gruß Klaus
-
Student oder 1-Euro Jobber ;)
Das automatisch zu machen ist nicht einfach, ggf. gibt es ja ähnlich klingende Firmennamen, die aber doch unterschiedlich sind.
Man könnte mit @Soundex arbeiten, um alle ähnlichen Einträge zu bekommen.
Andreas
-
Oder einen Agenten, der eine Inputbox gibt und alle vorher markierten Doks mit dem Wert ändert, den Du oder der Student in die Inputbox schreibt.
Das ist son halbautomatisches Ding ;D
Matthias
-
Wenn er eine Liste mit den richtigen Bezeichnungen hat ist es dreiviertelautomatisch
Ich würde die Markieren und über Liste auswählbare Bezeichnung Vorgehensweise nehmen
-
Gibt es vielleicht eine Kundennummer? Die wäre ja wohl eindeutig. Wenn ja kurze Info und ich könnte Dir evtl eine Lösung vorschlagen.
Gruß
Carsten
-
Hallo,
vielen Dank für die hiflreichen und schnellen Hinweise. Ja das mit der Inputbox hatt ich auch schon mal angedacht. Trotzdem noch viel Arbeit und der Jobber müsste ja auch die richtigen Einträge kennen. Dazu wäre dann die Lösung von DerAndre hilfreich. Die Liste müsst ich aber erst auch einmal erstellen. Bei ca. 20000 unterschiedlichen Companies erschlägt mich der, dem ich das auf's Auge drücke wahrscheinlich auch schon so ;-))
Carsten,
leider keine eindeutige Kundennummer vorhanden. Das wär ja zu einfach ;-))
Es werden hier Patentdaten importiert und die sind eben leider nicht normiert, sondern es wird das geliefert, was der Anmelder halt einträgt.
Den @soundex Befehl kannt ich bisher auch noch nicht. Immer wierder überraschend, was so für Befehle bisher an mir vorbeigegangen sind. Hilft mir aber in diesem speziellen Fall wohl auch nicht weiter.
Wenigsten wieß ich dank Eurer Hilfe nun, dass ich nicht etwas ganz banales übersehen hab und es eben nicht vollautomatisch geht. Dafür nochml Danke
Gruß Klaus
-
Was schonmal ein bischen helfen kann ist ein UpperCase.
Hm bei 20000 Verschiedenen wird es schwierig...
Siehe Glombi ;)
-
Nicht zu vergessen: Neue Daten sollten dann aber bereits "sauber" eingegeben werden, sonst heisst es nächstes Jahr: "The same procedure as last year, Miss Sophie?" ;)
Vielleicht die Firmeneingabe nur via Picklist zulassen. Neue Eintrage dann über Dialogbox mit dem Hinweis "Sind Sie auch wirklich sicher, dass die Firma nicht vorhanden ist?"
Andreas
-
Das alte "Shit in - Shit out" Problem ;-)