Autor Thema: Bereinigung unsauberer Daten in Feldern  (Gelesen 2442 mal)

Offline geissbock

  • Aktives Mitglied
  • ***
  • Beiträge: 131
  • Geschlecht: Männlich
  • Ich liebe dieses Forum!
Bereinigung unsauberer Daten in Feldern
« am: 27.06.07 - 14:30:53 »
Hallo,
ich bräuchte mal weider ein paar Denkanstösse bzgl. dieser Thematik:
Gegeben Datenbank mit ca. 100000 Doks mit einem Feld Company nach dem eine Ansicht kategorisiert die Dokumente anbietet.
Problem: Daten in diesem Feld sind äusserst unsauber, sprich ein und dieselbe Company ist in zig unterschiedlichen Schreibweisen vertreten (s. Screenshot) und somit werden n Kategorien gebildet. Nun sollen diese Daten bereinigt werden.
Wie kann man das sinnvoll angehen?
Ich dachte an eine Liste der korrekten Namen (hab ich leider auch noch nicht), um diese dann mit den Feldinhalten zu vergleichen und ggf. zu ersetzen.
Aber bisher fehlt mir noch wirklich eine sinnvolle Vorgehensweise, sodaß ich für jeden Hinweis dankbar bin.
Gruß Klaus

Glombi

  • Gast
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #1 am: 27.06.07 - 14:40:40 »
Student oder 1-Euro Jobber  ;)

Das automatisch zu machen ist nicht einfach, ggf. gibt es ja ähnlich klingende Firmennamen, die aber doch unterschiedlich sind.

Man könnte mit @Soundex arbeiten, um alle ähnlichen Einträge zu bekommen.

Andreas

botschi

  • Gast
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #2 am: 27.06.07 - 14:43:52 »
Oder einen Agenten, der eine Inputbox gibt und alle vorher markierten Doks mit dem Wert ändert, den Du oder der Student in die Inputbox schreibt.
Das ist son halbautomatisches Ding  ;D

Matthias

Offline DerAndre

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 1.655
  • Geschlecht: Männlich
  • Keep cool!
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #3 am: 27.06.07 - 14:46:36 »
Wenn er eine Liste mit den richtigen Bezeichnungen hat ist es dreiviertelautomatisch

Ich würde die Markieren und über Liste auswählbare Bezeichnung Vorgehensweise nehmen
André

Elterninitiative diabetischer Kinder und Jugendlicher e.V.
-----------------------------------------------------------------------------
Fliegen ist die Kunst auf den Boden zu Fallen, aber daneben.
-----------------------------------------------------------------------------
Etwas mehr Hardware dazu zu kaufen ist viel billiger als
Software besser zu machen. ( Niklaus Wirth )

Offline cko

  • Frischling
  • *
  • Beiträge: 3
  • Geschlecht: Männlich
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #4 am: 27.06.07 - 14:50:03 »
Gibt es vielleicht eine Kundennummer? Die wäre ja wohl eindeutig. Wenn ja kurze Info und ich könnte Dir evtl eine Lösung vorschlagen.

Gruß

Carsten

Offline geissbock

  • Aktives Mitglied
  • ***
  • Beiträge: 131
  • Geschlecht: Männlich
  • Ich liebe dieses Forum!
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #5 am: 27.06.07 - 15:30:03 »
Hallo,
vielen Dank für die hiflreichen und schnellen Hinweise. Ja das mit der Inputbox hatt ich auch schon mal angedacht. Trotzdem noch viel Arbeit und der Jobber müsste ja auch die richtigen Einträge kennen. Dazu wäre dann die Lösung von DerAndre hilfreich. Die Liste müsst ich aber erst auch einmal erstellen. Bei ca. 20000 unterschiedlichen Companies erschlägt mich der, dem ich das auf's Auge drücke wahrscheinlich auch schon so ;-))
Carsten,
leider keine eindeutige Kundennummer vorhanden. Das wär ja zu einfach ;-))
Es werden hier Patentdaten importiert und die sind eben leider nicht normiert, sondern es wird das geliefert, was der Anmelder halt einträgt.
Den @soundex Befehl kannt ich bisher auch noch nicht. Immer wierder überraschend, was so für Befehle bisher an mir vorbeigegangen sind. Hilft mir aber in diesem speziellen Fall wohl auch nicht weiter.
Wenigsten wieß ich dank Eurer Hilfe nun, dass ich nicht etwas ganz banales übersehen hab und es eben nicht vollautomatisch geht. Dafür nochml Danke
Gruß Klaus

Offline DerAndre

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 1.655
  • Geschlecht: Männlich
  • Keep cool!
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #6 am: 27.06.07 - 15:33:01 »
Was schonmal ein bischen helfen kann ist ein UpperCase.

Hm bei 20000 Verschiedenen wird es schwierig...
Siehe Glombi  ;)
André

Elterninitiative diabetischer Kinder und Jugendlicher e.V.
-----------------------------------------------------------------------------
Fliegen ist die Kunst auf den Boden zu Fallen, aber daneben.
-----------------------------------------------------------------------------
Etwas mehr Hardware dazu zu kaufen ist viel billiger als
Software besser zu machen. ( Niklaus Wirth )

Glombi

  • Gast
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #7 am: 27.06.07 - 15:48:40 »
Nicht zu vergessen: Neue Daten sollten dann aber bereits "sauber" eingegeben werden, sonst heisst es nächstes Jahr: "The same procedure as last year, Miss Sophie?"  ;)

Vielleicht die Firmeneingabe nur via Picklist zulassen. Neue Eintrage dann über Dialogbox mit dem Hinweis "Sind Sie auch wirklich sicher, dass die Firma nicht vorhanden ist?"

Andreas
« Letzte Änderung: 27.06.07 - 15:51:21 von Glombi »

Offline atbits

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 708
  • Geschlecht: Männlich
  • sei Du selbst die Veränderung, die Du Dir wünschst
    • atBits
Re: Bereinigung unsauberer Daten in Feldern
« Antwort #8 am: 29.06.07 - 10:00:21 »
Das alte "Shit in - Shit out" Problem ;-)
David Schiffer
================================
atBits GmbH & Co. KG - https://atbits.de
im Einsatz: Lotus Domino 8.5, 9, 10

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz