Weil ich mich damit besser auskenne als andere programmier Möglichkeiten. Aber wenn das damit nicht zu lösen ist, muss ich andere Lösungen forschen.
Haust du auch alle Schrauben mit einem Hammer in die Wand?
Klar.
Wir werden einen Bestand von ca. 15. Mio Adressen bekommen (in txt. Form). Dann wird eine Online Seite programmiert der dann Webuser Adressen(der User vom Web tippt seine Adresse ein) speichert. Im hintergrund(über nacht vielleicht per Agent) soll dann zwischen vom Webuser eingegebene Adresse und 15 Mio. Bestand ein Abgleich statt finden, bei treffer soll dann ein Kennzeichen beide Adressen gesetzt werden.
Ok jetzt wird es wieder interessanter.
Das heist die 15 Mio Adressen sind nur ein Backend Datenbestand, nicht performancerelevant und werden auch, bis auf den Flag keiner weiteren wie auch immer gearteten Bearbeitung unterzogen?
Das Frontend im Web ist von der Datenmenge her deutlich kleiner.
Der Abgleich zwischen beiden findet über ein "Adressenmatch" Suche statt.
Das könnte man tatsächlich mit einer Kombination aus Notes für das Webfrontend und die Einträge der Web User, sowie einer Notes Anwendung/Relationalen Datenbank (single Table) mit den importierten Daten lösen. Hash oder Levenshtein für die Suche nach gleichen Paaren verwenden.
Andrew Pollack hat da auf dem Entwicklercamp im allerletzen Vortrag ein paar interessante Ansätze dafür wie man so etwas lösen kann geliefert. Wobei das den wirklich interessanten Teil des ganzen Problemes darstellt.