Autor Thema: Scheduled replication hört immer in der Nacht auf Montag auf...  (Gelesen 3632 mal)

Offline Tode

  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 6.885
  • Geschlecht: Männlich
  • Geht nicht, gibt's (fast) nicht... *g*
Ich habe hier mal ein seltsames Problem: Ein Replication HUB hat zwei Verbindungsdokumente, eins stündlich, eins viertelstündlich (jeweils 00:10 - 23:50)

Replikation erfolgt mit einer Servergruppe "SpokeReplicationServers" mit 22 Servern, die Replikation dauert im Normalfall nur wenige Minuten (insgesamt).
Es sind 4 Replikator- Tasks definiert.

Unter der Woche funktioniert das wunderbar, aber in der Nacht von Sonntag auf Montag fängt der HUB an, einzelne Server zu "ignorieren": Der Schedule wird weiter abgearbeitet, aber einzelne Server sind nicht mehr drin (sieht man auch im sh sched). Wenn man einmal einen manuellen repl SERVERX mit einem der fehlenden Server anstösst, dann funktioniert der Schedule plötzlich wieder.

Es gibt keinerlei events in der DDM, noch einen Fehler bei der letzten erfolgreichen Replikation mit einem Server (completed successfully)...

Kennt jemand so ein Phänomen?
Meine Google- Suche hat jedenfalls nichts dazu ergeben.

Ach ja: HUB ist auf 9.0.1FP4, die betroffenen Spokes noch 8.5.3
Gruss
Torsten (Tode)

P.S.: Da mein Nickname immer mal wieder für Verwirrung sorgt: Tode hat NICHTS mit Tod zu tun. So klingt es einfach, wenn ein 2- Jähriger versucht "Torsten" zu sagen... das klingt dann so: "Tooode" (langes O, das r, s und n werden verschluckt, das t wird zum badischen d)

Offline eknori

  • @Notes Preisträger
  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 11.730
  • Geschlecht: Männlich
läuft der DBMT auf dem Hub?
Egal wie tief man die Messlatte für den menschlichen Verstand auch ansetzt: jeden Tag kommt jemand und marschiert erhobenen Hauptes drunter her!

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich
Ist es doch ernster?  ;)
Ist das tatsächlich so auf den Sonttag / Montag reproduzierbar?
Ich hatte vor einiger Zeit mal ein ähnlich erscheinendes Problem (war m.E. auch 8.5x, was m.E. aber wurscht ist). Geholfen hat schliesslich folgendes Vorgehen: Den "bösen Parameter" (Replication options - Other - das Datum ...) killen und anschliessend das Replizierprotokoll (das alleine hatte nicht geholfen - das Problem kam nach vermutlich - nicht gemessen - erwartbar drei Monaten wieder).
Die DB war schon lange im Einsatz, auch sie hat oft am Tag repliziert und irgendeine der beteiligten internen Tables hat sich offensichtlich dabei verschluckt.

Das ist selbstverständlich nur ein Erfahrungsbericht und kein "Beweis" oder eine Erklärung.

Bernhard

Offline Tode

  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 6.885
  • Geschlecht: Männlich
  • Geht nicht, gibt's (fast) nicht... *g*
@Ulrich: Hmm, ob der DBMT läuft muss ich erst in Erfahrung bringen. Gibt es da einen bekannten Zusammenhang?

@Bernahrd: Da es sich um die Replikation mit einem kompletten Server handelt (mehrere Verzeichnisse, mehrere Einzeldatenbanken), müsste ich die "einzelne Datenbank", die das komplette "vergessen" verursacht, erst identifizieren...
Gruss
Torsten (Tode)

P.S.: Da mein Nickname immer mal wieder für Verwirrung sorgt: Tode hat NICHTS mit Tod zu tun. So klingt es einfach, wenn ein 2- Jähriger versucht "Torsten" zu sagen... das klingt dann so: "Tooode" (langes O, das r, s und n werden verschluckt, das t wird zum badischen d)

Offline Tode

  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 6.885
  • Geschlecht: Männlich
  • Geht nicht, gibt's (fast) nicht... *g*
Neue Informationen: DBMT läuft nicht... Hier mal ein Output eines "sh sched -replica", vielleicht hilft das ja jemandem weiter:
Code
[04B0:0009-0DF8] CN=AMD1/O=MyCompany          Replication               29.01.2016 17:22:20
[04B0:0009-0DF8] CN=ATL1/O=MyCompany          Replication               29.01.2016 17:23:38
[04B0:0009-0DF8] CN=BCN1/O=MyCompany          Replication               29.01.2016 17:32:30
[04B0:0009-0DF8] CN=BEI1/O=MyCompany          Replication               
[04B0:0009-0DF8] CN=BIS1/O=MyCompany          Replication               
[04B0:0009-0DF8] CN=CHO1/O=MyCompany          Replication               29.01.2016 17:30:25
[04B0:0009-0DF8] CN=DOG1/O=MyCompany          Replication               29.01.2016 17:32:35
[04B0:0009-0DF8] CN=DOG2/O=MyCompany          Replication               
[04B0:0009-0DF8] CN=DST1/O=MyCompany          Replication               29.01.2016 17:29:56
[04B0:0009-0DF8] CN=DUB1/O=MyCompany          Replication               29.01.2016 17:30:11
[04B0:0009-0DF8] CN=HKG1/O=MyCompany          Replication               
[04B0:0009-0DF8] CN=IST1/O=MyCompany          Replication               
[04B0:0009-0DF8] CN=JID1/O=MyCompany          Replication               29.01.2016 17:32:45
[04B0:0009-0DF8] CN=TUS1/O=MyCompany          Replication               29.01.2016 17:32:20
Die 3 Buchstaben sind jeweils Standorten zugewiesen, die über die ganze Welt verteilt sind. Man sieht, dass der HUB zwar noch weiss, dass er einen Schedule für die betroffenen Server hat, aber keine nächste Zeit gefüllt ist...
Das Ganze passiert übrigens nicht nur Montag Nacht sondern regelmässig unregelmässig...

Replica neustarten hilft dabei NICHT. Um den "Zustand" für einen Server aufzuheben muss man nur einmal manuell eine Datenbank replizieren: "repl CN=BIS1/O=MyCompany names.nsf" fügt den Server "BIS1" wieder in den schedule ein...

Irgendjemand eine Idee?
Gruss
Torsten (Tode)

P.S.: Da mein Nickname immer mal wieder für Verwirrung sorgt: Tode hat NICHTS mit Tod zu tun. So klingt es einfach, wenn ein 2- Jähriger versucht "Torsten" zu sagen... das klingt dann so: "Tooode" (langes O, das r, s und n werden verschluckt, das t wird zum badischen d)

Offline Pfefferminz-T

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 1.204
Sehr seltsam es ist... was sagt denn die jobsched.njf auf dem jeweiligen Server? Falls das wegen Anonymisierung ein Problem ist, bitte kurze PN. Habe bei uns nur diese Technote gefunden (http://www-01.ibm.com/support/docview.wss?uid=swg21699424), die Symptome passen aber ganz gut. Warum das nur Montags der Fall ist...??
« Letzte Änderung: 01.02.16 - 09:32:01 von Pfefferminz-T »
Grüsse,
Thorsten

Offline Tode

  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 6.885
  • Geschlecht: Männlich
  • Geht nicht, gibt's (fast) nicht... *g*
Das mit dem "Montags" hat sich ja inzwischen widerlegt: Das passierte Anfange immer Montags (oder wurde Montags bemerkt), inzwischen passiert es an beliebigen Tagen für beliebige Server.
Das verlinkte Dokument trifft das Problem zu 100%. Ich werde mal schauen, ob wir was am Schedule ändern können, und ggf. die Anzahl Replikatoren erhöhen.
Außerdem werden wir die jobsched.njf mal neu aufbauen. Danke für den Link, das ist wenigstens mal eine Spur!
Gruss
Torsten (Tode)

P.S.: Da mein Nickname immer mal wieder für Verwirrung sorgt: Tode hat NICHTS mit Tod zu tun. So klingt es einfach, wenn ein 2- Jähriger versucht "Torsten" zu sagen... das klingt dann so: "Tooode" (langes O, das r, s und n werden verschluckt, das t wird zum badischen d)

Offline Tode

  • Moderatoren
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 6.885
  • Geschlecht: Männlich
  • Geht nicht, gibt's (fast) nicht... *g*
Anbei mal die JobSched.njf von gerade eben. Hier ein Auszug für zwei betroffene Server
Code
X=CN=AMD1/O=Orga,A=Replication,C= (0000162E:AFFF0ADA),S=01.02.2016 12:42:06 (C1257F4C:00404781),R=0
	X=CN=AMD1/O=Orga,A=Replication,I=360000,D=0,ApplNum=11,ApplIndex=0,C=01.02.2016 11:53:46 (C1257F4C:003BDAC2),S=01.02.2016 11:04:41 (C1257F4C:00375CA2),NoteID=25422,E=(0),R=0
	X=CN=AMD1/O=Orga,A=Replication,I=90000,D=0,ApplNum=11,ApplIndex=0,C=01.02.2016 14:09:35 (C1257F4C:00484A3B),S=01.02.2016 12:42:06 (C1257F4C:00404781),NoteID=17962,E=(0),R=0
	X=CN=AMD1/O=Orga,A=Replication,I=0,D=0,ApplNum=11,ApplIndex=1,C= (0000162E:AFFF0000),S=30.09.**** 04:05:31 (0CC00001:0196FFFA),NoteID=19746,E=(0),R=0
X=CN=ATL1/O=Orga,A=Replication,C= (0000162E:AFFFB56A),S=01.02.2016 14:10:28 (C1257F4C:00485EE9),R=0
	X=CN=ATL1/O=Orga,A=Replication,I=360000,D=0,ApplNum=11,ApplIndex=0,C=01.02.2016 11:53:46 (C1257F4C:003BDAC9),S=01.02.2016 11:04:41 (C1257F4C:00375CA3),NoteID=25422,E=(0),R=0
	X=CN=ATL1/O=Orga,A=Replication,I=90000,D=0,ApplNum=11,ApplIndex=0,C=01.02.2016 14:09:34 (C1257F4C:004849C3),S=01.02.2016 12:42:06 (C1257F4C:004047B0),NoteID=17962,E=(0),R=0
	X=CN=ATL1/O=Orga,A=Replication,I=0,D=0,ApplNum=11,ApplIndex=1,C= (0000162E:AFFF0000),S=13.08.3900 04:05:31 (0F300001:0196FFFA),NoteID=14766,E=(0),R=0

Nicht gescheduled sind in diesem Zustand:
AMD1
ATL1
BCN1
BEI1
CAILXS1
CHO1
DOGLEI1
DOGST1
HKG1
IST1

Replicators sind inzwischen auf 8 hochgestellt, die jobsched.njf wurde komplett neu erstellt. Das Problem wird entweder schlimmer, oder aber wir nehmen es als schlimmer wahr, weil ich einen Agenten geschrieben habe, der das Ganze monitored und sofort Alarm schlägt, wenn einer der Schedules ausfällt...

Also für mich sieht es so aus, als ob irgendwas nicht fertig wird, und dann bei S=timestamp kein Zeitstempel in der Zukunft mehr eingetragen wird...
« Letzte Änderung: 01.02.16 - 16:01:15 von Tode »
Gruss
Torsten (Tode)

P.S.: Da mein Nickname immer mal wieder für Verwirrung sorgt: Tode hat NICHTS mit Tod zu tun. So klingt es einfach, wenn ein 2- Jähriger versucht "Torsten" zu sagen... das klingt dann so: "Tooode" (langes O, das r, s und n werden verschluckt, das t wird zum badischen d)

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz