Domino 9 und frühere Versionen > ND8: Entwicklung

[gelöst] Agenten laufen plötzlich nicht mehr

<< < (3/3)

pram:
ja, "undankbar" triffts in etwa.

Habe vorhin gerade mit dem Mitarbeiter gesprochen, der an dem Fall zuletzt dran war und hab nun etwas mehr Infos.

Wenn das Problem auftritt (bzw. bemerkt wird) sind bereits mehrere Agenten in diversen DBs ausgefallen (Sowohl in unseren Produkten als auch in Fremdprodukten)
Diese werden dann nicht mehr im Zeitplan gelistet. Es betrifft aber nicht grundsätzlich alle Agenten einer DB.

Der Agentmanager wurde neu gestartet, dies bingt nichts. Ein Serverneustart wurde entgegen meiner ersten Aussage NICHT durchgeführt.

Bekomme heute evtl. noch die log.nsf, evtl hab ich Glück und sie reicht noch bis zum letzten Vorfall zurück.
(bin mir ja fast sicher dass da der Grund irgendwo protokolliert ist, was das vor sich ging)

Ansonsten muss ich warten bis es wieder auftritt und dann halt mal die Verdächtigen abklappern. (Habe auch noch das $AssistRunInfo-Feld in Verdacht: http://atnotes.de/index.php/topic,20797.msg176628.html#msg176628)
Halte euch auf dem Laufenden

Gruß
Roland


pram:
So, heute ist es wieder soweit. Agenten laufen nicht mehr.
Diesmal habe ich aber neue Erkenntnisse:

Durch einen Dienstleister wurden heute nacht Softwareupdates installiert. Dabei wurde die Maschine mehrmals hintereinander neu gestartet.
In der log.nsf sehe ich dass der Server jeweils nur für 1-2 Minuten lief und sofort wieder beendet wurde. Dabei ist irgendwann folgender Eintrag geloggt worden:


--- Code: ---...
26.03.2014 01:36:09   Starting Server shutdown
26.03.2014 01:36:10   AMgr: Error searching 'xxxx\yyyyy.nsf' for agents: Operation stopped at your request
26.03.2014 01:36:10   AMgr: Problem enumerating through the database list to search for agent documents: Program shutdown in progress
...

--- Ende Code ---

und genau um diese DB handelt es sich, bei der die Agenten nicht mehr laufen.
Ich habe danach folgende Schritte probiert:

1.) Agentmanager neu gestartet
2.) Debug_amgr_enable_retry_on_compact=1 gesetzt und Agentmanager neu gestartet
3.) Debug_amgr=* gesetzt  und Agentmanager neu gestartet

Der Agentmanager hat dann alles mögliche geloggt, aber die betroffene DB war nicht dabei. Agenten in der DB laufen NICHT

Als Workaround wurden früher immer die Agenten in der DB deaktiviert/aktiviert und neu signiert. Diesmal habe ich aber folgendes gemacht:

Neuen periodischen Agenten in der DB erstellt. Andere Elemente wurden nicht angefasst
=> Der neu erstellte Agent lief an.  Andere Agenten in der DB wurden nicht eingeplant.

Anschließend den Agentmanger neu gestartet => Alle Agenten wurden wieder korrekt eingeplant und laufen

(Den erstellten Agent habe ich dann wieder gelöscht)

Meine Vermutung ist, wenn der AMGR beim Scannen der DBs unterbrochen wird, diese als "crashed" o.ä. markiert und solange nicht mehr ansieht, bis sich irgendetwas an den Agenten ändert.

Hat noch jemand Tips/Ideen hierzu?

Werde wohl einen PMR aufmachen müssen.

Gruß
Roland

thkn777:
@pram
wie sind die Zeiteinstellungen der Agenten?

a) einmal täglich?
b) oder mehrfach am Tag - und wenn: alle 5 Minuten, jede Stunde etc?

If Fall (a) weigert sich Notes gelegentlich, den Agenten wieder in die Queue zu nehmen am selben Tag. Einfach alles so lassen und am nächsten Tag gucken. Je seltener der Agent startet (alle x Stunden vs. alle y Minuten), desto "zickiger" hat sich Notes zuweilen beim erneuten Versuch, den Agenten in die Queue zu stellen. Zugegeben - das passiert selten, aber es passiert manchmal.


Nächste Idee:
- ich gehe davon aus, daß es für die betroffenen Datenbanken aktuelle Schablonen gibt
- wenn das so ist: in der betroffenen Produktiv-DB den Agenten entfernen (nicht umbenennen, deaktivieren etc., sondern LÖSCHEN)
- dann etwas warten (für ein sicheres Ergebnis 2+ Minuten)
- Gestaltung der Produktiv-DB aktualisieren

Der Agent sollte jetzt vom Amgr zumindest in die Queue gepackt werden. Wenn's gut läuft und es ein (b)-Agent ist, wird er meist auch gleich ausgeführt.


Nächste Idee:
Wie stark sind die Amgr belastet? Wachsen die Queues zu? Sorry, bin eigentlich kein Admin und hab die Konsolen-Befehle nicht im Kopf - man kann sich das anzeigen lassen. Außerdem könnte es ein Indiz sein, wenn viele (mehr als sonst) Meldungen kommen, daß der Agentenstart verzögert wurde.

Wenn dem so ist - Anzahl der Amgr auf dem Server (wenn noch möglich) erhöhen und dann mal gucken.


Viel Erfolg,
Th.

pram:
Es gibt in der (heute) betroffenen DB mehrere Agenten.

- Einer läuft um 01:00
- Einer um 22:00
- Einer periodisch alle 15 Min.
- Einer stündlich, zwischen 1:20 und 20:00

Letztes mal war aber eine komplett andere DB betroffen (allerdings wurde da keine so detaillierte Analyse durchgeführt, deshalb kann ich nicht mit 100%iger Sicherheit sagen, ob auch hier der Server neu gestartet wurde)

- Es gibt keine Schablonen, die DBs werden durch einen eigenen Mechanismus upgedated.
 
- Der Agentmanager hat 5 Instanzen, soweit ich mich erinnern kann, waren alle zum Zeitpunkt des Restarts "idle"

- Eine Änderung an den Agenten (oder am Design) hat vermutlich wirklich irgendeinen Cache dirty gemacht und danach lief alles wieder

Es könnte natürlich sein, dass sich am nächsten Tag auch wieder alles gelaufen wäre. Warten war aber keine Option, da der Agent wichtige Daten einarbeiten musste.

Gruß
Roland









pram:
So, habe das Problem an IBM gemeldet.

Das Problem ist bekannt und tritt auf, wenn man den Dominoserver während dem Hochfahren wieder beendet.
Es gibt auch eine Technote dazu die in etwa passt: http://www-01.ibm.com/support/docview.wss?uid=swg21208227

Empfehlung von IBM ist, in jedem Fall ein paar Minuten zu warten, bis der Server alle Dienste komplett hochgefahren hat, bevor man ihn wieder beendet.
Ansonsten kann es wirklich sein, dass sich die Sache erst wieder "erholt" wenn der Agentcache neu aufgebaut wird. (Dies ist standardmäßig um 00:00 Uhr und im Serverdokument änderbar)

Gruß
Roland

Navigation

[0] Themen-Index

[*] Vorherige Sete

Zur normalen Ansicht wechseln