eic kyf msh nnz uhz tv nt
Anzeige Refinery (c1)
Do, 10:51 Uhr
25.01.2024
Alle online-Angebote offline

Schwere Serverstörung

Wir hatten gestern wieder eine schwere Serverstörung. Alle Angebote waren für mehrere Stunden nicht erreichbar. Hier ein paar, wenn auch unbefriedigende, Details...


Die Wanne ist voll. (Foto: vgf) Die Wanne ist voll. (Foto: vgf) Der Datenbankserver ließ sich nicht mehr ansprechen.
Wir erhielten die Fehlermeldung »Connection refused«. Kurz zuvor war noch zu lesen, dass der Datenbankserver keinen Speicher mehr hat (No space left on device), Log-Files konnten nicht geschrieben werden. Das Löschen von Daten brachte keine Abhilfe.

Anzeige symplr (1)
Auf der Server-Administrationsseite stand, dass noch über 270 GByte frei waren. Ich habe drei mal mit Strato (unserem Provider) in Berlin telefoniert und ein Ticket bekommen. Wir haben zwar einen 24/7-Support gebucht, aber das bedeutet nur, dass wir nach 20 Uhr noch Störungen melden können, nicht dass sie die auch beheben oder das es irgendwie priorisiert wird.

Da ein ähnliches Problem vor 7 Tagen schon mal aufgetreten ist, scheint grundsätzlich etwas im Argen zu liegen.
Letzte Woche half ein Neustart des Datenbankservers, das war auch dieses mal so.
Einen Neustart kann nur der Mitarbeiter im Rechenzentrum veranlassen, daher dauerte es leider etwas.


Die eigentliche Antwort zum Problem wollen wir Ihnen nicht vorenthalten:

Sehr geehrter Herr Franke,

Sie hatten sich an uns gewandt, weil ihre Webseiten nicht erreichbar waren. Der Fehler am Datenbank Server wurden behoben und alle Webseiten sind wieder erreichbar. Die Unannehmlichkeiten bitte ich zu entschuldigen und wünsche ihnen einen angenehmen Tag.
...


Zu den genauen Ursachen stand da ganz genau »gar nichts«. Ein weiteres Telefonat mit dem Support brachte mir den Hinweis ein, dass wir das Problem »beobachten« sollen.
Machen wir!!

Volker Georg Franke
technischer Support nnz
Autor: vgf

Anzeige symplr (6)
Kommentare
warumauchimmer
25.01.2024, 11:37 Uhr
Ein paar Ansatzpunkte...
Das die DB irgendwann ein 'connection refused' als Antwort liefert ist nachvollziehbar.
Wenn keine Logs mehr geschrieben werden können, wartet die Datenbank mit der Abarbeitung der Statements bis dies wieder möglich ist. Die Abfragen stauen sich an und irgendwann sind alle Connections aus dem Connection Pool in Nutzung und jede Weitere wird abgewiesen.
Dann ist es nur noch möglich als DBA sich mit der DB zu verbinden.

Ich rate mal ins Blaue hinein...
Die Logs werden nicht auf dem Server selbst, sondern auf einem zu klein dimensionierten Netzlaufwerk geschrieben. Das ist es egal wieviel Platz auf dem eigentlich Server noch verfügbar ist. Ein Monitoring gibt es vermutlich auch nicht.
Die Frage wäre auch wielange die Logs vorgehalten bis Sie überschrieben werden. Bei MySql ist der Standard bei 30 Tagen. Je nachdem wie detailliert das Logging erfolgt, kann da einiges an Daten anfallen...

Anmerkung techn. Support:
Danke für die Anmerkungen. Die Error-Logs werden auf dem gleichen Laufwerk gespeichert wie die Nutzdaten und tatsächlich nach 30 Tagen gelöscht.
Marino50
25.01.2024, 13:26 Uhr
Serverstörung....
....passieren. Es ist eben Technik. Daran arbeiten auch nur Menschen. Es gibt Schlimmeres. Alles gut
geloescht.20250302
25.01.2024, 13:34 Uhr
Frei nach Paulchen Panther...
...dem der geniale Synchrosprecher Gert-Günther Hoffmann (+) am Ende jeder Folge in den Mund legte:

"Heute ist nicht alle Tage! NNZ kommt wieder, keine Frage!"
Kritiker2010
25.01.2024, 14:36 Uhr
Providerwechsel - bitte noch einmal
Aus Erfahrung mache ich um Strato einen Bogen - mäßige Performance und unwilliger oder unfähiger Support sind keine gesunde Basis für ein Projekt wie die NNZ.

Ich kann nur dringend empfehlen, einen anderen Provider zu suchen. Ich selbst bin seit über 10 Jahren Kunde bei einem kleineren Provider in Süddeutschland mit Top-Performance und technisch versiertem Support, der gerne bei der Lösung von Problemen hilft. Gebe gern Auskunft, will hier aber keine Werbung machen.

Bei einem Geschäftspartner hat auch die Flexibilität dieses Providers zur Ergreifung eines Hackers/Erpressers durch ein LKA geführt. Der junge Mann bekam dann in den frühen Morgenstunden unerwartet Besuch vom Amt.

Anmerkung techn. Support:
Wir sind seit 20 Jahren bei Strato und konnten bisher immer alle Probleme lösen. Unabhängig hiervon können Sie mir gerne eine Empfehlung (per Mail oder Kontaktformular) zukommen lassen.
Wenn wir das hier jetzt nicht in den Griff bekommen ...
warumauchimmer
07.03.2024, 22:01 Uhr
Fehlerbehandlung
Ihr solltet dringend eine generische Fehlerseite einbauen.
Unbehandelte Exceptions an den Client weiterzureichen, wirkt im Jahre 2024 etwas semi-professionel.
Außerdem muss ja nicht jeder eure Credentials für die Datenbank im Klartext lesen können... Grüße an Werner gehen raus.

Anmerkung techn. Support:
Auch eine generische Fehlerseite hätte da heute nix genützt, da der Server gar keine Seiten mehr ausgeliefert hat. Die Passwörter habe ich geändert.
Kommentare sind zu diesem Artikel nicht mehr möglich.
Es gibt kein Recht auf Veröffentlichung.
Beachten Sie, dass die Redaktion unpassende, inhaltlose oder beleidigende Kommentare entfernen kann und wird.
Anzeige symplr (8)