Microsoft: Was verursacht einen der schlimmsten Visual Studio Online-Ausfälle überhaupt

Microsoft Visual Studio Online-Dienst wurde für mehr als fünf Stunden, am 14. August. Was ging schief?

Im August 22 Blog-Post-Techniker und Product Unit Manager Brian Harry detaillierte die Ursachen für das, was er als “eine der schlimmsten Zwischenfälle, die wir je auf VS Online.”

Visual Studio Online ist Team Foundation Server und einige andere verwandte Dienste, die auf Azure ausgeführt werden.

Am 14. August wurden die VS Online Core Shared Platform Services (SPS) -Datenbanken mit Datenbankaktualisierungen überwältigt, die so weit in die Warteschlange kamen, dass Anrufer blockiert waren, erklärte Harry.

Harry erkannte, dass Microsoft-Beamte noch nicht sicher sind, was speziell den Ausfall ausgelöst. Es gab einige Konfigurationsänderungen, die zu einer signifikanten Zunahme des Datenverkehrs zwischen TFS und SPS führten, und einige von diesem Verkehr enthielten Lizenz-Validierungsprüfungen, die nicht ordnungsgemäß deaktiviert waren, sagte er. Es gab auch eine gleichzeitige Spike in Latenzen und fehlte Service-Bus-Nachrichtenlieferungen.

Harry verzeichnete ein paar “core causal bugs”, die das Team in seiner Analyse des Ausfalls entdeckt hatte, darunter einen Fehler im Azure-Portal-Erweiterungsdienst.

Harry sagte, das Team habe ein paar Dinge aus dem jüngsten VS Online-Ausfall gelernt. Er gab ehrlich zu

“Also zurück zum letzten Donnerstag … Wir haben schlampig geworden Sloppy ist wahrscheinlich zu hart Wie bei jedem Team sind wir in die Spannung zwischen dem Essen unserer Wheaties und Zugabe von Fähigkeiten, die Kunden gefragt werden gezogen.In der Fahrt auf schnelle Trittfrequenz, Wert jeden Sprint, etc., haben wir einige der technischen Strenge, die wir damals in Atrophie gesetzt hatte – oder genauer gesagt, nicht es vorwärts zu neuen Code, den wir geschrieben haben, erlaubt.Dies, glaube ich, Ist die Ursache – Entwickler können die Kosten / Auswirkung einer Änderung, die sie machen, nicht vollständig verstehen, weil wir keine ausreichende Sichtbarkeit über die Schichten von Software / Abstraktion haben und wir keine automatisierten Regressionstests zum Markieren haben, wenn der Code sich ändert Measurement-Anstiege der Gesamtressourcenkosten der Operationen auslösen. Das müssen Sie natürlich auch in synthetischen Testumgebungen tun – wie zB Unit-Tests, aber auch in Produktionsumgebungen, weil Sie in Ihren Tests nie alles fangen werden. ”

Er fügte hinzu, dass Microsoft braucht, um in Kraft zu bringen einige Infrastruktur zur besseren Messung und Fahne Änderungen in End-to-End-Kosten in Test und Produktion, um ähnliche Probleme in der Zukunft zu vermeiden.

Harry sagte, dass die Mannschaft plant, die Anrufmuster innerhalb SPS und zwischen SPS und SQL zu analysieren, um Warnungen zu errichten, um frühere Situationen wie den 14. August zu fangen. Das Team arbeitet auch an der Partitionierung und Skalierung der SPS Configu DB und möglicherweise den Aufbau eines Dienstes zu drosseln und erholen sich aus einer langsamen oder ausgefallenen Abhängigkeit, neben anderen Mitteln.

Cloud Computing wächst, eine API zu einer Zeit

Süße SUSE! HPE snags sich eine Linux-Distribution

Twilio rollt neuen Unternehmensplan aus, der mehr Agilität verspricht

Cloud, Cloud Computing wächst, eine API zu einer Zeit, Enterprise-Software, Sweet SUSE! HPE schneidet sich eine Linux-Distribution, Cloud, Twilio rollt neuen Unternehmensplan aus, der mehr Agilität verspricht, Cloud, Intel, Ericsson erweitern Partnerschaft, um sich auf die Medienindustrie zu konzentrieren

Intel, Ericsson erweitern Partnerschaft mit Fokus auf Medienindustrie