Cloud Computing ist nicht mehr wegzudenken: Infrastruktur, die allmählich in die Cloud wandert. Datenbanken, API-Entwicklung, BPM oder MDM, die Platform as a Service nutzen oder Services, wie Office365 oder Sharepoint Online. Die meisten von uns nutzen einen dieser Cloud Services bereits.

Unser Kunde hat sich dazu entschieden, über die nächsten Jahre mit der kompletten Infrastruktur in die Cloud zu gehen. Hier wurde das Multi-Cloud Modell gewählt, um nicht von einem Anbieter abhängig zu sein. Man hat sich für die drei größten Anbieter entschieden. Amazon Web Services (AWS), Google Cloud Platform und Microsoft Azure.

Außerdem können manche Cloud Anbieter gewisse Dinge besser als andere, davon möchte der Kunde profitieren. Kubernetes in der Google Cloud, um nur ein Beispiel zu nennen.

Und genau darum geht es hier in meinem Beitrag – die Google Cloud. 

An einem Freitag den 13. (wie hätte es auch anders sein sollen) meldet der Kunde ein Problem in der Google Cloud. Sporadisch könne nicht auf Google Dienste wie gcloud, RPM-Packages-Repositories oder Ähnliches zugegriffen werden. Somit ist kein zuverlässiges bauen von Docker Images und deployments in Kubernetes möglich.

Und tatsächlich, die ersten HTTPS Aufrufe via cURL auf https://packages.cloud.google.com, scheiterten. Doch ab und zu ging dann doch was durch – merkwürdig!

Im Folgenden ein Beispiel Output:

Alle anderen Webseiten, die wir getestet hatten, funktionierten. Es waren wirklich nur Google-Sites, welche nicht erreichbar waren.

Im Packet Sniffer auf der Firewall konnte man sehen, dass jeglicher Traffic rausging. Auf eine Antwort warten wir noch heute. Selbiges gilt für die Flow Logs in Google.

Wir hatten hier keinen weiteren Ansatzpunkt und haben uns an Google gewendet. Hier erhielten wir sehr schnell Antwort und das Q&A Ping-Pong ging los. Wir haben in der Zwischenzeit den Firewall Cluster neu gestartet. Dank HA kein Problem. Aber auch das hat nichts gebracht.

Inzwischen war es schon relativ spät. Das Ticket wurde auf P1 hochgestuft, die Entwickler des Kunden waren schon in ihrem verdienten Wochenende und wir kämpften noch mit einer Lösung.

Uns wurde klar, dass das Problem heute nicht mehr gelöst werden wird. Ein Pflaster muss her.

Mir kam die Idee, jeglichen Traffic über Azure zu Routen, hier bestand das Problem nicht. Das würde zwar die Kosten erhöhen (doppelte Traffic kosten), aber wir würden den Druck rausnehmen das Problem bis Montag morgen gelöst haben zu müssen. Die Kollegen waren meiner Meinung. Wir haben das Routing umgebaut und anschließend getestet – es funktionierte. Multi-Cloud sei Dank.

Aufgrund des Workarounds vereinbarten wir mit dem Google Support das Issue übers Wochenende liegen zu lassen.

Über eine Woche ging das Troubleshooting, bis Google das Problem gefunden hatte. Ein Bug im Netzwerk-Stack. Dieser hatte zur Folge, dass es genau zu diesem Verhalten kommt, wenn externe IPs über Instanzen in verschiedenen Zonen/Regionen unter einer Minute verschoben werden.

Und genau das passiert bei einem HA-Failover, da sich die Firewalls in unterschiedlichen Availability Zones befinden. Wir wurden gebeten den HA-Mechanismus zu deaktivieren, bis ein Update des Netzwerk-Stacks stattgefunden hat.

Mittlerweile hat Google den Bug gefixt und wir routen den Traffic wieder normal ins Internet.

Wir erreichen von Google wieder Google!

An dieser Stelle möchte ich den Support von Google loben. Die Kollegen hatten sehr schnell reagiert, waren kompetent und waren sehr engagiert das Problem schnellstmöglich zu lösen.

 

Fazit:

Entscheidet man sich in die Cloud zu gehen, wird man immer wieder auf Probleme stoßen, die einen echt in Schwitzen bringen. Oder aber auch zum Schmunzeln. Availability Zones in denen keine SSDs mehr zur Verfügung stehen und die voraussichtliche Wartezeit 3 Monate beträgt, sind kein Witz, sondern Alltag.

Um meinen Chef in seinem letzten Vortrag zu zitieren: “Die Cloud ist alles, aber nicht einfach!“

 

Dienstag

16.Juni 2020

10 Uhr

Public Clouds werden von fast allen Unternehmen genutzt. Dabei vergessen viele Verantwortliche, dass die Sicherheit der Cloud-Umgebungen zu großen Teilen ihre Aufgabe ist. Begleiten Sie Kurt Knochner, Cyber Security Strategist bei Fortinet und Florian Wiethoff, Cloud Architect bei Braintower in diesem Live-Webinar. Profitieren Sie aus erster Hand von den Erfahrungen des ersten Multi Cloud Projekts im Bankenumfeld in Deutschland.

Sven Singer

Sven Singer

System Engineer

Gefällt dir der Artikel? Bitte teile ihn!
Share on Facebook
Facebook
0Share on LinkedIn
Linkedin
Email this to someone
email
Tweet about this on Twitter
Twitter