Some systems are experiencing issues
Scheduled Maintenance
Maintenance Aurora Compute Amsterdam

Sunday 28-10 23:00 until we estimated Monday 29-10 03:00, we are applying some updates with some important bug fixes in our Compute zones Amsterdam.

Your VM's will be available. However the control panel will be unavailable during the update.

**Update: ** We will postpone the maintenance with one week to Sunday 28-10 23:00

22nd October 2018

No incidents reported

21st October 2018

No incidents reported

20th October 2018

Aurora Compute Amsterdam Server hypervisor down

We had an interruption on one of the hypervisors in our Aurora Agile zone in AMS02. If you VM was running on this server, your vm has bin started on another hypervisor.

Our apologies for any inconvenience this had caused.

Aurora Compute Amsterdam Performance issues Aurora Stamina Amsterdam-01, zone AMS02

EN We're currently experiencing issues with the networked storage platform powering our Aurora Stamina platform in the Amsterdam-01 datacenter, zone AMS02. Our technicians are investigating the problem and we're working very hard to resolve the issues as quickly as possible but due to the nature of the problems a very quick-fix is alas, not possible.

We would humbly ask you to help us solve these issues more quickly by;

  • Do not restart services or reboot whole instances, these are I/O-heavy operations which only put more load on our clusters and these actions will not solve the issues.
  • Try to avoid contacting our servicedesk by phone. We understand fully the impact issues like these have on your daily operations but our servicedesk simply cannot provide more information at this time. Please email us in stead at service@pcextreme.nl and our servicedesk will provide you with more information, as it becomes available.

NL Momenteel is er op ons Aurora Stamina platform in het Amsterdam-01 datacenter, zone AMS02 sprake van ernstig verminderde prestaties. Onze technici zijn drukdoende het probleem te onderzoeken en er wordt hard gewerkt aan het zo snel mogelijk implementeren van een oplossing voor deze problematiek maar door de aard van het probleem is een snelle oplossing helaas niet mogelijk.

Wij vragen u nederig ons te assisteren bij het oplossen van dit probleem door;

  • Geen services of instances te herstarten, dit zijn I/O intensieve operaties die enkel meer druk leggen op het platform en de problematiek niet zullen verhelpen.
  • Het telefonisch contact met onze servicedesk tot een minimum te beperken. Wij begrijpen 100? impact die dit soort problematiek heeft op uw dienstverlening maar onze servicedesk kan op dit moment helaas niet meer informatie verstrekken dan op deze pagina beschikbaar is. Wij vragen u ons te e-mailen op service@pcextreme.nl, wij zullen u dan voorzien van meer informatie zodra deze beschikbaar komt.

Update 15-10 19:00

EN The workaround we applied earlier did not fully fix the bug. After the last time a bug report was filed. In the meantime we taking action to reduce the impact of this bug.

NL De potentiele omweg voor dit probleem die wij eerder hebben geimplementeerd blijkt het probleem niet op te lossen. In de tussentijd worden stappen gezet om de impact tot een minimum te beperken.


Update 15-10 23:00

EN Our technical staff is working on a permanent solution for this problem. We are analyzing the software problems with the developers of the software.

NL Onze technici werken nog steeds aan een permanente oplossing voor dit probleem. De problematiek in de door ons gebruikte software wordt momenteel onderzocht door de ontwikkelaars van dit product.


Update 16-10 05:30

EN We are still experiencing performance issues. We have applied some changes which should improve the situation, however it will take some time for these to take effect.

NL Er is nog steeds sprake van prestatie problemen. Inmiddels zijn enkele aanpassingen doorgevoerd om de situatie te verbeteren, het zal echter enige tijd duren eer het effect van deze aanpassingen merkbaar zal zijn.


Update 16-10 08:30

EN We closed the Control panel access to our Amsterdam zone to give the storage platform time to apply the changes. Customers where rebooting their VM's which had a negative impact on the system.

NL Momenteel is het controlepaneel tijdelijk geblokkeerd in het getroffen datacenter om het opslag platform meer rust te geven zodat aanpassingen kunnen worden doorgevoerd. Herstart acties van servers heeft een zeer merkbaar negatief effect op de algehele prestaties van dit cluster.


Update 16-10 11:15

EN We successfully migrated part of the data from the affected storage cluster last night. This must correct the problem. Currently there is a clean-up to actually delete the migrated data. At the moment that this is completed, the performance issues should be corrected. The process has been running for several hours. Unfortunately, it is not possible to make an adequate estimate of how long this process will take. There is no risk of data loss.

NL We hebben afgelopen nacht succesvol een deel van de data van het getroffen storage cluster gemigreerd. Dit moet het probleem verhelpen. Momenteel draait er een clean-up om de gemigreerde data daadwerkelijk te verwijderen. Op moment dat deze is afgerond zouden de performance issues verholpen moeten zijn. Het proces draait reeds enkele uren. Helaas is het niet mogelijk een adequate inschatting te maken hoe lang dit proces nog zal duren. Er is geen risico op dataverlies.


Update 16-10 13:15

EN The clean-up is still running. The performance impact is diminishing, which results in a measurable performance increase on the storage cluster. Since the clean-up process is still running, it is possible that the sluggishness will (temporarily) increase again. We do not expect this, but at present we can not exclude it with certainty.

NL De clean-up draait momenteel nog steeds. De overlast is momenteel aan het afnemen, hetgeen zorgt voor betere prestaties van het storage cluster. Aangezien het clean-up proces nog draait zou het kunnen dat de overlast straks weer (tijdelijk) toeneemt. We verwachten dit niet, maar kunnen het momenteel ook niet met zekerheid uitsluiten.


Update 16-10 16:45

EN The clean-up is still running at the moment. Although the inconvenience is decreasing, we notice that it is still present at certain times. Unfortunately, there is no indication yet when the clean-up process will be completed.

NL De clean-up draait momenteel nog steeds. Hoewel de overlast aan het afnemen is, merken wij dat deze met vlagen nog sterk aanwezig is. Helaas is er nog geen indicatie wanneer het clean-up proces afgerond zal zijn.


Update 16-10 19:45

EN We are still working hard to resolve the issues. In collaboration with the Developers we believe to have found the root cause. We'll keep you updated when new information arrives.


Update 16-10 23:30

EN We have found that the bug does not occur when we transfer data from SSDs to HDs. As a temporary solution we are now transferring part of the data to HDs. To relieve the rest of the platform. At this moment we are working hard to expand the storage environment in the datacenter.

NL We hebben geconstateerd dat de bug niet optreed als we data van SSD's naar HD's overzetten. Als tijdelijke oplossing zijn we nu bezig om een deel van de data over te zetten naar HD's. Om de rest van het platform te ontlasten. In het datacenter wordt nu hard gewerkt om de storage omgeving uit te breiden.


Update 17-10 00:55

EN The extra storage has been placed. We are now starting the installation of these servers, after which we will be able to start the data migration in the short term.

NL De extra storage is inmiddels geplaatst. We beginnen nu met de installatie van deze servers waarna we op korte termijn de data migratie zullen kunnen starten.


Update 17-10 02:10

EN We are currently finalizing the installation and configuration of the latest new storage servers. When this is ready we will start the data migration. As it looks now, this process will run all night. During this migration there is no risk of data loss. We will not post further status updates tonight unless the situation changes.

NL Momenteel zijn we bezig de installatie en configuratie van de laatste nieuwe storage af te ronden. Wanneer dit gereed is zullen we de datamigratie starten. Zoals het er nu naar uitziet zal dit proces de gehele nacht lopen. Er is geen risico op dataverlies tijdens deze migratie. We zullen vannacht geen nadere status updates plaatsen, tenzij de situatie wijzigt. Morgenochtend informeren we u over de actuele stand van zaken.


Update 17-10 09:00

EN The migration of the pool is coming to an end, but unfortunately the last blocks of data are going very slowly. We are currently looking at whether we can get a clearer ETA.

NL De migratie van de pool loopt op zijn einde, maar helaas gaan de laatste blokken data zeer langzaam. Momenteel zijn we aan het kijken of we een duidelijkere ETA kunnen krijgen.


Update 17-10 10:10

EN The migration has now been completed. We now consider the effect of this migration on the rest of the cluster, after which we decide which next steps we will take.

NL De migratie is inmiddels voltooid. We bezien nu het effect van deze migratie op de rest van het cluster, waarna we besluiten welke vervolgstappen we gaan nemen.


Update 17-10 15:00

EN Following the migration of one of the storage pools last night, we have decided on which steps to take in order to work towards a solution. The migration has caused the load on the platform to diminish, but unfortunately not as much as we had hoped that it would. This means that as a next step, we will migrate another part of the platform to the temporary environment tonight; the reason that we’re not performing this step during the day is because that would cause more even problems because of the (already poor) performance. In concrete terms, this means that the parts of data that are migrated to new environment will be readily available again. The performance of the remaining data will increasingly also improve as more data is migrated. This process will be repeated for the remaining pools over the coming nights until all data from the problematic storage pool has been migrated to the temporary pool.

Once all data has been migrated, we will completely format and reinstall the problematic platform. This will be done in consultation with the developers of Ceph, who have implemented various bugfixes in the software. In order to be able to correctly implement these fixes, a new installation on clean disks is required. In time, we will migrate all data from the temporary platform to the fixed platform after the tests show that the platform is once again reliable. These tests will also be done in close cooperation with the developers of Ceph. However, migrating the data back is not something that will be carried out in the very short term.

We understand that the situation still has a deep impact and we’re working around the clock to fix it, while also exploring other solutions that may bring results faster. Currently there are a number of other possible options that we are testing; should it be that one of these options lead to a quicker solution to the problem, then we will of course implement it. In the meantime, a number of additional measures have been taken. The AMS02 zone is made available again in our control panel, which makes it possible to manage your VM through this way. While deploying new VMs in this zone is not yet possible, it does gives the possibility to restart your VM if needed. Still, please do take into account that your VM might have difficulty to successfully boot on the first try.

NL Naar aanleiding van de migratie van een van de storage pools afgelopen nacht hebben wij besloten de volgende stappen te ondernemen om richting een oplossing te werken. De migratie heeft ervoor gezorgd dat er wat minder belasting is op het platform momenteel maar helaas niet zoveel als wij eigenlijk gehoopt hadden. Dit betekent nu dat wij als volgende stap, aankomende nacht nog een deel van het platform zullen migreren naar de tijdelijke omgeving; dit kunnen wij i.v.m. de (al slechte) prestaties niet overdag uitvoeren omdat dit meer problemen zal veroorzaken. Concreet zal dit betekenen de delen data die op de nieuwe omgeving staan weer goed beschikbaar moeten zijn en dat ook de prestatie van de nog resterende data zal met deze migraties stapsgewijs moeten verbeteren. Dit proces zullen wij herhalen voor de resterende pools over de komende nachten, totdat alle data van de storage pool die problemen geeft is weg gemigreerd naar het tijdelijke storage platform.

Op moment dat het storage platform geheel leeg is, zullen wij dit platform geheel gaan formatteren en opnieuw installeren. Dit in overleg met de ontwikkelaars van Ceph, welke diverse bugfixes in de software hebben doorgevoerd. Om deze correct te kunnen implementeren is een volledig nieuwe installatie nodig, op schone disks. Op termijn zullen we alle volumes weer terug migreren naar dit platform, op moment dat deze getest betrouwbaar is. Deze tests zullen wij in nauwe samenwerking met de ontwikkelaars van Ceph doorlopen. Deze terugmigratie is echter niet iets dat wij op hele korte termijn zullen uitvoeren.

Wij begrijpen uiteraard dat de situatie nog steeds erg vervelend is en werken rond de klok aan de oplossing, zo zijn er momenteel ook nog een aantal andere mogelijke opties die wij aan het testen zijn; mocht het zo zijn dat dit tot een snelle oplossing van het probleem komt zullen we deze uiteraard doorvoeren. In de tussentijd zijn er een aantal extra maatregelen genomen, zo staat in ons controle paneel de AMS02 zone weer aan en is het dus weer mogelijk de VM te beheren via deze weg. Het uitrollen van nieuwe VMs is uiteraard niet mogelijk, maar dit geeft wel de mogelijkheid om in het geval van hinder de VM te herstarten e.d; houdt hierbij nog wel rekening met de mogelijkheid dat VMs moeilijk zouden kunnen booten.


Update 17-10 22:00

EN At the beginning of the evening we made a couple of changes to the storage platform which seems to have a good improvement on the speed and stability of the platform. We will continue with the migration of storage this night. We keep a close eye on the platform.

NL We hebben aan de begin van de avond nog een aantal wijzigingen doorgevoerd aan het storage platform wat een goede verbetering lijkt te hebben op de snelheid en stabiliteit van het platform. We gaan door met de migratie van storage deze nacht. We houden het platform nauwlettend in de gaten.


Update 18-10 09:30

EN The changes implemented in combination with the migration carried out last night have led to a considerable improvement in the performance. We see virtually no slow requests (IO wait) appear, which means that your VM should be able to experience minimal or no hindrance. Although we are pleased with this progress, we continue to monitor the platform intensively in order to be able to notice unforeseen drops in performance. In addition, we are continuing to move the data to re-initialize the empty migrated components. The next few nights we will migrate the platform further empty.

NL De doorgevoerde wijzigingen in combinatie met de vannacht doorgevoerde migratie hebben voor een flinke verbetering in de performance gezorgd. We zien vrijwel geen slow requests (IO wait) meer optreden, hetgeen betekent dat uw VM momenteel minimale of geen hinder meer zou moeten kunnen ervaren. Hoewel we blij zijn met deze vooruitgang blijven we het platform intensief in de gaten houden om onverhoopte terugval in de performance op te kunnen merken. Daarnaast blijven we bezig om de data te verplaatsen om de leeg gemigreerde onderdelen opnieuw te initialiseren. De komende nachten zullen wij het platform verder leeg migreren.


Update 19-10 16:45

EN The new hardware has now been stress-tested by our supplier and via courier on it's way to our data center. We expect to receive the hardware in half an hour after which we will place it in the rack and start the installation. This night we will start to migrate data to this new hardware. You should not notice anything of this action, as far as we can foresee. At the moment that everything is going well we will not post further updates this evening and tonight.

NL De nieuwe hardware is inmiddels ge-stresstest door onze leverancier en via koerier onderweg naar ons datacenter. We verwachten deze over een half uurtje te ontvangen waarna we deze in het rack zullen plaatsen en kunnen aanvangen met de installatie. Deze nacht zullen wij beginnen om data naar deze nieuwe hardware te migreren. Van deze actie zou u, voor zover wij nu kunnen voorzien, niets moeten merken. Op moment dat alles voorspoedig verloopt zullen wij geen nadere updates plaatsen vanavond en vannacht.


Update 20-10 17:45

EN With the work done last night and earlier this week we have created a stable situation. Therefore we are closing this incident for now. Together with the Ceph developers, we are still working on a more permanent solution. We will inform you about this in the beginning of next week.

NL Met het werk van vannacht en eerder deze week hebben we een stabiele situatie gecreëerd. Daarom sluiten we dit incident. Samen met de Ceph ontwikkelaars werken we nog steeds verder aan een permanente oplossing. We zullen begin volgende week hier meer informatie over delen.

19th October 2018

No incidents reported

18th October 2018

No incidents reported

17th October 2018

No incidents reported

16th October 2018

Aurora Compute Amsterdam Aurora Agile hypervisor ams03

We're currently experiencing issues on one of the hypervisors in our Aurora Agile zone in AMS03. Our technicians are investigating the problem and we're working very hard to resolve the issues as quickly as possible. Our sincere apologies for the inconvenience.

Update 16:30 Hardware has been replaced. All vms are running again.