Erro menor, grande catástrofe - GitLab fica offline por um dia
O GitLab, uma startup que é uma alternativa ao altamente popular GitHub, teve um dia bastante difícil recentemente como um erro humano causou a queda de todo o site por um dia inteiro.
O problema do GitLab começou quando o site estava experimentando problemas de tempo e estabilidade de carga. O site foi colocado offline para corrigir os problemas. No entanto, durante a manutenção, alguém inconscientemente cometeu o erro de excluir acidentalmente um diretório contendo 300 GB de dados de produção ao vivo.
Felizmente para o GitLab, o conteúdo que foi excluído apenas problemas afetados e solicitações mescladas. Os repositórios e wikis não foram afetados por esse erro de forma alguma, o que significa que danos causados por este erro não foi tão grave como poderia ter sido
Com o diretório excluído, o pessoal do GitLab imediatamente se volta para o backup. Infelizmente para eles, o GitLab encontrou ainda outro problema. De acordo com o arquivo do Google Doc que estava sendo constantemente atualizado conforme o GitLab se esforça para voltar a ficar on-line, todos os 5 backup / replicação técnicas que o site implantado não conseguiu trabalhar de forma confiável, e em alguns casos foram nunca criado em primeiro lugar.
Recuperando esses arquivos perdidos da nuvem não é uma opção para o GitLab ou como a startup decidiu no final do ano passado para despejar a nuvem para construir e operar seus próprios clusters Ceph. Escusado será dizer que o GitLab está agora a reconsiderar a sua posição sobre esse tópico em particular.
@TheRegister @gitlab estará trabalhando para tornar o aplicativo mais eficiente e explorando provedores de hospedagem em nuvem alternativos.
- Connor Shea (@connorjshea) 1 de fevereiro de 2017
Apesar do dia tumultuado que o GitLab teve, o site agora está funcionando normalmente. Enquanto o site relataram que alguns dados foram perdidos durante uma janela de seis horas, o Git repositórios foram deixados ilesos ao longo de toda a provação. Um log completo de incidentes de todo o evento pode ser visto aqui.
Enquanto muitos lições podem ser aprendidas com o pequeno erro do GitLab (principalmente hubris), o método do GitLab de lidar com a crise é bastante admirável a startup foi clara e transparente com seus usuários. Aqui está a esperança de que o GitLab aprenda com esse erro. Caso contrário, sua base de usuários provavelmente seria menos tolerante se a história se repetisse.
Fonte: O Registo