É uma nova startup de Elon Musk criada em tempo recorde e tendo como um de seus objetivos principais competir com a OpenAI. Os investimentos foram pesados e a pressa em concluir o empreendimento foi clara, tanto que o novo data center foi concluído em meros meses (mais ou menos 122 dias), em contraste aos vários meses ou até anos de planejamento necessários para sistemas deste porte.
A startup levantou recentemente investimentos de mais de US$ 11 billhões, elevando o valor da companhia para US$ 50 bilhões, atrás apenas da própria OpenAI.
Colossus
Batizado de Colossus, o cluster massivo com cerca de 100 mil GPUs modelo Hopper da Nvidia é hoje o maior supercomputador de IA do mundo, de acordo com a própria Nvidia.
Em parceria com a Supermicro, empresa que forneceu a solução tecnológica para a xAI, cada cluster é composto de um rack com 8 servidores, contendo 8 GPUs cada, totalizando 64 GPUs por rack. Estes racks foram agrupados em conjuntos de 8 racks e há próximo de 200 conjuntos destes equipamentos, em resumo:
• Cada rack possui 64 GPUs; • Cada conjunto de racks possui 512 GPUs; • Os quase 200 conjuntos somam mais de 100 mil GPUs no total.
Para os amantes da tecnologia, o YouTuber @ServeTheHome visitou as instalações da xAI e o vídeo completo com detalhes mais técnicos pode ser visualizado logo abaixo.
Preocupações Ambientais
O data center foi construído na cidade de Memphis no Tennessee e desde o início das obras levantou preocupações da população local e de ambientalistas, principalmente devido à alta demanda energética do Colossus (cerca de 150 Megawatts).
Em setembro deste ano, o cluster já gerava questionamentos relacionados à qualidade do ar, pois operava com ajuda de turbinas de gás natural que haviam sido instaladas para suprir a demanda energética mesmo sem ainda possuir permissão das entidades governamentais do estado do Tennessee, de acordo com uma coalizão formada por moradores locais e ambientalistas que acompanha o caso.
Já no começo de novembro, as Autoridades do Vale do Tennessee (TVA) foram criticadas por aprovarem a solicitação da xAI para o acesso aos 150 MW adicionais, com a promessa da construção de um sistema que deverá melhorar e manter a qualidade da água consumida pela população da região. A preocupação é válida, uma vez que o cluster não consome apenas energia elétrica, mas também uma enorme quantidade de água para se manter em operação.
Elon Musk já declarou que pretende, para a próxima fase, dobrar a quantidade de GPUs do Colossus, para cerca de 200 mil GPUs.
Grok
O cluster já está em funcionamento e está sendo usado para treinar os LLMs (Large Language Models) do Grok, da xAI. O serviço deverá ser oferecido aos assinantes Premium do X (antigo Twitter) e a nova iteração do Grok deve estar disponível em meados de dezembro.