A IA Chatbot surpreendentemente barata de Deepseek desafia os gigantes da indústria. Com uma auto-introdução de "Pergunte qualquer coisa, obtenha uma resposta surpreendente", a IA da Deepseek se tornou um importante concorrente de mercado, até causando gotas significativas no preço das ações da NVIDIA. Seu sucesso decorre de uma combinação única de tecnologia inovadora e de investimento substancial, embora não revelado.
imagem: ensigame.com
Os principais avanços tecnológicos incluem:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Emprega 256 redes neurais, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extrair repetidamente as principais informações dos fragmentos de texto, minimizando o risco de ignorar detalhes cruciais.
A Deepseek reivindicou inicialmente um mero custo de treinamento de US $ 6 milhões para seu modelo Deepseek V3 usando 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito mais extensa, abrangendo aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo unidades H800, H100 e H20) espalhadas por vários data centers. Essa infraestrutura representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
imagem: ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, fornecendo controle sobre otimização e implementação mais rápida da inovação. Seu status autofinanciado aumenta a agilidade. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
O número inicial de US $ 6 milhões provavelmente reflete apenas os custos de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e despesas gerais de infraestrutura. O investimento total de desenvolvimento de IA da Deepseek excede US $ 500 milhões. Sua estrutura simplificada permite inovação eficiente em comparação com concorrentes maiores e mais burocráticos.
imagem: ensigame.com
Embora o sucesso de Deepseek mostre o potencial competitivo de uma empresa independente de IA bem financiada, a reivindicação de "orçamento revolucionário" é enganoso. Seu sucesso é atribuído a investimentos substanciais, avanços tecnológicos e uma equipe forte. No entanto, mesmo com essas despesas significativas, os custos da Deepseek permanecem consideravelmente menores que os concorrentes. Por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões para treinar, em comparação com os US $ 100 milhões do ChatGPT4.
imagem: ensigame.com