De Deepseek's Sorprendentemente económico Chatbot Chatbot desafía a los gigantes de la industria. Con una autointroducción de "preguntar cualquier cosa, obtener una respuesta sorprendente", la IA de Deepseek se ha convertido en un importante competidor del mercado, incluso causando caídas significativas en el precio de las acciones de Nvidia. Su éxito proviene de una combinación única de tecnología innovadora y una inversión sustancial, aunque no revelada.
Imagen: Ensigame.com
Los avances tecnológicos clave incluyen:
- Predicción de múltiples token (MTP): predice múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): Emplea 256 redes neuronales, activando ocho para cada token, acelerando la capacitación y mejorando el rendimiento.
- Atención latente de múltiples cabezas (MLA): extrae repetidamente información clave de fragmentos de texto, minimizando el riesgo de pasar por alto detalles cruciales.
Deepseek inicialmente reclamó solo un costo de capacitación de $ 6 millones para su modelo V3 Deepseek con 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más extensa, que abarca aproximadamente 50,000 GPU de tolva NVIDIA (incluidas las unidades H800, H100 y H20) distribuidas en múltiples centros de datos. Esta infraestructura representa una inversión total del servidor de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, proporcionando control sobre la optimización y la implementación de innovación más rápida. Su estado autofinanciado mejora la agilidad. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.
La cifra inicial de $ 6 millones probablemente solo refleja los costos de GPU previos al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos y los gastos generales de infraestructura. La inversión total de desarrollo de IA de Deepseek supera los $ 500 millones. Su estructura simplificada permite una innovación eficiente en comparación con competidores más grandes y burocráticos.
Imagen: Ensigame.com
Si bien el éxito de Deepseek muestra el potencial competitivo de una compañía de IA independiente bien financiada, el reclamo de "presupuesto revolucionario" es engañoso. Su éxito se atribuye a una inversión sustancial, avances tecnológicos y un equipo fuerte. Sin embargo, incluso con estos gastos significativos, los costos de Deepseek siguen siendo considerablemente más bajos que los competidores. Por ejemplo, el modelo R1 de Deepseek costó $ 5 millones para entrenar, en comparación con los $ 100 millones de CHATGPT4.
Imagen: Ensigame.com