Como entusiasta de los modelos de IA con años de inmersión en el mundo en constante evolución de la inteligencia artificial, las ideas de Ilya Sutskever me parecen intrigantes y esclarecedoras. El cambio de la era de la escala a la era de la maravilla y el descubrimiento es similar a ver a un chef experimentado pasar de seguir recetas a experimentar con nuevos ingredientes y técnicas.
Ilya Sutskever, uno de los cofundadores de OpenAI, cree que las estrategias actuales para expandir grandes modelos de lenguajes han llegado a un punto de rendimiento decreciente. Para lograr avances sustanciales en el futuro, las instalaciones de investigación de IA deberían centrarse no sólo en hacer modelos más grandes sino también más inteligentes. Además, estos modelos de aprendizaje de idiomas (LLM) deben diseñarse para reflexionar sobre los problemas durante más tiempo.
En una conversación con Reuters, Sutskever señaló que la etapa de expansión de grandes modelos de lenguaje como ChatGPT durante su fase previa al entrenamiento se está acercando a su máximo potencial. El entrenamiento previo se refiere al primer paso en el que se procesan cantidades masivas de datos sin etiquetar para establecer patrones y estructuras de lenguaje dentro del modelo.
Anteriormente, simplemente ampliar el conjunto de datos para el entrenamiento (a menudo denominado ampliación de escala) conduciría a un modelo más sólido y competente. Sin embargo, este enfoque ya no es suficiente; más bien, es crucial considerar no sólo la cantidad de datos, sino también los detalles de en qué se entrena el modelo y cómo se entrena.
Como entusiasta de los juegos, no puedo evitar recordar la década de 2010, la era de crecimiento y expansión masivos en nuestros mundos digitales favoritos. Pero ahora nos encontramos una vez más aventurándonos en territorios inexplorados, donde reinan el asombro y el descubrimiento. Parece que todo el mundo está buscando la próxima experiencia innovadora. Sin embargo, según Sutskever, ya no se trata sólo de escalar; se trata de escalar las cosas correctas, ya que ahora es más importante que nunca a la hora de dar forma a nuestras futuras aventuras de juego.
En este contexto, existe una creciente evidencia de que las instalaciones de investigación de IA están luchando por mejorar significativamente modelos similares a ChatGPT versión 4.0 en cuanto a consumo de energía y rendimiento.
En términos más simples, muchas personas ahora tienen acceso a datos de entrenamiento comparables a través de recursos en línea. Esto significa que el simple hecho de utilizar grandes cantidades de datos sin procesar ya no proporcionará necesariamente una ventaja competitiva. En cambio, lo que distingue a las empresas de IA será su capacidad para entrenar modelos de manera más inteligente en lugar de simplemente aumentar el tamaño de sus conjuntos de datos.
Un método para mejorar el rendimiento del aprendizaje automático a gran escala (LLM) se produce durante las etapas finales, a menudo denominadas «inferencia», donde los modelos se han entrenado exhaustivamente y están disponibles para la interacción del usuario.
En este escenario, buscamos una estrategia secuencial para abordar problemas y preguntas, donde el sistema tenga la capacidad de aprender de sus propias respuestas, fomentando comportamientos que imiten los procesos de pensamiento y las habilidades de toma de decisiones humanos.
Como ferviente admirador, me gustaría compartir un hallazgo sorprendente de Noam Brown, un brillante investigador de OpenAI: en una sola mano de póquer, el proceso de pensamiento de 20 segundos de un bot arrojó resultados comparables a aumentar el modelo en unos asombrosos 100.000 puntos. veces y entrenándolo durante 100.000 veces más.
Básicamente, en lugar de que los robots respondan inmediatamente con lo que aparece primero, hacerlos pensar más a fondo puede generar resultados superiores. Si este método resulta beneficioso, podría haber una transición dentro del sector del hardware de IA de grandes grupos de entrenamiento a conjuntos de GPU que prioricen capacidades de inferencia mejoradas.
Absolutamente, se puede decir de esta manera: sin duda, independientemente del camino elegido, Nvidia parece preparada para sacar provecho del interés generalizado. Vale la pena mencionar que el aumento en la demanda de GPU de IA para inferencia, como señaló el director ejecutivo de Nvidia, Jensen Huang, es una tendencia importante.
Recientemente, Huang afirmó que hemos encontrado una nueva ley de escala, a la que nos referimos como ley de escala en el momento de la inferencia. Este descubrimiento, junto con otros factores, ha aumentado significativamente la demanda de Blackwell (la arquitectura GPU de próxima generación de Nvidia).
No está claro exactamente cuándo surgirá una generación de bots más inteligentes gracias a estas técnicas, pero parece probable que los recursos financieros de Nvidia se beneficien de este desarrollo con relativa rapidez.
- Impresiones de las demostraciones de EGX 2024
- El acólito insinúa que un legendario Lord Sith es el maestro misterioso
- Los mejores K-Dramas de 2024 son un recordatorio para ver esta comedia romántica favorita de los fanáticos protagonizada por Kim Ji-won
- El elegante traje de cumpleaños número 29 de Kendall Jenner es tan coqueto
- Un fan reacciona cuando Taylor Swift usa su chaqueta vintage de Chiefs: «Lo más genial»
- 5 datos curiosos sobre el locutor de ABC World News, David Muir
- Mientras Nintendo confirma la compatibilidad con versiones anteriores de Switch 2, los analistas afirman que los inversores tienen más confianza en que la próxima consola es «una continuación» en lugar de «un experimento arriesgado».
- Konami finalmente confirma que Eva de Metal Gear Solid 3 es la misma actriz que La Sirenita, quien guardó este «secreto oscuro y profundo» durante 20 años para proteger su imagen familiar.
- Divertidísimo momento en el que el novio de Nadia Bartel arruina la sesión de fotos de Nicky Hilton en las carreras de Melbourne
- ¡Moda ahorrativa! Brooke Warne revela el precio MUY asequible de su impresionante conjunto del Oaks Day
2024-11-12 17:32