Optimiza el rendimiento de tu LLM con el contenedor de inferencia de modelos grandes de Amazon SageMaker v15

Hoy se ha anunciado con entusiasmo el lanzamiento de la nueva versión 15 del contenedor de Amazon SageMaker Large Model […]

Apr 22, 2025 - 21:39

Optimiza el rendimiento de tu LLM con el contenedor de inferencia de modelos grandes de Amazon SageMaker v15

Hoy se ha anunciado con entusiasmo el lanzamiento de la nueva versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), impulsada por la versión 0.8.4 de vLLM y con soporte para el motor vLLM V1. Esta actualización incluye soporte para los modelos de código abierto más recientes, como Llama 4 de Meta, los modelos Scout y Maverick, Gemma 3 de Google, Qwen de Alibaba, Mistral AI y DeepSeek-R, entre otros. Amazon SageMaker AI continúa evolucionando sus capacidades de inferencia en inteligencia artificial generativa para satisfacer la creciente demanda en rendimiento y compatibilidad con modelos fundamentales.

La nueva versión trae consigo importantes mejoras en el rendimiento, una mayor compatibilidad con modelos multimodales —lo que significa la capacidad de entender y analizar datos de texto a texto, de imágenes a texto y de texto a imágenes— y proporciona una integración incorporada con vLLM para ayudar en el despliegue y servicio de modelos de lenguaje de gran tamaño (LLMs) con el más alto rendimiento a gran escala.

Entre las novedades destacan varias mejoras que optimizan el rendimiento y la usabilidad. La introducción de un modo asíncrono que se integra directamente con el motor AsyncLLMEngine de vLLM mejora el manejo de solicitudes al crear un bucle de fondo más eficiente que procesa continuamente las solicitudes entrantes. Este modo permite manejar múltiples solicitudes concurrentes y transmitir salidas con un mayor rendimiento en comparación con la implementación de Rolling-Batch de la versión 14.

Además, el nuevo motor vLLM V1 ofrece hasta un 111% más de rendimiento en comparación con el motor anterior V0 para modelos más pequeños en situaciones de alta concurrencia. Esta mejora se debe a la reducción de la carga de CPU, optimización de los caminos de ejecución y uso más eficiente de los recursos. La versión 15 de LMI admite ambos motores, aunque el V1 es el predeterminado, permitiendo volver al V0 si es necesario mediante la especificación correspondiente en la configuración.

También se ha ampliado el soporte de esquemas de API, con tres opciones flexibles para una integración sin problemas con aplicaciones basadas en patrones de API populares, y se han implementado optimizaciones para modelos de visión y lenguaje que incluyen un almacenamiento en caché multiplataforma.

La lista de modelos soportados en LMI v15 incluye, pero no se limita a, modelos de última generación como Llama 4 y Gemma 3, entre otros, que pueden desplegarse especificando el ID del modelo correspondiente. Se ha demostrado que el motor V1 de LMI v15 ofrece notables ventajas de rendimiento en pruebas comparativas, con mejoras de rendimiento que oscilan entre el 24% y el 111% en diferentes modelos.

La nueva versión del contenedor de Amazon SageMaker LMI representa un avance significativo en las capacidades de inferencia de grandes modelos. Con el nuevo motor vLLM V1, el modo de operación asíncrono y un mayor soporte de modelos, los usuarios pueden desplegar LLMs de vanguardia con un rendimiento y flexibilidad superiores. Se invita a los interesados a explorar este lanzamiento para el despliegue de sus modelos de inteligencia artificial generativa.