En el panorama en constante evolución del desarrollo de la inteligencia artificial (IA), la capacitación en la nube ha revolucionado la forma en que se crean, perfeccionan e implementan los modelos de IA. El entrenamiento en la nube, un método para entrenar modelos de IA utilizando infraestructura remota en la nube, aporta muchas ventajas que impulsan el desarrollo de la IA hacia nuevos ámbitos de escalabilidad, eficiencia y accesibilidad.
En el panorama en constante evolución del desarrollo de la inteligencia artificial (IA), la capacitación en la nube ha revolucionado la forma en que se crean, perfeccionan e implementan los modelos de IA. El entrenamiento en la nube, un método para entrenar modelos de IA utilizando infraestructura remota en la nube, aporta muchas ventajas que impulsan el desarrollo de la IA hacia nuevos ámbitos de escalabilidad, eficiencia y accesibilidad.
Al aprovechar el poder de la computación en la nube, las organizaciones y los desarrolladores pueden desbloquear una variedad de beneficios que agilizan el proceso de capacitación en IA y aceleran la innovación de maneras que antes eran inalcanzables. Desde escalabilidad sin esfuerzo hasta utilización de hardware especializado, la capacitación en la nube permite a los profesionales de la IA afrontar desafíos complejos con agilidad y aprovechar todo el potencial de sus modelos.
¿Quién es OVHcloud EE. UU.?
Aunque no es un nombre conocido, OVHcloud US, la filial estadounidense del Grupo OVH, ofrece servidores bare metal, nube privada alojada y soluciones de nube híbrida. Sus soluciones cubren todo, desde servidores dedicados para videojuegos, servicios de nube privada alojados a medida para grandes empresas y todo lo demás. En esta revisión, exploraremos sus servicios informáticos de nube pública, específicamente GPU Cloud impulsada por las GPU NVIDIA Tesla V100S. Estas instancias de GPU están diseñadas para cualquier cosa que se beneficie del procesamiento paralelo, ya sea aprendizaje automático esencial, IA generativa o entrenamiento de modelos de IA específicos.
Una de las cosas clave que queremos analizar hoy son los beneficios del procesamiento de GPU basado en la nube frente a las soluciones locales. Ciertamente hay argumentos a favor de ambos, pero OVHcloud US ofrece algunas razones convincentes para pasarse a la nube, incluso si es solo para comenzar su viaje personal o empresarial hacia la IA.
El principal atractivo de venta es, sin duda, el precio. A partir de $0.88/hora por un solo Tesla V100S con 32 GB de VRAM, 14 vCores y 45 GB de memoria, es posible utilizar miles de horas de ciclos antes incluso de acercarse al costo de una solución local. Luego está el costo-beneficio de complementar las máquinas GPU internas existentes con instancias basadas en la nube para cosas como el reentrenamiento ocasional de modelos de IA.
La oferta de GPU de OVHcloud en EE. UU. se divide en los siguientes casos:
Nombre | Salud Cerebral | núcleo virtual | GPU | Storage | Red pública | Red privada | Precio/hora |
t2-45 | 45 GB | 14 | Tesla V100S 32GB | 400 GB SSD | 2 Gbps | 4 Gbps | $2.191 |
t2-90 | 90 GB | 28 | 2x Tesla V100S 32GB | 800 GB SSD | 4 Gbps | 4 Gbps | $4.38 |
t2-180 | 180 GB | 56 | 4x Tesla V100S 32GB | SSD de 50 GB + NVMe de 2 TB | 10 Gbps | 4 Gbps | $8.763 |
t2-le-45 | 45 GB | 14 | Tesla V100S 32GB | 300 GB SSD | 2 Gbps | 4 Gbps | $0.88 |
t2-le-90* | 90 GB | 30 | Tesla V100S 32GB | 500 GB SSD | 4 Gbps | 4 Gbps | $1.76 |
t2-le-180* | 180 GB | 60 | Tesla V100S 32GB | 500 GB SSD | 10 Gbps | 4 Gbps | $3.53 |
*recién liberado
OVHcloud US GPU Servidores Hardware
Echemos un vistazo más profundo a las opciones de hardware que ofrece OVHcloud US. En el centro de las instancias de GPU se encuentra la NVIDIA Tesla V100S, una GPU optimizada para computación con 32 GB de memoria HBM2. Si bien los Tesla A100 más nuevos han reemplazado principalmente a estas GPU, el V100S aún ofrece un rendimiento y un valor excelentes.
El aspecto más importante de estas instancias es que están basadas en la nube, por lo que no bloquearán ningún sistema que pueda tener en el sitio, lo que las convierte en una solución ideal para flujos de trabajo de "configúrelo y olvídese". Estas GPU se entregan directamente a la instancia mediante transferencia PCI sin una capa de virtualización, lo que proporciona un uso dedicado de cada tarjeta para su trabajo.
En cuanto a la CPU, no especifican qué SKU específicos obtendrá, pero garantizan al menos 2.2 GHz en todos los núcleos, lo que será lo suficientemente rápido para la mayoría de las aplicaciones. Nuestro caso particular reportó tener un Intel Xeon Gold 6226R con 14 de sus 32 hilos a nuestra disposición. El recuento de núcleos virtuales oscila entre 14 y 56.
OVHcloud US ofrece diferentes opciones con CPU más rápidas si su caso de uso lo requiere. Las opciones de memoria van desde 45 GB hasta 180 GB, lo que debería ser suficiente para la mayoría de los flujos de trabajo centrados en GPU. El mismo espíritu se aplica al almacenamiento, con capacidades desde 300 GB hasta una unidad NVMe dedicada de 2 TB.
Servidores GPU de OVHcloud para EE. UU.: casos de uso populares de IA
Desarrollo
Poner en marcha y ejecutar una instancia es lo suficientemente rápido y económico como para que OVHcloud sea un argumento convincente para que incluso el desarrollador ocasional juegue con una GPU decente. En teoría, podría crear todos sus datos de entrenamiento localmente, cargarlos en el proveedor de datos en la nube de su elección, activar una instancia y comenzar a entrenar/afinar varios modelos disponibles en línea.
A través de pruebas rigurosas de este escenario, desarrollamos una variedad de sofisticados Llama sabores utilizando el código Alpaca y los pesos convertidos de Huggingface. Estos sabores se pueden preparar sin problemas en su dispositivo, cargarlos cómodamente en Google Drive, descargarlos sin esfuerzo en la instancia y ajustarlos de manera experta. Ahora, estamos trabajando con los modelos de parámetros más bajos para que quepan dentro de los 32 GB de VRAM que teníamos, y todavía era una opción mucho más manejable que intentar comprar una tarjeta comparable como una RTX8000 para tirar en el laboratorio doméstico.
Las pequeñas empresas podrían utilizar esta estrategia para proporcionar a un desarrollador o equipo acceso a la informática GPU ahora en lugar de esperar hardware o aprobaciones presupuestarias importantes.
Inferencia
La V100S es una excelente GPU para inferir LLM que pueden caber en su memoria. Si bien los tiempos de inferencia difieren de los que obtendría con servicios como ChatGPT, la contrapartida viene con la ventaja de ejecutar su propio modelo privado. Como de costumbre, ejecutar un servicio en la nube con tiempo de actividad 24 horas al día, 7 días a la semana generará costos, pero se necesitarían meses de ejecutar la instancia a los actuales $0.88 por hora para acercarse a la infraestructura necesaria para hacerlo localmente.
Reconocimiento de imagen
Extraer datos de imágenes para clasificarlas, identificar un elemento o crear documentos más completos es un requisito para muchas industrias. Con marcos como Caffe2 combinados con la GPU Tesla V100S, las imágenes médicas, las redes sociales, la protección pública y la seguridad se vuelven más accesibles.
Análisis de la situación
En algunos casos, se requiere análisis en tiempo real cuando se espera una reacción adecuada para enfrentar situaciones variadas e impredecibles. Por ejemplo, esta tecnología se utiliza para vehículos autónomos y análisis del tráfico de la red de Internet. Aquí es donde surge el aprendizaje profundo, formando redes neuronales que aprenden de forma independiente a través del entrenamiento.
Interacción humana
En el pasado, la gente aprendió a comunicarse con las máquinas. Ahora estamos en una era en la que las máquinas están aprendiendo a comunicarse con las personas. Ya sea a través del reconocimiento de voz o de emociones a través de sonido y video, herramientas como TensorFlow amplían los límites de estas interacciones y abren muchos usos nuevos.
Impresiones prácticas
Al principio, el portal de OVHcloud US era intuitivo y su configuración era sencilla. Cree una cuenta, agregue un método de pago, cree algunas claves SSH, seleccione la instancia, tome un Red Bull y envíe SSH a su nueva caja de GPU. Usamos Ubuntu Server, pero hay otras opciones disponibles para versiones y sabores de Linux, incluidos Fedora, Arch, Debian CenOS, AlmaLinux y Rocky.
También existe la opción de instalar varias imágenes del sistema operativo que incluyen aplicaciones como Docker.
Al probar el servidor GPU de EE. UU. de OVHcloud, descubrimos que la experiencia es increíblemente fácil de usar y receptiva. La configuración de la instancia fue muy sencilla y el acceso a los recursos de la GPU fue prácticamente perfecto. Ya sea probando modelos complejos de aprendizaje automático o manejando tareas de procesamiento de datos a gran escala, las instancias GPU de OVHcloud US demostraron un rendimiento notable.
Además, la flexibilidad en la ampliación de los recursos nos permitió personalizar el entorno según nuestras necesidades específicas. Todo fue diseñado para facilitar un flujo de trabajo fluido y eficiente, desde la interfaz de usuario hasta el hardware subyacente. La compatibilidad con varios marcos de IA populares, combinada con la potencia de las GPU NVIDIA Tesla V100S, hizo que nuestros experimentos y entrenamiento e inferencia de modelos no solo fueran posibles sino también altamente efectivos.
La capacidad de aumentar nuestros recursos internos con estas soluciones basadas en la nube confirmó a OVHcloud US como una opción atractiva tanto para los principiantes que dan sus primeros pasos en IA como para los profesionales experimentados que buscan soluciones confiables y rentables.
Realizamos un par de pruebas comparativas para probar el rendimiento de la asignación de CPU y la implementación de V100. Primero fue el punto de referencia Blender-CLI y luego nuestro banco de CPU favorito, y-cruncher.
Monstruo de la GPU | 1112.95022 |
Tienda de chatarra de GPU | 754.813874 |
Aula de GPU | 603.196188 |
Monstruo de la CPU | 113.467036 |
Tienda de chatarra de CPU | 62.223543 |
Aula de CPU | 50.618349 |
Y-cruncher 1b |
40.867 segundos
|
Y-cruncher 2.5b |
113.142 segundos
|
La instancia t2-45le, tras las pruebas, arrojó resultados consistentes con sus especificaciones y no mostró sorpresas en sus métricas de rendimiento. Con el V100 integrado, es evidente que puede manejar tareas intensivas de inferencia e incluso admite operaciones de capacitación basadas en la nube de manera efectiva tanto en términos de rendimiento como de costo.
Pensamientos Finales
Como ocurre con todo lo relacionado con la TI empresarial, existen pros y contras; Lo mismo ocurre con la IA para el entrenamiento en la nube. La formación en la nube con los servidores GPU de OVHcloud US ofrece escalabilidad, rentabilidad y desarrollo acelerado y abre la puerta a la innovación y la experimentación. El hardware especializado, la accesibilidad global y la colaboración perfecta hacen que la IA basada en la nube esté lista para descubrimientos innovadores.

Centro de datos OVHcloud
Estas ventajas coexisten con las realidades de las preocupaciones por la seguridad de los datos y la estabilidad de la red. Para abordar la curva de aprendizaje potencialmente pronunciada, la capacitación en la nube para IA debe abordarse con cautela, alertando a las organizaciones para que tracen un rumbo estratégico que se alinee con sus necesidades y prioridades únicas.
Aunque sólo hemos mencionado el servidor GPU específico, OVHcloud US dispone de un completo conjunto de servicios. En general, el soporte fue amigable y hicieron un seguimiento para ver si necesitábamos ayuda después de nuestro registro inicial. El portal era intuitivo, fácil de usar y comprender, y el sistema funcionó exactamente como se esperaba. El único inconveniente podría ser la falta de regiones, pero esto se pasa fácilmente por alto debido al costo y la simplicidad. OVHcloud US recibe una recomendación sólida y va a nuestro bolsillo como potencial proveedor de nube para futuros proyectos que necesitan estar fuera del laboratorio o simplemente alquilar un poco de potencia adicional para realizar un trabajo.
A medida que navegamos por este panorama dinámico, es esencial abordar la capacitación en la nube para IA con una perspectiva equilibrada, aprovechando las oportunidades y abordando los desafíos de manera pragmática. El camino hacia la excelencia en la IA, marcado por el ingenio y la practicidad, se moldea comprendiendo la intrincada interacción de estos pros y contras y elaborando estrategias que aprovechen los primeros y mitiguen los segundos.
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed