Inicio EmpresaAI Ejecute un RAG ChatGPT privado en QNAP NAS

Ejecute un RAG ChatGPT privado en QNAP NAS

by Jordan Ranous

Las plataformas NAS de QNAP tienen los diseños de hardware más exclusivos y capaces de su clase. Entonces, agregamos una GPU a uno y probamos las capacidades de IA.

QNAP es conocido por su diseño de hardware, además de ofrecer más potencia, expansión y flexibilidad en sus diseños de hardware que cualquier otra persona en la categoría. Recientemente revisamos el TS-h1290FX, un NAS de 12 NVMe con una CPU AMD EPYC 7302P (16C/32T), 256 GB de DRAM, 25 GbE integrados y muchas ranuras PCI. Con todo ese poder reprimido y aplicaciones a bordo, ¿qué sucede si colocamos una GPU y vemos hasta dónde podemos llevar este NAS cuando se trata de ejecutar IA, como un ChatGPT privado?

Imagen frontal del QNAP TS-h1290FX

Potencial de almacenamiento NAS para IA

El QNAP TS-h1290FX tiene mucho que ofrecer a las empresas que buscan ingresar a la IA. El NAS ofrece una ventaja única porque puede admitir una GPU interna y tiene el potencial de ocupar un espacio de almacenamiento masivo. Los grandes modelos de IA requieren una cantidad significativa de datos, que deben almacenarse y accederse a ellos de manera eficiente. Esto puede ser un desafío para las plataformas de almacenamiento que usan discos duros, pero el TS-h1290FX con soporte U.2 NVMe lo tiene todo cubierto.

Cuando piensa en un NAS de gran capacidad, lo primero que piensa es en plataformas HDD de 3.5 ″ con soporte para unidades de hasta 24 TB. Eso suena grande, pero no es nada comparado con lo que puede encontrar con los SSD QLC U.2. QNAP agregó recientemente soporte para el Solidigmo P5336 familia, que alcanza una increíble capacidad de 61.44 TB por unidad. Para un modelo de 12 bahías como el TS-h1290FX, los clientes obtienen hasta 737 TB de almacenamiento sin procesar antes de que comience la reducción de datos. Para un NAS de escritorio compacto, hay muy pocos sistemas que puedan competir con eso.

A medida que las empresas adoptan rápidamente la IA, tener un sistema que pueda proporcionar capacidad de almacenamiento para los flujos de trabajo de IA y ejecutar modelos es una gran ventaja. Sin embargo, la hazaña impresionante es que este NAS de QNAP puede ejecutar esos flujos de trabajo de IA y al mismo tiempo realizar sus tareas principales de compartir almacenamiento en el entorno de las PYMES.

También hay que decir que la IA no es algo monolítico. Los diferentes proyectos de IA requieren diferentes tipos de almacenamiento para respaldarlos. Si bien aquí nos centramos en la unidad de escritorio, QNAP tiene muchos otros sistemas NAS que admiten redes y flash de alta velocidad, elementos críticos para satisfacer una necesidad de IA más ambiciosa que la que hemos cubierto aquí.

¿Cómo admite QNAP las GPU?

QNAP admite GPU en muchos de sus sistemas NAS. También tienen algunas aplicaciones que admiten GPU. En este artículo, analizaremos principalmente la GPU a través de la lente de Virtualization Station. Virtualization Station es un hipervisor para QNAP NAS, que permite a los usuarios crear una variedad de máquinas virtuales. Virtualization Station también tiene un amplio conjunto de funciones que admite copias de seguridad de VM, instantáneas, clones y, lo más importante, transferencia de GPU para el contexto de este artículo.

Dentro de nuestra unidad de prueba, el QNAP TS-h1290FX está equipado con una placa de servidor típica con varias ranuras PCIe disponibles para expansión. QNAP también proporciona los cables de alimentación de GPU necesarios dentro del chasis, por lo que no se requieren negocios complicados para las tarjetas que necesitan más energía que la ranura PCIe. Descubrimos que la NVIDIA RTX A4000 de una sola ranura encajaba perfectamente con espacio adecuado para refrigeración. En esta plataforma, se prefiere una GPU con un refrigerador activo. Su elección de GPU estará determinada por la carga de trabajo y lo que el NAS puede soportar y enfriar físicamente.

Configuración de QNAP para IA

La configuración de una máquina virtual (VM) con transferencia de GPU en un dispositivo NAS de QNAP implica varios pasos. Requiere un QNAP NAS que soporta la virtualización y tiene las capacidades de hardware necesarias. A continuación se muestra una guía sobre cómo instalamos y configuramos el NAS de QNAP con transferencia de GPU.

1. Verificar la compatibilidad del hardware

Asegúrese de que su QNAP NAS sea compatible con Virtualization Station, que es la aplicación de virtualización de QNAP.

  • Confirme que el NAS tenga una ranura PCIe disponible para una GPU y que la GPU admita transferencia. Las listas de compatibilidad suelen estar disponibles en el sitio web de QNAP. Si bien la lista de compatibilidad actual no es compatible oficialmente con NVIDIA A4000, no tuvimos problemas con la funcionalidad.

2. Instale la GPU

  • Apague el NAS y desconéctelo de la alimentación. Abra la carcasa e inserte la GPU en una ranura PCIe disponible. Conecte los cables de alimentación necesarios a la GPU. Cierre la carcasa, vuelva a conectar la alimentación y encienda el NAS.

3. Actualice su firmware y software QNAP

Asegúrese de que su QNAP NAS esté ejecutando la última versión de QTS (el sistema operativo de QNAP). Usamos Virtualization Station 4, que es una versión beta abierta de QNAP, para brindar mejor soporte y rendimiento para el trabajo de GPU. Virtualization Station 4 es un paquete de autoinstalación, a diferencia de otros que se instalan directamente a través del QNAP App Center.

4. Instale el sistema operativo en la VM

Después de instalar la Virtualization Station de QNAP en su NAS, puede ir a la interfaz de administración para implementar su máquina virtual (VM). Cuando haga clic en "Crear", aparecerá una ventana donde deberá proporcionar el nombre de la VM y seleccionar la ubicación en el NAS donde se ejecutará la VM. Es posible que deba realizar algunos ajustes menores en el sistema operativo y la información de la versión en la mayoría de los casos.

A continuación, ajuste los recursos y el tipo de compatibilidad de CPU que verá la VM en el nivel del sistema operativo invitado. En nuestro caso, le dimos a nuestra VM 64 GB de memoria y 8 CPU. Seleccionamos el tipo de CPU de paso para el modelo y cambiamos el BIOS a UEFI.

Para iniciar e instalar el sistema operativo, debe cargar y montar un archivo ISO como una unidad de CD/DVD virtual. Una vez que se complete el proceso de instalación, habilite RDP para la administración antes de continuar con el siguiente paso. La funcionalidad de administración de VM de QNAP cambia una vez que se habilita el paso de GPU y RDP simplifica significativamente este proceso. En este punto, apague la VM.

5. Configurar el paso a través de GPU

Dentro de la Estación de virtualización:

  1. Con la máquina virtual existente apagada, edite su máquina virtual.
  2. En el menú de configuración de VM, busque la pestaña de dispositivos físicos. Desde aquí, seleccione PCIe. Verá un dispositivo disponible para el paso. En nuestro caso fue la NVIDIA RTX A4000. Aplicar este cambio.
  3. Si necesita asignar otros recursos para su VM, como núcleos de CPU, RAM y almacenamiento, este es el momento de hacerlo.
  4. Vuelva a encender la máquina virtual.

6. Instale los controladores de GPU en la VM

Una vez que esté de regreso en la VM usando RDP con la GPU conectada, descargue e instale los controladores apropiados para su GPU dentro de la VM. Este paso es crucial para que la GPU funcione correctamente y proporcione las mejoras de rendimiento esperadas.

7. Verifique la funcionalidad de transferencia de GPU

Después de instalar los controladores, verifique que la GPU sea reconocida y funcione correctamente dentro de la VM. Puede utilizar el administrador de dispositivos en Windows o las herramientas de línea de comandos relevantes en Linux para verificar el estado de la GPU.

Solución de problemas y sugerencias

  • Compatibilidad: Consulte los sitios web de los fabricantes de QNAP y GPU para obtener notas de compatibilidad específicas o actualizaciones de firmware que puedan afectar la funcionalidad de transferencia.
  • Actuación: Supervise el rendimiento de su VM y ajuste las asignaciones de recursos según sea necesario. Asegúrese de que su NAS tenga suficiente espacio para enfriar, especialmente después de agregar una GPU de alto rendimiento.
  • Redes y almacenamiento: Optimice la configuración de red y las configuraciones de almacenamiento para evitar cuellos de botella que podrían afectar el rendimiento de las aplicaciones de VM.

Chat NVIDIA con RTX – Chat privadoGPT

Si bien es fácil detenerse aquí (crear una máquina virtual Windows con acceso a GPU), avanzamos más en este experimento para brindar a las empresas una forma única de aprovechar la IA de forma segura, aprovechando el rendimiento del NAS basado en NVMe. En nuestro caso, la VM aprovechó el almacenamiento protegido RAID5 que ofrecía un rendimiento de 9.4 GB/s de lectura y 2.1 GB/s de escritura.

NVIDIA ha lanzado recientemente un paquete de software llamado Chatea con RTX. Chat with RTX revoluciona la interacción con IA al brindar una experiencia personalizada mediante la integración de un modelo de lenguaje grande (LLM) basado en GPT con un conjunto de datos local único. Esto incluye la capacidad de procesar documentos, notas, multimedia, vídeos de YouTube, listas de reproducción y más.

Esta aplicación llave en mano aprovecha el poder de la generación aumentada de recuperación (RAG), combinada con la eficiencia del LLM optimizado para TensorRT y las capacidades de alta velocidad de la aceleración RTX. Estos brindan respuestas conscientes del contexto que son rápidas y altamente relevantes. Al operar directamente en su escritorio o estación de trabajo Windows RTX, esta configuración garantiza un acceso rápido a la información y un alto grado de privacidad y seguridad, ya que todo el procesamiento se maneja localmente.

La implementación de un LLM con capacidades RAG ofrece una excelente solución para profesionales de negocios y usuarios avanzados que priorizan la privacidad, la seguridad y la eficiencia personalizada. A diferencia de los modelos públicos como ChatGPT, que procesan consultas a través de Internet, un LLM local opera completamente dentro de los límites de su NAS de QNAP.

Esta función fuera de línea garantiza que todas las interacciones se mantengan privadas y seguras. Esto permite a los usuarios personalizar la base de conocimientos de la IA según sus necesidades específicas, ya sean documentos corporativos confidenciales, bases de datos especializadas o notas personales. Este enfoque mejora significativamente la relevancia y la velocidad de las respuestas de la IA, lo que la convierte en una herramienta invaluable para quienes requieren información inmediata y contextualmente consciente sin comprometer la privacidad o la seguridad de los datos.

También vale la pena señalar, y esto puede resultar obvio, que agregar una GPU al NAS simplifica directamente el vínculo entre los datos de una empresa y el LLM. No es necesario mover datos para aprovechar este modelo en particular, y el proceso es tan simple y rentable como colocar una GPU de rango medio en el NAS. Además, en este punto, todo este software es gratuito, lo que democratiza enormemente el potencial de la IA para las pequeñas organizaciones.

Chat with RTX sigue siendo un programa beta y, al momento de escribir este artículo, usábamos la versión 0.2. Pero la facilidad para instalarlo y poner en funcionamiento la interfaz web fue refrescante. Cualquiera que sepa cómo descargar e instalar una aplicación ahora puede obtener un LLM local con RAG ejecutándose con solo unos pocos clics.

Habilitar el acceso remoto para chatear con RTX a través de una URL de acceso universal

Llevamos nuestro escenario al siguiente nivel y lo pusimos a disposición de toda la oficina.

Paso 1: busque el archivo de configuración

Comience dirigiéndose a la carpeta con el archivo de configuración:

  • Ruta de archivo: C:\Users\{YourUserDir}\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui\user_interface.py

Paso 2: actualice el código de inicio

Abre el user_interface.py archivo y Ctrl-F para interface.launch Ubica el segmento correcto, que por defecto aparecerá de la siguiente manera:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    server_port=port
)

Para habilitar el acceso a la red, debe agregar share=True al igual que:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    share=True,
    server_port=port
)

Guarde las modificaciones en el user_interface.py archivo. Luego, inicie Chat with RTX a través del menú Inicio, lo que iniciará una ventana de símbolo del sistema y activará la interfaz.

Paso 3: encontrar la URL pública

La ventana del símbolo del sistema mostrará una URL local y pública. Para crear una URL pública funcional accesible desde cualquier dispositivo, combine elementos de ambas URL. Sería mejor si tomara la URL pública y agregara la información de la cookie local al final:

  • URL pública: https://62e1db9de99021560f.gradio.live
  • URL local con parámetros: http://127.0.0.1:16852?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Su URL combinada debería verse así, con la cookie ?añadida a la URL pública:

https://62e1db9de99021560f.gradio.live?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

Esta URL otorga acceso a Chat with RTX desde cualquier dispositivo en su red, extendiendo su usabilidad más allá de las limitaciones locales.

Conclusión

Hemos sido fanáticos del liderazgo de QNAP en el diseño de hardware NAS durante mucho tiempo, pero hay mucho más valor disponible para los clientes de QNAP del que probablemente creen. Sinceramente, Virtualization Station es un excelente punto de partida, pero ¿por qué no llevarla al siguiente nivel y probar GPU Passthrough? Al menos, las organizaciones pueden entregar una máquina virtual con GPU de alta gama a la organización sin tener que configurar una estación de trabajo dedicada. También existen los beneficios aparentes de una máquina virtual ubicada junto a un grupo de almacenamiento interno masivo con niveles de rendimiento nativos. En este caso, teníamos un rendimiento de almacenamiento compartido de casi 10 GB/s, sin preocuparnos por una sola conexión o conmutador de 100 GbE, todo porque la máquina virtual acelerada por GPU se encontraba dentro del propio NAS.

¿Por qué no dar un paso más para aprovechar los beneficios de la IA para la organización? Hemos demostrado que agregar una GPU decente a un NAS de QNAP es relativamente fácil y económico. Pusimos un A4000 a funcionar, y con un precio de venta al público de aproximadamente $1050, eso no está mal si se considera que Virtualization Station es gratis y NVIDIA Chat con RTX está disponible sin costo alguno. Ser capaz de apuntar de forma segura este poderoso LLM a los datos privados de una empresa debería brindar información útil y, al mismo tiempo, hacer que la empresa sea más dinámica.

Otro objetivo a considerar aquí es un almacén de archivos para modelos que pueden ser externos al propio sistema QNAP. Esto es ideal para pequeñas empresas que necesitan un lugar rápido para almacenar sus datos de trabajo. Con las capacidades de red avanzadas, es posible utilizar el NAS como un lugar para almacenar datos para el trabajo RAG en un servidor GPU más grande, permitiendo un almacén de datos fácilmente compartible desde el cual inferir.

Este es sólo un ejemplo de IA. La industria se está moviendo rápidamente, por lo que las herramientas seguirán estando disponibles. Las empresas inteligentes deben aprender a aprovechar la IA y esta sencilla característica de QNAP es una excelente manera de comenzar.

Estación de virtualización de QNAP

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed