Cada vez más cargas de trabajo de IA están regresando a los entornos empresariales y de coubicación (colocation). Sin embargo, muchos de estos entornos se construyeron mucho antes de que la IA estuviera en uso; sus perfiles de energía y refrigeración no pueden soportar tal densidad. ¿Y ahora qué?
Por Brian Kennedy (Belden), Matt Roberts (OptiCool)
A medida que la IA madura y se escala, las organizaciones deben decidir: ¿Dónde se ejecutarán estas cargas de trabajo de alta densidad?
Para muchos, la IA comenzó en la nube, pero no siempre se queda allí. Los equipos de infraestructura y centros de datos se están dando cuenta de las desventajas en cuanto a latencia, costes y control que surgen cuando todo el procesamiento de IA se traslada a instalaciones a gran escala (hyperscale).
En consecuencia, más cargas de trabajo de IA están volviendo a los entornos empresariales y de coubicación. Pero hay un problema con este cambio: estos entornos se construyeron mucho antes de que la IA se utilizara, y sus perfiles de energía y refrigeración no pueden soportar este nivel de densidad.
No todas las organizaciones disponen del capital (o el deseo) para construir nuevos espacios de centros de datos cada vez que se dispara la demanda de IA. Y, especialmente dentro de las empresas, sus equipos no cuentan con el tiempo ni la experiencia para diseñar nuevas soluciones de alta densidad para cada nuevo proyecto.
Factores a considerar al decidir dónde residirá la IA
Cuando las empresas empezaron a implementar la IA, inicialmente tenía sentido apoyarse en gran medida en los proveedores de la nube y hyperscale. Había capacidad disponible, los recursos se podían escalar rápidamente y la experimentación con proyectos piloto era rápida y de bajo riesgo.
Sin embargo, ahora que la IA está pasando de pruebas de concepto pequeñas y contenidas a servicios a gran escala y siempre activos, ejecutar las cargas de trabajo fuera de las instalaciones (offsite) no siempre es la mejor manera de garantizar un acceso rápido y fiable. Por eso, cada vez más equipos buscan formas de cumplir con los requisitos de la IA dentro de los centros de datos que ya operan.
A medida que los líderes de TI y de centros de datos deciden qué cargas de trabajo de IA deben ejecutarse en cada lugar, se deben considerar tres factores: qué tan rápido deben responder los servicios de IA, con qué tipo de datos interactúan y qué tan predecibles deben ser sus costes a largo plazo y sus necesidades de capacidad.
1. ¿Qué tan rápido debe responder la IA?
Muchas aplicaciones de IA son sensibles a la latencia, lo que significa que dependen de tiempos de respuesta rápidos y constantes para ser efectivas. Esto incluye aplicaciones como:
Detección de fraudes en transacciones financieras.
Controles de edificios inteligentes que ajustan la calefacción, la refrigeración y la iluminación según la ocupación y las condiciones ambientales.
Personalización en tiempo real en experiencias digitales de cara al cliente.
Operaciones de campus inteligentes que coordinan el uso de energía, la utilización del espacio y los servicios en varios edificios.
En estos casos, enviar datos a un centro de datos remoto y esperar una respuesta puede añadir retrasos que las operaciones no se pueden permitir.
Llevar una parte de la infraestructura (stack) de IA más cerca de donde se generan y consumen los datos críticos ayuda a reducir la latencia, manteniendo así el rendimiento y la experiencia del usuario.
2. ¿Dónde tiene más sentido financiero ejecutar la IA?
El coste es otro factor que está trayendo la IA de vuelta a las instalaciones empresariales y de coubicación. Alojar clústeres de GPUs de alta densidad que funcionan las 24 horas del día, los 7 días de la semana, puede resultar muy caro en la nube.
Muchas organizaciones llegan a un punto en el que financieramente tiene sentido mantener cierto trabajo en entornos hyperscale mientras reubican las cargas de trabajo críticas para el negocio en la infraestructura que ellos mismos controlan. La razón: una planificación de costes y capacidad más predecible. Los equipos pueden pronosticar mejor el gasto a lo largo del ciclo de vida del hardware, evitar picos de consumo sorpresa y gestionar presupuestos y actualizaciones.
3. ¿Qué tipos de datos necesitará utilizar la IA?
La IA se basa en el entrenamiento y la inferencia para convertir datos brutos en decisiones importantes para el negocio. Estas actividades involucran conjuntos de datos grandes y sensibles que las empresas no siempre quieren trasladar a entornos externos debido a regulaciones, políticas internas o incluso a las expectativas de los clientes.
Ejecutar la IA en centros de datos empresariales o de coubicación ayuda a las organizaciones a proteger los datos críticos manteniéndolos cerca, simplificando el cumplimiento normativo y reduciendo la carga operativa asociada con el movimiento continuo de datos de un lado a otro.
Adaptar los espacios de centros de datos existentes para la IA
Traer la IA a las instalaciones propias (in-house) significa exigir a espacios que tienen limitaciones fijas de espacio, energía y refrigeración que soporten un nuevo conjunto de requisitos.
Si bien algunos centros de datos pueden tener espacio para más racks, estos racks ahora están llenos de GPUs, las cuales consumen varias veces más energía por rack de lo que el espacio originalmente permitía. Encontrar la manera de suministrar entre 20 kW y 40 kW adicionales (o más) —y eliminar el calor asociado directamente en el rack— es una historia completamente diferente. La refrigeración tradicional, dimensionada para cargas heredadas (legacy), a menudo tiene dificultades para mantener los clústeres de IA de alta densidad dentro de rangos operativos seguros sin sobreenfriar el resto de la sala o crear puntos calientes (hot spots).
Las claves para mantenerse al día con las demandas cambiantes
Además de gestionar la densidad, los equipos que traen al menos una parte de la IA a sus propias instalaciones también deben planificar la flexibilidad. La IA avanza rápido, y sus requisitos de energía y refrigeración también cambian a gran velocidad.
Los operadores de centros de datos necesitan poder añadir más capacidad de cómputo de alta densidad o modificar la existente a medida que crece la demanda, sin tener que rediseñar todo el espacio cada vez.
Esto significa implementar soluciones que puedan:
Soportar una mayor densidad por rack.
Coexistir con equipos heredados (legacy).
Funcionar con opciones de servidores, almacenamiento y redes de múltiples proveedores.
Implementarse en pasillos o zonas (pods) específicas sin necesidad de una remodelación mecánica total.
Conectarse a la infraestructura de energía y refrigeración existente siempre que sea posible.
Escalar en "bloques" modulares y repetibles a medida que se necesite capacidad adicional.
Llevar la refrigeración al rack respalda la IA
A medida que las densidades aumentan, adoptar un enfoque de energía y refrigeración a nivel de rack se vuelve fundamental; los clústeres de IA concentran más potencia en menos racks. En lugar de pedirle a toda la sala que absorba la carga de calor, la refrigeración a nivel de rack traslada este punto de transferencia directamente al rack.
Los intercambiadores de calor de puerta trasera (Rear-Door Heat Exchangers o RDHx) atacan el problema en la fuente. Una puerta trasera refrigerada captura y elimina el calor a medida que sale del rack, en lugar de permitir que el flujo de aire caliente se propague por la sala.
Especialmente para proyectos de modernización (retrofit), esto es una gran ventaja. Las soluciones de puerta trasera y otras opciones a nivel de rack a menudo se pueden añadir a las filas existentes con una interrupción mínima dentro de un entorno de producción activo. De este modo, se puede aumentar la densidad exactamente donde y cuando se necesita para soportar cargas de trabajo críticas.
Belden y OptiCool habilitan una infraestructura lista para la IA
Para hacer frente a estos desafíos, Belden y OptiCool se han asociado para crear soluciones integradas a nivel de rack que permiten a las empresas y a los operadores de coubicación soportar cargas de trabajo de IA de alta densidad dentro de sus instalaciones existentes (o en instalaciones nuevas).
Al integrar los intercambiadores de calor de puerta trasera de OptiCool con los racks y gabinetes de Belden, ahora se puede llevar refrigeración avanzada directamente al rack para ofrecer operaciones de centros de datos fiables, escalables y listas para la IA. Cuando se combina con el cableado de red de alta velocidad y baja latencia y la distribución de energía de Belden, el rack completo rinde de manera fiable, incluso en entornos mixtos de IT/OT (Tecnologías de la Información y Tecnologías de la Operación).
Los intercambiadores de calor de puerta trasera de OptiCool eliminan el calor en la fuente. Su sistema RDHx activo utiliza tecnología de refrigerante de dos fases: ventiladores de velocidad variable extraen el aire caliente residual a través de bobinas evaporadoras en la puerta, capturando hasta 120 kW de calor por rack antes de que entre al espacio en blanco (white space o sala de servidores). Un circuito de refrigerante dedicado transporta el calor a una unidad de rechazo externa. Como resultado, se sobrecargan mucho menos las unidades CRAC/CRAH o enfriadores (chillers) existentes, lo que reduce el consumo de energía y permite una operación segura y de alta densidad junto con la infraestructura actual.
Con esta opción de refrigeración de alta densidad a nivel de rack, los equipos no tienen que dedicar tiempo ni experiencia a diseñar e integrar su propia infraestructura lista para la IA, ni comprometer capital en la construcción de una nueva instalación para albergar cargas de trabajo exigentes. Debido a que estas soluciones se entregan como un paquete completo (racks, energía, conectividad y refrigeración), se pueden implementar rápidamente, sin la complejidad asociada con el diseño y la integración tradicionales.