Ir al contenido

Computación Inteligente. Perspectivas Técnicas

¿Por Qué Necesitamos Redes Más Abiertas y Desacopladas en los Centros de Cómputo Inteligente? Parte 1

Antes del surgimiento de la tecnología de inteligencia artificial (IA), los usuarios generalmente utilizaban una arquitectura más simple y directa al construir centros de datos, haciendo hincapié en la conectividad. Con el tiempo, surgió la tecnología de virtualización, allanando el camino para la computación en la nube. Sin embargo, independientemente de su evolución, los centros de datos tradicionales siempre han dependido de las CPU para la computación en serie, proporcionando en última instancia a los usuarios resultados computacionales deterministas.

Con el rápido desarrollo de la tecnología de IA, las GPU se han convertido en un componente central irremplazable en escenarios de computación inteligente. La diferencia clave entre CPU y GPU radica en sus capacidades de procesamiento de datos e inferencia. Las CPU derivan conclusiones precisas basadas en reglas predefinidas y datos deterministas, mientras que las GPU procesan cantidades masivas de datos sin procesar, utilizando entrenamiento e inferencia inteligentes para proporcionar a los usuarios predicciones inciertas, un proceso que los usuarios no pueden controlar por completo.

En este contexto, la red de un centro de cómputo inteligente debe manejar la transmisión de vastas cantidades de datos y frecuentes interacciones internas de datos. Por lo tanto, en comparación con los centros de datos tradicionales, las redes de cómputo inteligente enfrentan mayores desafíos. Estos desafíos no solo implican garantizar la estabilidad de la red durante las computaciones e interacciones de alta velocidad, sino que también requieren una planificación cuidadosa antes de la construcción para maximizar el valor de la inversión


¿Por qué son Necesarias la Apertura y el Desacoplamiento?

Usualmente, al construir una red de cómputo inteligente, la atención tiende a centrarse en las GPU y el hardware de soporte. Sin embargo, debido a las opciones limitadas de GPU disponibles en el mercado, los constructores suelen optar por fabricantes conocidos. Estos fabricantes ofrecen ecosistemas de productos integrales que cubren casi todos los aspectos de un centro de cómputo inteligente, incluyendo switches, módulos ópticos especializados, GPU, servidores, y proporcionan soluciones integradas basadas en estos productos.

Esto crea una idea errónea: muchos usuarios asumen que un centro de cómputo inteligente debe ser una solución de un solo proveedor o "todo en uno". Sin embargo, la infraestructura de red y computación puede adquirirse por separado. Al igual que al construir un centro de datos de propósito general, los usuarios pueden comprar servidores de un proveedor y switches de otro, seleccionando los productos más avanzados en cada categoría para maximizar el valor.

El Valor del Desacoplamiento

  1. Aprovechamiento de las Innovaciones Líderes en Diversos Campos En primer lugar, la computación y las redes son dominios altamente complejos, que involucran componentes como GPU, NIC de red, módulos ópticos y switches, cada uno con docenas o incluso cientos de fabricantes que forman un vasto ecosistema. Al adoptar un enfoque desacoplado, los clientes pueden combinar plataformas de cómputo de IA de vanguardia con conectividad de red de alta calidad, lo que resulta en una solución global superior para los centros de cómputo inteligentes. Además, la introducción de más proveedores evita la dependencia del proveedor (vendor lock-in) y preserva el poder de negociación, reduciendo así los costos de adquisición.
  2. Flexibilidad y Escalabilidad Elegir una arquitectura abierta al construir una red de cómputo inteligente sienta una base flexible para el desarrollo futuro.
    Tomemos Ethernet como ejemplo: su capacidad para integrarse con todas las plataformas de cómputo inteligente, combinada con su naturaleza de estándar abierto, permite la construcción por fases de redes de centros de cómputo inteligente. Esto garantiza una interoperabilidad perfecta con la infraestructura existente, al tiempo que permite una expansión y actualizaciones flexibles para satisfacer las nuevas demandas comerciales. A medida que la tecnología evoluciona, esta arquitectura puede adaptarse a las necesidades futuras, ya sea cambiando de proveedor o actualizando hardware como CPU y GPU, asegurando una escalabilidad fluida.
    Así, una red de cómputo inteligente abierta y desacoplada es crucial para la construcción de centros de cómputo inteligentes y un motor clave para el avance continuo de la tecnología de cómputo inteligente.

Desplegabilidad

Al hacer la transición de los centros de datos tradicionales a los centros de cómputo inteligente, los constructores a menudo caen en otra idea errónea: asumen que simplemente comprar algunas cajas de hardware, emparejarlas con un marco de arquitectura fija y conectar los servidores a la capa "leaf" es suficiente. Sin embargo, los centros de cómputo inteligente difieren fundamentalmente de los centros de datos de propósito general. No solo requieren hardware de alto rendimiento, sino que también exigen una cuidadosa consideración del diseño de arquitectura preparado para el futuro.

Tomemos como ejemplo el equipo de hardware: los centros de cómputo inteligente a menudo incorporan hardware de vanguardia, como GPU de alto rendimiento, módulos ópticos de alta velocidad y switches que soportan puertos de 200G/400G. La complejidad de la selección de tecnología aumenta significativamente, lo que lleva a algunos usuarios a priorizar el rendimiento mientras pasan por alto la desplegabilidad del propio centro de cómputo inteligente.

Numerosas experiencias y casos demuestran que simplemente apilar equipos no crea una red de cómputo inteligente eficiente. En cambio, requiere una planificación, diseño e implementación en profundidad.

  1. Escala de la Red y Selección de Equipos Dadas las características únicas del tráfico, las redes de cómputo inteligente suelen adoptar una arquitectura fat-tree no bloqueante 1:1, que difiere notablemente de las arquitecturas de mayor bloqueo utilizadas en los centros de datos tradicionales. La característica principal de esta arquitectura es que su capacidad está estrechamente ligada al número de puertos de los dispositivos individuales: cuantos más puertos tenga un dispositivo, más exponencialmente podrá escalar la red de cómputo inteligente. Un enfoque ampliamente adoptado es usar dispositivos en formato de caja configurados uniformemente (por ejemplo, productos de 64 puertos 400G) para construir estructuras de red de dos o tres niveles para implementaciones a gran escala. En tales arquitecturas de tres niveles, las capas Core, Spine y Leaf forman múltiples POD, con Spine y Leaf sirviendo como nodos internos y Core manejando la conectividad entre POD. Según el modelo de escala de fat-tree, la capacidad de un solo POD es K2/4, mientras que la capacidad total de todos los POD es K3/4 (donde K representa el número de puertos del dispositivo).
    Durante la fase de planificación inicial, las redes de cómputo inteligente deben tener en cuenta las futuras necesidades de escalado y seleccionar el equipo de red en consecuencia para garantizar que la arquitectura siga siendo flexible y actualizable, adaptándose a las demandas comerciales y las innovaciones tecnológicas en evolución.
  2. Entorno de Instalación y Consumo de Energía Siguiendo el principio de que el número de puertos se correlaciona con la escalabilidad, los switches de chasis (capaces de soportar cientos de puertos) ofrecen una mejor escalabilidad que los switches de caja al mismo costo. Sin embargo, el consumo de energía es una preocupación crítica. Cuando un switch de chasis está completamente configurado con puertos de 400G, su consumo de energía pico puede alcanzar hasta 20 kilovatios, superando con creces la capacidad de los racks de centros de datos tradicionales diseñados para un máximo de 10 kilovatios por gabinete. En contraste, incluso los servidores de alto rendimiento equipados con ocho GPU suelen consumir menos de 10 kilovatios. Si se requieren actualizaciones de infraestructura de energía a gran escala para acomodar el equipo de red, la ventaja de costos se desvanece.
    Por otro lado, si bien una arquitectura completamente de caja puede teóricamente soportar redes de cómputo inteligentes más grandes, no todos los clientes requieren implementaciones tan masivas (por ejemplo, los centros de cómputo inteligentes construidos por empresas suelen ser más pequeños que los de las compañías de internet). Para proyectos de menor escala, una arquitectura de un solo chasis o de múltiples chasis de un solo nivel puede ser más rentable y eficiente, satisfaciendo las necesidades comerciales actuales sin un desperdicio de energía innecesario o costosas reformas.
    Por lo tanto, seleccionar el tipo de switch apropiado (chasis o caja) basándose en la escala real de la red es crucial. Al diseñar la red, se debe lograr un equilibrio entre la escalabilidad y las limitaciones de energía.
  3. Interoperabilidad de Módulos Ópticos En algunos diseños de centros de cómputo inteligentes, un solo rack puede albergar solo un servidor GPU. Como resultado, la distancia entre los switches y los servidores conectados puede variar significativamente. Para abordar esto, es posible que se necesiten múltiples tipos de módulos ópticos para adaptarse a los diferentes requisitos de cableado. Además, dado que los puertos de 400G pueden dividirse para su uso y pueden surgir problemas de interoperabilidad entre los estándares QSFP-112 y QSFP-DD, estas complejidades deben considerarse cuidadosamente durante la fase de planificación.

¿Consideras que la flexibilidad que ofrece el desacoplamiento es más importante que la simplicidad de una solución integrada en el contexto de un centro de cómputo inteligente?

Para decisiones relacionadas con la escala y la alineación de la arquitectura, los clientes pueden buscar asistencia de proveedores profesionales de redes para una planificación detallada. La clave reside en seleccionar equipos con diversos factores de forma y soporte para protocolos abiertos, lo que permite arquitecturas de red flexibles que garantizan tanto la apertura como una alta desplegabilidad.

Tomemos como ejemplo los productos de switches de H3C. La diversidad en los factores de forma, la apertura de protocolos y la flexibilidad arquitectónica los han establecido como referentes en la industria, demostrando una adaptabilidad excepcional en escenarios exigentes de cómputo inteligente. H3C ofrece un portafolio completo de productos de caja y chasis que soportan velocidades desde 100G, 200G, 400G hasta 800G, así como innovadoras soluciones de arquitectura de Conectividad Dinámica Diversificada, adaptándose a centros de cómputo inteligente de todas las escalas y entornos de despliegue.

H3C se adhiere a la filosofía de un ecosistema abierto y desarrollo colaborativo, integrando las fortalezas de los principales fabricantes de chips de switches y aprovechando los protocolos RoCE estandarizados para ofrecer soluciones de red sin pérdidas. Además, sus productos proporcionan interfaces Netconf estándar para una integración perfecta con sistemas de gestión de terceros, como controladores SDN y plataformas en la nube, maximizando los escenarios de aplicación y la compatibilidad con el cliente. En cuanto a la compatibilidad de hardware, H3C ha prevalidado la conectividad de extremo a extremo con las GPU, NIC de red y módulos ópticos principales, asegurando que los clientes puedan desplegar con confianza, libres de preocupaciones de compatibilidad.


Esta es una traducción y adaptación del articulo original pulicado en: https://www.h3c.com/en/Support/Technical_Blogs/Blog/Switches/202506/2544099_294551_0.htm y cuenta con todos los derechos reservados.


Computación Inteligente. Perspectivas Técnicas
Karina Romera Scott 22 de julio de 2025
Compartir
Etiquetas
Archivo
La IA en la red: una herramienta estratégica clave para el desarrollo a largo plazo de las empresas
#H3C