Skip to content

 

Cloud Alto Rendimiento IA 

El paradigma estrella en 2026 continúa siendo la Inteligencia Artificial, ahora orientada también a los Agentes IA. Este paradigma requiere de fuertes inversiones en los Datacenters y es muy exigente en cuanto a requisitos y recursos.

Recientemente, Microsoft  ha escrito artículos y está realizando presentaciones junto con Cisco (NANOG 96, Rita hui y Pablo Camarillo) en las que, para los backends IA, SRv6 se postula como una tecnología imprescindible en el networking del Datacenter, a pesar de que es una aproximación que viene del mundo de las comunicaciones WAN.

  • Microsoft está redefiniendo el backend fabric de IA, con SRv6, permitiendo un control de tráfico de gran precisión, enumeración de rutas y programación de flujos AI‑aware para lograr rendimiento y resiliencia a escala hyperscale.

Como se muestra en el diagrama (Fuente: Rita Hui, Principal Software Manager, Microsoft), los backends IA en los datacenters presentan una serie de requisitos específicos:

  • Flujos grandes y de larga duración de datos de entrenamiento
  • Grandes ráfagas de datos enviados de forma síncrona
  • Los largos tiempos de entrenamiento requieren redes fiables
  • Los reintentos de trabajos fallidos aumentan los costes
    • Gestión de tráfico eficiente, monitorización y visibilidad
  • Las aplicaciones de IA necesitan procesamiento y respuestas rápidas
  • Tráfico sin pérdidas y con baja latencia
  • El tráfico que usa RoCEv2 tiene baja entropía para ECMP
    • Tecnología de traffic engineering para la red de backend de IA
SRv6 (Segmentacion a nivel IP) soluciona estos problemas  porque se puede encaminar desde origen (NIC o DPU) con la ruta que se quiere que el paquete siga en el fabric del backedn IA/DC.
SRv6 convierte la red del Backend IA (o todo el DC) en una solución staless (la infra no se tiene que adaptar, es la fuente la que cambia la ruta),  determinista y programable del clúster de GPUs. Las redirecciones son instantáneas (a velocidad de GPU porque las hace el origen) y hay visibilidad de todo el proceso (de forma estandarizada y abierta).
 
Los principios de diseño de la solución técnica serían:

De manera más detallada, los beneficios en el DC son:

  • SRv6 proporciona programabilidad del transporte — direccionamiento de rutas, aislamiento de tráfico y telemetría in‑network sobre IPv6 estándar.
  • El enrutamiento multipath y path‑aware en SRv6 puede mejorar los mecanismos de control de congestión y balanceo de carga de UEC.
  • La programación de red SRv6 (SIDs) permite la colocación dinámica de cargas de trabajo de IA o funciones de control entre dominios.

 

Cloud Alto Rendimiento Servicios Masivos

Las nubes públicas, y más concretamente AWS, son desde hace un par de años los actores de Internet que más están impulsando con más fuerza y visibilidad el uso de IPv6, especialmente para empresas. Veamos por qué.

Las nubes públicas están acaparando gran parte de los servicios de multitud de negocios digitales de éxito y aplicativos corporativos, que antes se prestaban desde datacenters privados.

Debido a su enorme escala y volúmenes de negocio, estas nubes públicas tienen mayores posibilidades de optimización e innovación con impacto real. Así, han identificado que las limitaciones del direccionamiento IPv4 traen consigo arquitecturas de networking en los backend muy complejas y con mayor probabilidad de fallo, por lo que están impulsando a sus clientes a utilizar IPv6 (e IPv6-only) en los entornos Cloud empleando el soporte y las herramientas que están anunciando proactivamente.

El líder indiscutible en este movimiento  e impulsor de IPv6 a nivel de comunidad a día de hoy es sin ninguna duda AWS. Precisamente, por este motivo, siendo el líder actual en servicios en la nube, AWS ha migrado muchos de sus entornos y herramientas para evangelizar a sus grandes clientes sobre el uso de IPv6-only en los backends.

A nivel técnico, en los populares entornos de microservicios en Cloud, cuando interconectamos clusters de Kubernetes, es imprescindible crear una red overlay, ya que no se pueden enrutar direcciones privadas sobre Internet.

Esto complica el diseño y operación de los ecosistemas de microservicios basados en kubernetes, especialmente cuando manejamos cierto número de clusters ya que tendrán que interconectarse con túneles a modo de VPN haciendo muy complicado el escalado. Además, tendremos que decidir qué topología usaremos: full-mesh, hub&spoke, star, etc.

 

Sin embargo, como puede verse en el diagrama a la derecha, hay una solución mucho más sencilla, que es emplear direcciones IPv6 públicas en nuestros cluster. Obviamente habrá que filtrar convenientemente el tráfico, para lo que la agregación de direcciones IPv6 será un aliado importante.

Uno de los embajadores de los backends v6-only en la nube para lograr una hiperescalabilidad y eficiencia es Netflix.

Cómo usa Nextflix IPv6 para escalar su Networking

Si quieres saber más sobre cómo utilizar IPv6 en Kubernetes para simplificar tus servicios en la nube, te recomendamos este artículo: “Kubernetes multi-cluster networking made simple”.

Estad atentos! Pronto pondremos enlaces en esta página a los documentos accesibles y a nuestra página de la Comunidad de Cloud del Council.

 

 

Otras secciones relevantes de Cloud de Alto Rendimiento en esta WEB:

  • Azure (en construcción)
  • GCP (en construcción)