Cloudflare Workers AI - Ejecuta inferencia de IA en el edge

2025.12.05

Qué es Workers AI

Cloudflare Workers AI es un servicio que permite ejecutar modelos de IA en la red edge de Cloudflare. Realiza inferencia de IA con baja latencia y procesa datos sin enviarlos a la nube.

Modelos compatibles

Generación de texto (LLM)

ModeloCaracterísticas
Llama 3 8BPropósito general, alto rendimiento
Mistral 7BRápido, eficiente
Gemma 7BDesarrollado por Google, ligero
Phi-2Desarrollado por Microsoft, compacto

Imagen y visión

ModeloUso
Stable Diffusion XLGeneración de imágenes
LLaVAComprensión de imágenes
CLIPClasificación de imágenes

Audio

ModeloUso
WhisperReconocimiento de voz
TTSTexto a voz

Uso básico

Generación de texto

// src/index.ts
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: 'Eres un asistente amable.' },
        { role: 'user', content: 'Dime 3 ventajas de TypeScript' }
      ]
    });

    return Response.json(response);
  }
};

Respuesta en streaming

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const stream = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'user', content: 'Explica el futuro de la IA' }
      ],
      stream: true
    });

    return new Response(stream, {
      headers: { 'content-type': 'text/event-stream' }
    });
  }
};

Generación de imágenes

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/stabilityai/stable-diffusion-xl-base-1.0', {
      prompt: 'A futuristic city with flying cars, cyberpunk style',
      num_steps: 20
    });

    return new Response(response, {
      headers: { 'content-type': 'image/png' }
    });
  }
};

Análisis de imágenes

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const imageData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/llava-hf/llava-1.5-7b-hf', {
      image: [...new Uint8Array(imageData)],
      prompt: '¿Qué hay en esta imagen?',
      max_tokens: 512
    });

    return Response.json(response);
  }
};

Reconocimiento de voz

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const audioData = await request.arrayBuffer();

    const response = await env.AI.run('@cf/openai/whisper', {
      audio: [...new Uint8Array(audioData)]
    });

    return Response.json({
      text: response.text,
      language: response.detected_language
    });
  }
};

Integración con Vectorize

// Implementación de RAG (Generación Aumentada por Recuperación)
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const question = await request.text();

    // Vectorizar la pregunta
    const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: question
    });

    // Buscar documentos similares en la base de datos vectorial
    const matches = await env.VECTORIZE.query(embedding.data[0], {
      topK: 3
    });

    // Hacer que el LLM responda usando el contexto
    const context = matches.map(m => m.metadata.text).join('\n');

    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'system', content: `Responde usando el siguiente contexto:\n${context}` },
        { role: 'user', content: question }
      ]
    });

    return Response.json(response);
  }
};

Estructura de precios

Pago por uso:
- Generación de texto: $0.011 / 1,000 neurons
- Generación de imágenes: $0.01 / imagen
- Reconocimiento de voz: $0.01 / minuto

Nivel gratuito:
- Hasta 10,000 neurons por día gratis

Despliegue

# wrangler.toml
[ai]
binding = "AI"

# Desplegar
npx wrangler deploy

Casos de uso

✓ Chatbots
✓ Generación de contenido
✓ Pipeline de procesamiento de imágenes
✓ Transcripción de audio
✓ Generación Aumentada por Recuperación (RAG)
✓ Moderación de contenido

Resumen

Cloudflare Workers AI es una plataforma potente que permite ejecutar inferencia de IA en el edge. Con baja latencia, distribución global y API simple, facilita el desarrollo de aplicaciones de IA.

← Volver a la lista