Modo de respuesta con IA
La función «Modo de respuesta con IA » es un sistema de generación aumentada por recuperación (RAG) que combina datos de sitios web en tiempo real, documentos indexados (PDF) y el modelo de lenguaje grande (LLM) Gemini de Google para ofrecer respuestas sintetizadas.
El objetivo es implementar una búsqueda mediante IA basada en la tecnología RAG (Retrieval-Augmented Generation) para el sitio web utilizando la clave de la API de Google Gemini facilitada. Esto permitirá a los usuarios formular preguntas en lenguaje natural y recibir respuestas inteligentes y sintetizadas basadas directamente en el contenido real de su sitio web.
Arquitectura propuesta
Base de datos vectorial (Typesense)
Ya tienes Typesense ejecutándose con un índice llamado pages. Vamos
a ampliar esta configuración sin problemas actualizando el esquema para incluir un campo vectorial de incrustación
de 768 dimensiones (optimizado para Gemini), lo que permite una búsqueda semántica avanzada.
Generación de incrustaciones (Gemini)
Cuando se actualiza el contenido en Craft CMS, aprovechamos el
text-embedding-004 modelo para convertir texto en representaciones vectoriales. Estas se almacenan
junto con los datos habituales para permitir una recuperación híbrida instantánea.
Flujo de trabajo de búsqueda (RAG) Flujo de trabajo en varias etapas
- 1. Consulta del usuario Un visitante interactúa con la interfaz de búsqueda, introduciendo una pregunta en lenguaje natural, una consulta técnica o una solicitud concreta. Esta interacción pone en marcha el ciclo de vida de RAG al captar la intención semántica del usuario en tiempo real.
-
2. Incrustación en tiempo real
El sistema procesa la consulta sin procesar a través de nuestro punto de conexión local personalizado, aprovechando el
text-embedding-001modelo para generar un vector de alta dimensión que represente la intención semántica fundamental de la consulta. - 3. Búsqueda híbrida Llevamos a cabo una búsqueda híbrida avanzada en Typesense, combinando la similitud vectorial con la coincidencia tradicional de palabras clave para identificar los resultados más relevantes a partir de los datos indexados de su sitio web.
- 4. Inyección de contexto El contenido recuperado se incorpora como contexto de «verdad fundamental» privilegiado en la solicitud del modelo de lenguaje grande (LLM). Gemini 2.5 Flash a continuación, genera una respuesta basándose estrictamente en estos datos para garantizar la precisión y una baja latencia.
- 5. Respuesta resumida La respuesta inteligente, generada por IA, se envía a la interfaz junto con los resultados de búsqueda estándar, lo que proporciona al usuario una respuesta completa y contextualizada al instante.
Arquitectura de alto nivel
Un proceso de generación aumentada por recuperación (RAG) en varias etapas, impulsado por Gemini 2.0 Flash.
1. Vectorización de consultas en espacios de alta dimensión
Cuando un visitante envía una consulta, el sistema transforma al instante el lenguaje natural sin procesar
en un vector matemático de alta dimensión utilizando tecnología de vanguardia
text-embedding-004 modelo.
- Reconocimiento profundo de la intención Más allá de las simples palabras clave, para captar la intención semántica: asignando automáticamente consultas como «problemas de arranque» a las «especificaciones técnicas del alternador y la batería» pertinentes.
- Precisión de alta resolución Aprovechamiento de representaciones optimizadas de 768 dimensiones para garantizar la máxima precisión en la identificación de las relaciones entre piezas técnicas de automoción y su relevancia contextual.
- Transformación en tiempo real El proceso de vectorización está optimizado para una latencia inferior a 100 ms, lo que proporciona una base instantánea para el proceso híbrido de recuperación.
2. Búsqueda híbrida semántica y de alto rendimiento
Utilizamos Typesense como nuestro motor de búsqueda vectorial de alto rendimiento, aplicando una sofisticada estrategia de recuperación híbrida que combina la intención semántica con la precisión de las palabras clave .
- Coincidencia de vectores neuronales La búsqueda de similitud vectorial de alta velocidad compara la representación de la consulta con vectores almacenados de 768 dimensiones para identificar datos técnicos relevantes en el contexto.
- Clasificación de palabras clave en texto completo Realiza simultáneamente una búsqueda de coincidencias de texto tradicional para aislar números de referencia técnicos, SKU y terminología exacta que podrían perderse en el espacio semántico puro.
- Fusión de resultados ponderados Integra las puntuaciones vectoriales con las ponderaciones de las palabras clave para proporcionar un conjunto unificado y reordenado de los fragmentos de contexto más reputados para el motor de razonamiento.
collections/pages
collections/ai_documents_vuk
3. Ingestión multimodal e inteligencia contextual
En el caso de documentación técnica compleja, como la garantía de las baterías ACDelco, la arquitectura utiliza un procesamiento multimodal avanzado para transcribir y estructurar datos no estructurados.
- Ingestión estructural Gemini procesa escaneos y manuales en formato PDF mediante visión multimodal, transcribiendo tablas y diagramas a un formato Markdown limpio, al tiempo que conserva estrictamente la jerarquía estructural original.
- Ensamblaje dinámico de conocimientos Los fragmentos más relevantes se combinan mediante programación para formar una «base de conocimientos privilegiada» única y específica para cada consulta, que sirve como referencia de referencia para la generación de respuestas.
- Fragmentación granular Los documentos se dividen en segmentos muy específicos para garantizar la máxima precisión en la búsqueda y evitar sobrecargar el motor de razonamiento con información irrelevante.
4. Generación estratégica de respuestas (Gemini)
En esta etapa final, el sistema envía los fragmentos de conocimiento seleccionados y la consulta original a Gemini 2.5 Flash (última versión) para que realice un razonamiento basado en el contexto y una síntesis.
- Enfoque contextual Gemini actúa como un motor de razonamiento que sintetiza los resultados de búsqueda procedentes de múltiples fuentes en una respuesta técnica coherente y firmemente basada en los datos recuperados.
-
Precisión determinista
La temperatura se mantiene exactamente a
0.2para garantizar una creatividad mínima y una alta fiabilidad factual, eliminando así de forma efectiva el riesgo de alucinaciones de la IA. - Flash Inference Aprovechando la arquitectura de baja latencia del modelo Flash, el sistema proporciona respuestas sintetizadas en menos de un segundo directamente a la interfaz del usuario final.