Más allá de RAG: cómo la generación con caché aumentada reduce la latencia y la complejidad para cargas de trabajo más pequeñas


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


La generación de recuperación aumentada (RAG) se ha convertido en una forma de facto de personalizar grandes modelos lingüísticos (LLM) para obtener información personalizada. Sin embargo, RAG conlleva costos tecnológicos iniciales y es lento. Ahora, gracias al avance de los LLM de contexto largo, las empresas pueden evitar el RAG al incluir toda la información de propiedad en el mensaje.

A Un nuevo estudio Al utilizar LLM de contexto largo y técnicas de almacenamiento en caché de la Universidad Nacional Chengchi en Taiwán, puede crear aplicaciones personalizadas que eviten las canalizaciones RAG. Este enfoque, llamado generación aumentada de caché (CAG), es un reemplazo simple y eficiente de RAG en entornos empresariales donde el modelo de corpus de conocimiento encaja dentro de la ventana de contexto.

Limitaciones de RAG

RAG es un método eficaz para manejar consultas de dominio abierto y tareas especializadas. Utiliza algoritmos de recuperación para recopilar documentos relevantes para la solicitud y agrega contexto para permitir que LLM genere respuestas más precisas.

Sin embargo, RAG introduce varias limitaciones a las solicitudes de LLM. El paso de actualización agregado introduce una latencia que puede degradar la experiencia del usuario. El resultado también depende de la calidad de la selección de documentos y de la etapa de clasificación. En muchos casos, las limitaciones de los modelos utilizados para la recuperación requieren dividir los documentos en partes más pequeñas, lo que compromete el proceso de recuperación.

Y, en general, RAG añade complejidad a la aplicación LLM, requiriendo el desarrollo, integración y mantenimiento de componentes adicionales. Los gastos generales adicionales ralentizan el proceso de desarrollo.

Recuperación aumentada de caché

RAG (arriba) vs CAG (abajo) (Fuente: arXiv)

Una alternativa al desarrollo de una canalización RAG es insertar todo el corpus del documento en un mensaje y modelar los bits relevantes para la solicitud. Este enfoque elimina la complejidad de la canalización RAG y los problemas causados ​​por errores de recuperación.

Sin embargo, la distribución anticipada de todos los documentos en el mensaje presenta tres desafíos clave. Primero, las indicaciones largas ralentizan el modelo y aumentan los costos de inferencia. En segundo lugar, la longitud de la ventana de contexto de LLM establece límites a la cantidad de documentos que pueden caber en el mensaje. Finalmente, agregar información irrelevante a la pregunta confunde al modelo y reduce la calidad de sus respuestas. Por lo tanto, completar todos los documentos en el mensaje en lugar de seleccionar los más relevantes perjudicará el rendimiento del modelo.

Para superar estos desafíos, el enfoque del CAG ha influido en tres tendencias clave.

En primer lugar, las técnicas avanzadas de almacenamiento en caché hacen que el procesamiento de las plantillas de avisos sea más rápido y económico. La premisa de CAG es que los documentos de conocimiento se incluyen en cada mensaje enviado al modelo. Por lo tanto, puede calcular los valores de atención de sus tokens por adelantado en lugar de hacerlo mientras recibe las solicitudes. Este cálculo previo reduce el tiempo que lleva procesar las solicitudes de los usuarios.

Los principales proveedores de LLM, como OpenAI, Anthropic y Google, ofrecen funciones de almacenamiento en caché de mensajes para repetir partes de su mensaje, incluidos documentos de conocimiento y referencias que inserta al comienzo de su mensaje. Con Anthropic, puede reducir los costos de las partes almacenadas en caché de su mensaje hasta en un 90 % y la latencia hasta en un 85 %. Se han desarrollado funciones de almacenamiento en caché equivalentes para plataformas de alojamiento LLM de código abierto.

En segundo lugar, los LLM de contexto largo facilitan la inclusión de más documentos y conocimientos en las indicaciones. Claud 3.5 Sonnet admite 200.000 tokens, mientras que GPT-4o admite 128.000 tokens y Gemini 2 millones de tokens. Esto hace posible incluir varios documentos o libros completos en un mensaje.

Finalmente, los métodos de entrenamiento avanzados permiten a los modelos recuperar, razonar y responder mejor preguntas en secuencias muy largas. Durante el año pasado, los investigadores desarrollaron varios puntos de referencia de LLM para tareas de largo alcance. Bebé largo, BANCO LARGOY el gobernante. Estos puntos de referencia evalúan a los LLM en problemas difíciles como la recuperación múltiple y la respuesta a preguntas de múltiples saltos. Todavía hay margen de mejora en este ámbito, pero los laboratorios de IA siguen avanzando.

A medida que las nuevas generaciones de modelos continúan ampliando sus ventanas de contexto, pueden procesar colecciones de conocimientos más grandes. Además, podemos esperar que los modelos sigan mejorando sus capacidades para capturar y utilizar información relevante de contextos de largo plazo.

«Estas dos tendencias amplían significativamente la utilidad de nuestro enfoque, permitiéndole manejar aplicaciones más complejas y diversas», escriben los investigadores. «Como resultado, nuestra metodología se convierte en una solución sólida y versátil para tareas intensivas en conocimiento, aprovechando las crecientes capacidades de la próxima generación de LLM».

RAG frente a CAG

Para comparar RAG y CAG, los investigadores experimentaron con dos puntos de referencia de preguntas y respuestas ampliamente reconocidos: EquipoSe centra en preguntas y respuestas contextuales de documentos individuales y HotPotQAEsto requiere un razonamiento de múltiples saltos en múltiples documentos.

Utilizaron el modelo LAMA-3.1-8B con una ventana de contexto de 128.000 tokens. Para RAG, combinaron LLM con dos sistemas de recuperación para recuperar los componentes de la consulta: básico algoritmo BM25 e incrustaciones de OpenAI. Para CAG, insertan varios documentos del punto de referencia en el mensaje y dejan que el modelo decida qué partes usar para responder la consulta. Sus experimentos muestran que CAG supera a ambos sistemas RAG en la mayoría de los casos.

CAG supera tanto al RAG escaso (recuperación de BM25) como al RAG denso (incrustaciones de OpenAI) (fuente: arXiv)

«Al precargar todo el contexto del conjunto de prueba, nuestro sistema elimina los errores de recuperación y garantiza un razonamiento perfecto sobre toda la información relevante», escriben los investigadores. «Esta ventaja es particularmente evidente en los casos en que los sistemas RAG pueden recuperar piezas incompletas o irrelevantes, lo que lleva a una generación de respuestas subóptima».

CAG también reduce significativamente el tiempo para generar una respuesta, especialmente a medida que aumenta la longitud del texto de referencia.

El tiempo de generación de CAG es mucho más corto que el de RAG (Fuente: arXiv)

Dicho esto, COG no es una solución milagrosa y debe usarse con precaución. Es más adecuado para entornos donde la base de conocimientos no cambia con frecuencia y es lo suficientemente pequeña como para caber dentro de la ventana de contexto del modelo. Las empresas también deben tener cuidado en los casos en que sus documentos contengan hechos contradictorios basados ​​en el contexto de los documentos, lo que puede confundir el modelo durante la inferencia.

La mejor manera de determinar si CAG es bueno para su caso de uso es realizar algunos experimentos. Afortunadamente, la implementación de CAG es relativamente fácil y siempre debe considerarse como un primer paso antes de invertir en soluciones RAG de desarrollo más intensivo.


Source link

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba