How vLLM accelerates AI inference: 3 enterprise use cases

URL kopieren

vLLM is an inference server that speeds up gen AI inference in large language models (LLMs) by making better use of memory storage and graphics processing units (GPUs). 

Using GPUs more efficiently helps LLMs perform calculations faster and at scale. This becomes increasingly important when organizations need real-time applications like chatbots or multimodal workflows. 

This article highlights 3 real-world examples of how well-known companies are successfully using vLLM.

Get an in-depth overview of vLLM

During inference, LLMs rely on key values to do a lot of math in a short period of time. 

LLMs use key values to attach a numerical value to tokens (terms or phrases) to understand language and calculate answers. So, every token (key) is associated with a number (value) that allows the LLM to calculate a response. 

AI inference uses key values during its 2 main phases: 

  • Prefill is when the model processes the input prompt. The key values for each token create the key value (KV) cache, which serves as the model’s short-term memory.
  • Decode is when the model generates new tokens. It uses the existing KV cache to calculate the key values of a response. 

LLMs store key values for every processed token in the KV cache. Since the cache grows according to prompt length and output generation, it takes up a lot of LLM memory storage. Traditional LLM memory management systems don’t organize calculations or use memory in the most efficient way, causing LLMs to move slowly. 

vLLM uses a memory management technique that understands how KV cache is used during inference. It retrieves cache data in a way that identifies repetitive key values to help prevent memory fragmentation and reduce extra work for the LLM. This makes GPU memory usage more efficient and LLM inference faster. 

Read about the benefits of scaling AI 

4 wichtige Überlegungen zur Implementierung von KI-Technologie

Hub

Künstliche Intelligenz (KI) bei Red Hat

Von Live-Veranstaltungen über praktische Produktdemos bis hin zu fundierter technischer Forschung – erfahren Sie, was wir bei Red Hat mit KI erreichen.

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

In diesem Guide für den Einstieg erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die KI-Einführung beschleunigen können.

Weiterlesen

RAG im Vergleich zu Fine Tuning: LLMs optimal anpassen

RAG (Retrieval-Augmented Generation) oder Fine Tuning? Erfahren Sie, welche LLM-Methode für die Anpassung an Ihre Unternehmensdaten am besten geeignet ist.

Was sind Granite-Modelle? Large Language Models für KI

Granite sind LLMs von IBM für Unternehmensanwendungen. Granite-Modelle unterstützen Use Cases für gen KI, die Sprache und Code enthalten. Einsatz und Vorteile

Was ist verteilte Inferenz?

Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird.

Ressourcen zu KI/ML

Ausgewähltes Produkt

  • Red Hat AI

    Flexible Lösungen, die die Entwicklung und Bereitstellung von KI-Lösungen in Hybrid Cloud-Umgebungen beschleunigen.

Verwandte Artikel