Try OpenAI's latest and smartest model o1

Try it now

Table of Contents

    So beheben Sie OpenAI Rate Limits & Timeout-Fehler.

    LLMs werden allmählich in einer Vielzahl von Anwendungsfällen eingesetzt. Dazu gehören Übersetzung, Stimmungsanalyse, Codegenerierung, Blogs, E-Mails usw. Die direkte Integration der OpenAI-API in Ihre Produktion ist jedoch mit einigen Problemen verbunden, da sie noch relativ neu ist. Ihre APIs bieten keine SLAs und keine Garantie für die Betriebszeiten oder gar die Leistung des Dienstes. Es gibt immer noch Ratenbeschränkungen für Token pro Sekunde und Anfragen pro Sekunde.

    LLMs werden allmählich in einer Vielzahl von Anwendungsfällen eingesetzt. Dazu gehören Übersetzung, Stimmungsanalyse, Codegenerierung, Blogs, E-Mails usw. Die direkte Integration der OpenAI-API in Ihre Produktion ist jedoch mit einigen Problemen verbunden, da sie relativ neu ist. Ihre APIs bieten keine SLAs und keine Garantie für die Betriebszeiten oder gar die Leistung des Dienstes. Es gibt immer noch Ratenbeschränkungen für Token pro Sekunde und Anfragen pro Sekunde.

    OpenAI empfiehlt die Verwendung verschiedener Techniken, um dies abzumildern. Lassen Sie uns ein paar davon kurz erkunden.

    Exponentieller Backoff

    Exponential Backoff ist eine Strategie zur Handhabung von Ratenbeschränkungen, bei der die Zeit zwischen aufeinanderfolgenden Wiederholungsversuchen im Falle eines ratenbeschränkenden Fehlers schrittweise erhöht wird. Nachfolgend ein Beispiel in Node.Js:

    const axios = require('axios'); // Stellen Sie sicher, dass Sie axios mit npm oder yarn installieren. const BASE_URL = 'https://api.openai.com/v1/chat/completions'; async function makeRequestWithBackoff(endpoint, params, retries = 3, backoffDelay = 500) { try { const response = await axios.post(endpoint, params, { headers: { 'Content-Type': 'application/json', 'Authorization': `Bearer YOUR_OPENAI_API_KEY`, }, }); return response.data; } catch (error) { if (error.response && error.response.status === 429 && retries > 0) { // 429 ist der HTTP-Statuscode für Too Many Requests // Warte auf eine zufällige Verzögerung, die mit jedem Wiederholungsversuch exponentiell ansteigt const delay = Math.random() * backoffDelay; console.log(`Rate limit hit, retrying in ${delay}ms`); await new Promise((resolve) => setTimeout(resolve, delay)); return makeRequestWithBackoff(endpoint, params, retries - 1, backoffDelay * 2); } else { // Wenn es sich nicht um einen Ratenbegrenzungsfehler handelt oder die Anzahl der Wiederholungsversuche abgelaufen ist, wird der Fehler geworfen throw error; } } } const params = { messages: [ {role : "user", content: "Hi, Who are you?" } ] max_tokens: 50, model: "gpt-3.5-turbo" }; makeRequestWithBackoff(BASE_URL, params) .then(data => console.log(data)) .catch(error => console.error(error));
    

    Sie können die Logik sogar ändern, um den exponentiellen Backoff in einen linearen oder zufälligen zu ändern.

    Batching

    OpenAI erlaubt auch Batch-Anfragen am Endpunkt /completions. Dies kann funktionieren, wenn Sie auf Anfragen pro Sekunde stoßen, aber gut auf Token pro Sekunde sind. Aber denken Sie daran, dass diese API veraltet ist. Verwenden Sie das gleiche Beispiel wie oben:

    const BASE_URL = "https://api.openai.com/v1/completions"; const params = { model: "curie", prompts: [ "Es war einmal ein Hund", "Es war einmal eine Katze", "Es war einmal ein Mensch" ] }; makeRequestWithBackoff(BASE_URL, params) .then(data => console.log(data)) .catch(error => console.error(error));
    

    Es gibt noch weitere Techniken, die Sie zusätzlich zu diesen verwenden können.

    Zwischenspeichern

    Oftmals fragen Ihre Benutzer das Gleiche ab. Eine einfache oder semantische Caching-Schicht über Ihrer Anfrage kann Ihnen helfen, Kosten und Anfragezeit zu sparen. Aber in diesem Zusammenhang wird es die Aufrufe an OpenAI reduzieren.

    Wechseln zwischen OpenAI und Azure.

    Sie können sich für den OpenAI-Service von Azure bewerben und einen Lastausgleich zwischen beiden Anbietern einrichten. Auf diese Weise können Sie, selbst wenn einer der beiden Anbieter ausfällt oder langsam ist, zum anderen Anbieter wechseln.

    Antworten immer streamen

    Die OpenAI-API bietet eine Streaming-Funktion, die es uns ermöglicht, partielle Modellantworten in Echtzeit zu erhalten, während sie generiert werden. Dieser Ansatz bietet einen erheblichen Vorteil gegenüber herkömmlichen Aufrufen ohne Streaming, bei denen Sie möglicherweise nichts von möglichen Zeitüberschreitungen mitbekommen, bis die gesamte Antwortdauer verstrichen ist, die je nach Ihren Anfangsparametern wie der Komplexität der Anfrage und der Anzahl der angegebenen max_tokens variieren kann.

    Streaming stellt sicher, dass das Modell unabhängig von der Größe der Anfrage oder der eingestellten max_tokens in der Regel innerhalb der ersten 5-6 Sekunden mit der Lieferung von Tokens beginnt. Sollte es zu einer Verzögerung über dieses kurze Zeitfenster hinaus kommen, so ist dies ein frühes Anzeichen dafür, dass die Anfrage möglicherweise eine Zeitüberschreitung aufweist oder nicht wie erwartet verarbeitet wurde. Wir können solche Anfragen abbrechen und sie erneut versuchen.

    Einrichten von Fallbacks

    Für bestimmte Anwendungsfälle, in denen es in Ordnung ist, Antworten von anderen Modellen zu erhalten, können Sie Fallbacks zu anderen Modellen einrichten. Die besten Alternativen könnten Llama-70b, Gemini oder andere kleinere Modelle wie MIXTRAL 8X7B, Claude Instant usw. sein, um nur einige zu nennen. Dies sind einige gängige Techniken, die zur Abmilderung von Fehlern in produktionsreifen Anwendungen eingesetzt werden können.

    Das war's. Vielen Dank für die Lektüre, und folgen Sie uns auf Merlin @ Twitter Wir von Merlin API bieten all diese Funktionen und noch viel mehr mit mehr als 20 Modellen zur Auswahl an. Wir konzentrieren uns auf die Zuverlässigkeit der API und kümmern uns um alle Umschaltungen, Fallbacks, Caching und die Handhabung von Ratenbegrenzungen. Wir bieten eine einheitliche API und verwenden ein Antwortformat für alle Modelle.

    Ein kleines Beispiel für die Verwendung der Merlin-API mit Node.js:

    import { Merlin } from "merlin-node"; // npm install merlin-node // WARNUNG: Test-Api-Schlüssel // Ersetzen Sie ihn durch Ihren API-Schlüssel aus dem Merlin Dashboard // https://api.getmerlin.in const apiKey = "merlin-test-3b7d-4bad-9bdd-2b0d7b3dcb6d"; const Merlin = new Merlin({ merlinConfig: { apiKey } }); const initChat = { role: "system", content: "Du bist ein hilfreicher Assistent." 
    } async function createCompletion() { try { const completion = await Merlin.chat.completions.create({ messages: [initChat], model: "gpt-3.5-turbo", // 20+ Modelle nach Bedarf }); } catch (error) { console.error("Fehler beim Erstellen der Vervollständigung:", error); } } createCompletion();
    

    Experience the full potential of ChatGPT with Merlin

    Author
    Kalpna Thakur

    Kalpna Thakur

    Unser Marketing-Powerhouse entwickelt innovative Lösungen für jede Wachstumsherausforderung - und dabei bleibt der Spaß in unserem Team!

    Published on : 19th December 2023, Tuesday

    Last Updated : 18th December 2024, Wednesday

    Read more blogs

    Cover Image for OpenAI O1: Ein neues Paradigma der KI
    OpenAI O1: Ein neues Paradigma der KI
    2024-09-12 | 3 min. read
    OpenAI hat ein neues Flaggschiff-Modell namens O1 auf den Markt gebracht, das selbständig "denken" kann, was zu einem neuen Paradigma in der KI und den LLMs führt
    Cover Image for ChatGPT 4 Vs ChatGPT 4o | Ist GPT 4o besser als GPT 4?
    ChatGPT 4 Vs ChatGPT 4o | Ist GPT 4o besser als GPT 4?
    2024-06-03 | 6 min. read
    Haben Sie sich jemals gefragt, ob ChatGPT-4o wirklich ein Upgrade von ChatGPT-4 ist? Damit sind Sie nicht allein. In diesem Blog gehen wir auf die kleinen Details ein, die diese beiden KI-Modelle voneinander unterscheiden.
    Cover Image for Insider-Tipps: Wie man mit GPT-4, GPT-4 Turbo und GPT-4o dominiert
    Insider-Tipps: Wie man mit GPT-4, GPT-4 Turbo und GPT-4o dominiert
    2024-05-30 | 5 min. read
    Stellen Sie sich vor, Sie hätten die Leistungsfähigkeit modernster KI-Modelle zur Hand. In diesem Leitfaden erfahren Sie alles über die Verwendung von GPT-4, GPT-4 Turbo und GPT-4o. Egal, ob Sie ein Technik-Enthusiast oder ein Profi sind, der KI für seine Projekte nutzen möchte, wir bieten Ihnen praktische Einblicke und Schritt-für-Schritt-Anleitungen.
    Cover Image for Holen Sie sich ChatGPT-4o KOSTENLOS mit unbegrenzten Eingabeaufforderungen! - Wie man GPT 4o benutzt
    Holen Sie sich ChatGPT-4o KOSTENLOS mit unbegrenzten Eingabeaufforderungen! - Wie man GPT 4o benutzt
    2024-05-28 | 7 min. read
    Dieser umfassende Leitfaden führt Sie durch die besten Methoden, mit denen Sie das leistungsstarke Sprachmodell von OpenAI optimal nutzen können, ohne einen Cent auszugeben. Verbessern Sie Ihre Inhaltserstellung, automatisieren Sie Aufgaben und erkunden Sie das grenzenlose Potenzial von KI mit unseren Schritt-für-Schritt-Anleitungen und wertvollen Tipps.
    Cover Image for Die Kunst, ChatGPT die richtigen Fragen zu stellen: Unlock Hidden Features von Chatbots in 2024
    Die Kunst, ChatGPT die richtigen Fragen zu stellen: Unlock Hidden Features von Chatbots in 2024
    2024-05-27 | 6 min. read
    Wenn Sie die Kunst der Befragung von ChatGPT beherrschen, können Sie Ihre Interaktionen und Ergebnisse erheblich verbessern. Erfahren Sie, wie Sie die nuancierten Fähigkeiten von Chatbots nutzen können, um auf versteckte Funktionen zuzugreifen, die Ihre Interaktionen im Jahr 2024 produktiver und aufschlussreicher machen werden. Von praktischen Tipps bis hin zu Ratschlägen von Experten - dieser Leitfaden ist Ihr Schlüssel zur Verbesserung Ihrer Chatbot-Erfahrung.
    Cover Image for Die besten ChatGPT-Aufforderungen zum Schreiben von Forschungsarbeiten, die Sie kennen müssen
    Die besten ChatGPT-Aufforderungen zum Schreiben von Forschungsarbeiten, die Sie kennen müssen
    2024-04-29 | 5 min. read
    Erschließen Sie die Leistungsfähigkeit von ChatGPT mit personalisierten Eingabeaufforderungen! Optimieren Sie Ihre Interaktionen, sparen Sie Zeit, erhalten Sie maßgeschneiderte Antworten für alle Ihre Bedürfnisse und vieles mehr.
    Cover Image for GPT-4 vs. GPT-4 Turbo: Welches ist das richtige?
    GPT-4 vs. GPT-4 Turbo: Welches ist das richtige?
    2024-04-16 | 5 min. read
    Sowohl das GPT-4- als auch das GPT-4-Turbo-KI-Modell prägen mit ihren fortschrittlichen Funktionen die KI-Landschaft. Dennoch gibt es Unterschiede in Bezug auf den Anwendungsfall, die Geschwindigkeit, die Effizienz und die Kosten. In diesem Blog lernen Sie diese Unterschiede im Detail kennen, um die perfekte Wahl für Sie zu treffen.
    Cover Image for Die besten AI-Tools für Lehrkräfte in der Hochschulbildung
    Die besten AI-Tools für Lehrkräfte in der Hochschulbildung
    2024-04-16 | 5 min. read
    Entdecken Sie die besten KI-Tools für Pädagogen! Personalisieren Sie das Lernen, steigern Sie die Produktivität und erstellen Sie mühelos ansprechende Lektionen für Schüler, um das Lernen erlebnisreich zu gestalten.