Această veste vine într-un moment în care dezvoltatorii se confruntă cu costuri din ce în ce mai mari pentru utilizarea modelelor de inteligență artificială avansate. În trecut, Google oferea o formă de cache explicit, ce presupunea ca dezvoltatorii să definească manual conținutul frecvent utilizat. Deși promitea economii, acest sistem a fost considerat greoi și ineficient de mulți utilizatori, mai ales în cazul modelului Gemini 2.5 Pro, unde au apărut plângeri privind facturi API neașteptat de mari.
Prin comparație, implicit caching este complet automat și activat implicit pentru modelele Gemini 2.5. Când o solicitare API conține un prefix comun cu o solicitare anterioară, aceasta este eligibilă pentru o „lovitură în cache” și astfel, dezvoltatorul beneficiază automat de reduceri de cost, scrie TechCrunch.
„Dacă trimiți o cerere către unul dintre modelele Gemini 2.5 și cererea are un prefix comun cu una anterioară, atunci este eligibilă pentru caching,” a explicat Google într-un articol de blog. „Economiile vor fi aplicate automat.”
Pentru a beneficia de funcția de implicit caching, solicitările trebuie să depășească 1.024 de tokeni pentru modelul 2.5 Flash și 2.048 pentru 2.5 Pro. Aceste limite sunt considerate relativ mici și ușor de atins în scenarii obișnuite. Tokenii reprezintă unități de date brute procesate de modele AI, iar 1.000 de tokeni echivalează cu aproximativ 750 de cuvinte.
Totuși, Google nu a oferit încă o verificare independentă a economiilor promise, ceea ce ridică semne de întrebare pentru dezvoltatori. În plus, pentru a maximiza eficiența noului sistem, compania recomandă plasarea conținutului repetitiv la începutul solicitărilor, iar variațiile la final.