AI 10. Dec 2024 5 min čítania

Google Gemini 2.0: Multimodálny kráľ?

Video ako input

Google v decembri ukázal svaly. Nový model Gemini 2.0 nie je len o texte, ale o natívnom porozumení svetu. Už nemusíme popisovať problém textom. Stačí ukázať kamere kód na obrazovke a Gemini nájde chybu v reálnom čase, pričom s vami konverzuje bez oneskorenia.

Multimodalita v praxi

Predstavte si technickú podporu, ktorá "vidí" to čo vy. Namierite kameru telefónu na blikajúci router a AI vám presne povie, ktorý kábel odpojiť.

Technické pozadie

Gemini 2.0 využíva novú archtektúru Mixture-of-Experts (MoE), ktorá umožňuje aktivovať len časť parametrov pre daný vstup. To znižuje latenciu a umožňuje spracovanie videa pri 30fps.

Konkurencia pre OpenAI

Gemini 2.0 Ultra prekonáva GPT-4 vo väčšine benchmarkov (MMLU, HumanEval). Boj o prvenstvo v AI sa vyostruje a pre nás, koncových používateľov a vývojárov, je to len dobrá správa. Ceny API klesajú a možnosti rastú.

// Ukážka volania Gemini API pre video analýzu
const model = genAI.getGenerativeModel({ model: "gemini-2.0-flash-vision" });
const result = await model.generateContent([
  "Nájdi bezpečnostné riziká v tomto videu.",
  videoBuffer
]);
console.log(result.response.text());

Kľúčové zistenia

Latencia: Reálny čas je nový štandard.
Využitie: Customer support a manuálne práce budú prvými oblasťami disrupcie.
Dostupnosť: Flash model je extrémne lacný a rýchly.

Späť na blog

Súvisiace články

12. Feb 2025

Vojna modelov: DeepSeek prekvapuje svet

Čínske modely doháňajú americkú špičku a sú open-source. Vo februári sme videli masívny nárast ich používania.

Čítať článok

14. Máj 2024

GPT-4o: Rýchlosť a emócie v jednom modeli

Máj priniesol GPT-4o. 'Omni' model, ktorý vidí, počuje a hovorí v reálnom čase. Hlasoví asistenti sa navždy zmenili.

Čítať článok

19. Apr 2024

Meta Llama 3: Open source vracia úder

V apríli Meta vydala Llama 3. Výkon porovnateľný s uzavretými modelmi, ale zadarmo pre (takmer) všetkých.

Čítať článok