Video ako input
Google v decembri ukázal svaly. Nový model Gemini 2.0 nie je len o texte, ale o natívnom porozumení svetu. Už nemusíme popisovať problém textom. Stačí ukázať kamere kód na obrazovke a Gemini nájde chybu v reálnom čase, pričom s vami konverzuje bez oneskorenia.
Multimodalita v praxi
Predstavte si technickú podporu, ktorá "vidí" to čo vy. Namierite kameru telefónu na blikajúci router a AI vám presne povie, ktorý kábel odpojiť.
Technické pozadie
Gemini 2.0 využíva novú archtektúru Mixture-of-Experts (MoE), ktorá umožňuje aktivovať len časť parametrov pre daný vstup. To znižuje latenciu a umožňuje spracovanie videa pri 30fps.
Konkurencia pre OpenAI
Gemini 2.0 Ultra prekonáva GPT-4 vo väčšine benchmarkov (MMLU, HumanEval). Boj o prvenstvo v AI sa vyostruje a pre nás, koncových používateľov a vývojárov, je to len dobrá správa. Ceny API klesajú a možnosti rastú.
// Ukážka volania Gemini API pre video analýzu
const model = genAI.getGenerativeModel({ model: "gemini-2.0-flash-vision" });
const result = await model.generateContent([
"Nájdi bezpečnostné riziká v tomto videu.",
videoBuffer
]);
console.log(result.response.text());
Kľúčové zistenia
- Latencia: Reálny čas je nový štandard.
- Využitie: Customer support a manuálne práce budú prvými oblasťami disrupcie.
- Dostupnosť: Flash model je extrémne lacný a rýchly.




