Google I/O 2024: Inovace v čele s AI
Konference Google I/O nabídla jako každý rok přehlídku nových softwarových funkcí. Nejvíce pozornosti se samozřejmě upínalo k AI: AI ve vyhledávání, AI v Androidu 15 (aktuálně v beta verzi) a aktualizaci AI nástrojů – Gemini, DeepMind a dalších.
Generální ředitel Googlu Sundar Pichai mluvil o současné době směru vývoje jako o „éře Gemini,“ a zaměřil se na významné aktualizace AI modelů společnosti a představení nových nástrojů, kterými firma hodlá zásadně změnit různé aspekty současných technologií, které používáme v každodenním životě.
Vylepšení Gemini
Hlavním bodem konference byla vylepšená verze Gemini, což je AI, se kterou Google vytáhl do boje proti ChatuGPT. Nové Gemini je navrženo tak, aby bylo více konverzační, nabízí lepší kompatibilitu mezi aplikacemi a obecně chytřejší interakce. Google představil Gemini Live, hlasového AI agenta, a Project Astra, AI asistenta, který reaguje na video vstupy.
Gemini Live, který bude k dispozici v létě, rozšiřuje multimodální schopnosti Gemini a umožňuje uživateli vést podrobnou obousměrnou konverzaci pomocí hlasu.
Google také ukázal video, kde jeho Project Astra dokázal identifikovat objekty zobrazené na kamerovém záznamu a porozumět kódu zobrazenému na obrazovce počítače. Project Astra, dle Googlu „budoucnost AI asistentů“, využívá Gemini ke zlepšení přirozenější konverzace a rychlejší odezvy díky ukládání informací do mezipaměti.
Vylepšení se dočkal AI model Gemini 1.5 Pro a byl uveden nový model Gemini 1.5 Flash a dva nové modely Gemma.
V Gemini 1.5 Pro přicházejí vylepšení pro překlady a kódování. Model Gemini 1.5 Flash je menší model optimalizovaný pro přesně definované úkoly, kde je prioritou rychlost. Oba modely Gemini 1.5 Pro a Gemini 1.5 Flash jsou k dispozici v preview a budou obecně dostupné v červnu. Google také představil dva nové modely, PaliGemma a Gemma 2, pro Gemma, rodinu odlehčených otevřených modelů. PaliGemma je otevřený model pro vidění a jazyk, který společnost označuje za první svého druhu, dostupný je od úterý 14. května. Gemma 2 je další generace modelu Gemma, která přijde v červnu.
Google také představil inovace ve svém tensorového procesoru (TPU). Šestá generace TPU, Trillium, podle společnosti poskytuje 4,7× lepší výpočetní výkon na čip ve srovnání se svým předchůdcem. Společnost také zopakovala, že bude jedním z prvních poskytovatelů cloudu, který nabídne GPU Nvidia Blackwell na začátku roku 2025.
Inovace ve vyhledávání
Google Search čeká transformace s představením AI Overviews, nové funkce, která nabízí shrnutí výsledků vyhledávání pomocí umělé inteligence. Tento nástroj, který se nyní spouští v USA, má uživatelům poskytovat zpracované, uspořádané a analyzované informace pro zvýšení efektivity vyhledávání.
Představení Veo
Další významnou novinkou bylo představení Veo (založeno na technologii DeepMind), nové generativní video aplikace. Ta dokáže vytvářet video obsah z textových a video podnětů. Systém také obsahuje experimentální nástroj Video Effects. Společnost uvedla, že některé funkce Veo budou dostupné pro některé tvůrce na Labs.Google.
AI v Androidu 15 a Google Workspace
Android 15, aktuálně v beta verzi, integruje novou mobilní aplikaci Gemini, která zahrnuje funkce jako Live (hlasové konverzace s AI) a Gems, sadu přizpůsobitelných pokynů, které mohou provádět složité operace pomocí Google Drive.
Google oznámil, že AI technologie bude integrována do zařízení s Androidem prostřednictvím Gemini Nano, nejmenšího modelu Gemini, který umožňuje provoz AI lokálně. Společnost uvedla, že později v tomto roce budou telefony Pixel disponovat multimodálními AI schopnostmi a že s Gemini Nano může zařízení reagovat na textové, vizuální a zvukové vstupy.
Model využívá kontext získaný z telefonu a zpracovává pracovní zátěž lokálně na zařízení. Lokálně provozovaná AI technologie minimalizuje latenci, která může nastat při provozu AI na vzdálených serverech, a může fungovat bez připojení k internetu, protože veškerá práce probíhá na zařízení.
V Google Workspace vylepší model Gemini 1.5 Pro produktivitu shrnováním e-mailů, organizováním zpráv a exportem dat. Tato aktualizace bude dostupná uživatelům Labs. Google příští měsíc. Další funkce, jako je automatizace pracovních postupů, přijdou na podzim.
Vylepšené generování obrazů a videí s DeepMind
DeepMind se dočkal také vylepšení – nástroje Imagen 3 se mohou pochlubit lepším porozuměním textu a detailnější tvorbou obrazů. Nové možnosti se rozšiřují i na hudební a video podněty, což nabízí prostředí pro experimentování.
Firabase Genkit: Framework pro AI aplikace
Google představil také nový přírůstek do své platformy Firebase, který usnadňuje vývojářům tvorbu aplikací poháněných AI v JavaScriptu/TypeScriptu a brzy přijde i podpora pro Go. Firebase Genkit je open source framework licencovaný pod Apache 2.0, který umožňuje vývojářům rychle integrovat AI do nových i stávajících aplikací. Mezi příklady využití Genkit patří mnohé standardní generativní AI scénáře: generování a shrnování obsahu, překlad textů a generování obrázků.
Tým Firebase uvedl, že je Genkit okamžitě přístupný, protože využívá stejné přístupy jako zbytek nástrojového řetězce Firebase. Vývojáři mohou pomocí Genkit testovat své nové funkce lokálně a poté nasadit svou aplikaci s pomocí bezserverových platforem Googlu, jako jsou Cloud Functions for Firebase a Google Cloud Run.
Díky tomu, že je open source, budou moci vývojáři Genkit podle potřeby rozšířit, ale již v základu podporuje řadu open source projektů třetích stran. Takže kromě vlastních modelů Googlu Gemini mohou vývojáři použít i jiné otevřené modely. Genkit bude také podporovat vektorové databáze jako Chrome, Pinecone a PostgreSQL pgvector, kromě Google Cloud Firestore.
Project IDX, nová generace webového integrovaného vývojového prostředí Googlu, která je nyní obecně dostupná, bude rovněž podporovat vývojářské UI Genkit.
Novinkou je také Firebase App Hosting, bezserverové řešení webového hostingu, které bude spravovat vše od vytvoření aplikace až po CDN pro distribuci obsahu a serverové renderování pro vývojáře.