Gemini AI řeší CERMAT testy na 43 bodů z 50
Anglická verze (English version of this post is here).
Se zápalem objevovat a experimentovat jsem se ve svém volném čase pustil na platformě Kaggle do série poloautomatických experimentů s testovými sadami CERMAT pro JPZ z 9. třídy. Díky tomu je celé řešení otevřené, transparentní a může posloužit i didaktickým účelům či dalšímu rozvoji kýmkoli.
Spuštění experimentů může být pro některé složité. Následující shrnutí zajímavostí a jejich má reflexe jsou proto pro všechny. Znalejším poslouží jako rychlý přehled k rozhodnutí, zda se do nich pustit a objevit další souvislosti.
Použil jsem velké jazykové modely Gemini od Google, a to jejich současného hlavního dělníka na všechno Gemini Flash 2.0, pro nejtěžší problémy pak prozatimní předverze Gemini 2.5 Pro.
Stejně dobře by dnes nejspíš byly použitelné i nejlepší modely ChatGPT, Claude a snad i Llama 4. Možná něco z řady DeepSeek, možná Mistral. Spíše jde o to, co máte právě dobře po ruce.
Oba mnou použité druhy jsou multimodální modely. Kromě vstupního textu dokáží do sebe nativně nechat vstupovat i jiné druhy vstupů, zde jím vždy byly obrázky, pokud je tedy úloha měla jako svou součást.
V uživatelském mainstreamu jsou multimodály až zhruba posledního půl roku. Obrázková multimodalita je kupř. i hlavní nová vlastnost letošního vydání Llama 4, vedoucího open sourcového modelu od Meta (Facebook), o jehož uvedení před asi 2 týdny jsem psal zde.
Proberu zde tedy předně několik zajímavých jevů, na něž jsem se snahou o samočinné řešení úloh narazil.
Poté se zkusím zamyslet, co to vše znamená.
A na závěr jsou podrobnější pokyny a odkazy pro ty, kteří chtějí zkusit víc.
Rybníček
Problém rybníčku i model Flash 2.0 rozlouskl správně za pár sekund. Zde je tedy možné, že striktně vzato plánek není třeba, že je spíše navíc. Model se ale obrázkem zmást ani zastrašit nenechal.
Úhly, samé úhly
K řešení této úlohy na úhly je porozumění obrázku naopak stěžejní. Předložený výsledek je od Gemini 2.5 Pro Preview, který na úloze pravidelně s třetí podotázkou též selhává (má být 140°). Flash 2.0 zde vyřeší 0 až 2 podotázky, přičemž se mu chyba vyskytuje různě, snad podle toho, jak situaci právě konceptuálně vnitřně pojal.
Selhání při všech geometrických konstrukcích
Na úlohy konstrukcí v geometrii (úlohy 9 a 10) jsem systém vyladil zcela speciálně. Používají se jiné vnitřní postupy a zejména pro tyto úlohy jsem nasadil i verze 2.5 Pro.
Bohužel to nepomohlo.
Hlavní potíž však není s pochopením a řešením úlohy, ale s rýsováním.
První podúloha zde byla triviální, sestrojit osu většího úhlu svíraného přímkami p a q.
Přinejmenším na této otázce je patrné, že systém geometrickou situaci jak správně pochopil, tak navrhl konstrukční postup, který by téměř jistě vedl k úspěchu. Pokud, pokud by mohl rýsovat jako lidé.
Systém přitom v podstatě vždy selže již jen na přípravné rekonstrukci vstupního zadání. Zde ještě vysoukal cosi aspoň trochu podobného. Následně však v rámci svých kontrolních postupů zjistí značné diskrepance a svou činnost ukončí jako marnou.
Modely tedy dokáží navnímat realitu, ale její jejich vnitřní reprezentace není kvantifikovaná, a to ani při příkazu soustředit se na co nejpřesnější vyjádření číselných parametrů zjištěných útvarů.
Je pochopitelně dobře chápat, že pro možnost výstupu na displeji, který má charakter rastru, tedy systému souřadnic, chceme po systému mnohonásobně více než provádí člověk při rýsování! Řešit kroky druhu hledání průsečíků dvou kružnic může znamenat řešit soustavy více kvadratických rovnic. Nejsou-li ale ani od počátku správně číselně parametrizované, je to skutečně beznadějné.
Jsem s hodnocením striktní. Výsledkem má být výkres, výkres není, nejsou body. Že by model věděl jak, mu nepočítám.
Externí rozhraní z modelů do světa přes uživatele
Příklad je zajímavý i použitou metodou zpětného funkčního volání. Výše vypsané funkce jako draw_line nebo draw_point nejsou nějakou součástí systému, ale mnou zhotovené pro možnost kreslit do připravené grafické osnovy.
Jazykový model tedy striktně vzato nepotřebuje sám nutně vytvářet například obrázky jakousi součástí sebe sama, ale může k tomu využívat zcela libovolné nástroje, které mu uživatel svým prostřednictvím poskytuje, pokud mu k jejich ovládání dostačují zpětná textová volání.
A pochopitelně, pokud je schopen dané nástroje koncepčně správně a přesně ovládat. Což zde pro rýsování v rastru nebyl.
Není ale v principu vyloučené, aby se modelu připravilo jiné rozhraní. Jednak takové, které by kupř. bylo schopné parametry křivek zjišťovat ze vstupního obrázku zcela přesně, jednak které by přijímalo pokyny na úrovni kroků konstrukčního postupu. Vytvoření takového rozhraní by sice bylo poměrně pracné, ale v principu je možné.
Obdobně může počítač uživatele prostředkovat modelu styk se světem i pro jakékoli jiné funkce. Nejčastěji se používá pro prostředkování vyhledávání na internetu. Jazykový model tedy nemusí sám být připojen na vyhledávací službu, ale může vyhledávat přes počítač svého uživatele.
Posledních několik měsíců se rozvíjí nové standardy pro tzv. agentní rozhraní, zejména MCP. Jedná se však spíše o mezi-vrstvu, jejímž účelem je řešit explozi vzájemného spojování MxN systémů převedením jen na M+N úprav. Výsledkem bude řádově vyšší efektivita, princip spojení modelu s čímkoli jiným však existuje nezávisle.
Iterace a řady (úloha 16)
Závěrečná úloha 16 představuje požadavek na studenty něčeho „navíc“. Úlohy jsou vždy natolik jiné, že se na ně nedá dopředu jednoduše systematicky připravit. Podstatu problému a způsob jeho řešení je třeba vždy aspoň částečně vymyslet ad hoc při tikajícím času konce testu.
Úloha 16 dokonale rozdělila Flash 2.0 od Pro 2.5. První na ní zcela pravidelně a ve všem troskotal, druhý v obou testech vždy vyřešil vše zcela správně (ukázka výše je od něj), byť pomalu.
Sám za sebe bych podotkl, že bych měl tendenci si spíše situace různě rozkreslovat, než tasemnicově popisovat, jako je zejména v 16.3. Kreslení ale není silná stránka běžných jazykových modelů, zřejmě si raději i pro sebe sama píší.
Výkon modelů souhrnně
Gemini Flash 2.0 vykazoval částečně nepravidelné výsledky. I shodné otázky byl schopen někdy řešit správně, někdy špatně, někdy částečně. Nejlepší výkon dosahoval až 40 bodů, nejhorší jen 32. Na tento výsledek mu ale stačí necelých 50 sekund.
Gemini Pro 2.5 jsem využíval různé podverze, podle toho, co API právě dovolilo používat. Škobrtlo částečně (ale opakovatelně) na úlohách 7 a 11 v prvním testu, a 12 v druhém. Kromě toho též vždy na konstrukční geometrii, z důvodů již výše zmíněných. Úlohy 9 a 10 jsem proto prozatím kontumačně vzdal, a odepsal 5-6 bodů. Přesto dokázal opakovaně test skládat na 42-43 bodů z 50. Což je výsledek, který by v Praze mohl stačit na gymnázium, byť ne nutně na ta nejžádanější. Podle použité subverze z 2.5 test trval 5-7 minut.
Ladění atd.
Pokud by se někdo chtěl realizovat, je možné i činnost stávajících modelů dále zlepšit! Je třeba možné nechat každou úlohu odpovědět několikrát a liší-li se výsledek, nechat celou takovou situaci prozkoumat ještě nějak jinak, důkladněji. Mnou použité přístupy a prompty byly hlavně navržené pro mou rapidní tvorbu. Jsou tedy kupř. jen velmi málo sebe opravující. Určitě je tedy prostor pro zvyšování správnosti, byť asi na úkor delšího času běhu. A pokud by někdo měl opravdu hodně času, přidání realizace úplně jiného rozhraní pro konstrukční geometrii by pak znamenalo, že se velmi pravděpodobně lze s modely 2.5 Pro dostat někam k 47-49 bodům, tedy téměř k dokonalosti.
Vše co výše uvádím, se týká především zmíněných modelů Gemini. Je pravděpodobné, že mnohé další současné jazykové modely se budou chovat podobně. Není však vyloučené, že některé budou i lepší, anebo horší. Nezmiňuji je konkrétně, protože jsem je nezkoušel.
Úloha je na Kaggle otevřeně rozpracovaná a přístupná komukoliv k dalšímu rozvoji. Je pro Vás snadné rychle implementovat totéž s modely OpenAI? Vezměte to, zkuste a dejte vědět výsledek :-).
Jak by asi dopadlo skládání testů z češtiny? Osobně tipuji, že se na metu dokonalosti 47-50 lze dostat již nyní. Ale mohu se mýlit.
Co to znamená? Stane se testování zbytečné?
Účelem současného testování je předně rozřadit převis poptávky, rozřadit uchazeče za pomoci aspoň nějak objektivních a férových kritérií. Tento účel asi nezmizí z roku na rok.
Testy nějak prověřují studenty v jejich schopnostech myslet, zvládat určité druhy formálních úloh. Mají-li lidé zůstat pány nad technikou, musí dostatečné množství osob znát její způsoby fungování. Proto pořád bude mít smysl, aby zde osoby byly, i byly dostatečně mentálně vytrénované.
Přesto situace, ke které směřujeme, totiž že tento test, a mnohé další testy, složí systémy AI v úrovni praktické dokonalosti a rychleji, v sobě nese určitý paradox. Je-li stroj schopen automatického řešení, určitý aspekt raison d’être mít znalosti se ztrácí.
Myslím, že mnoho činností se svou povahou změní. Stanou se „AI aided“, tedy budou ještě prováděné, ale AI změní kvalitu nebo kvantitu jejich provádění.
Když kalkulačky a počítače nahradily logaritmická pravítka a tabulky, ruční výpočty, byla situace v něčem podobná, ve většině ale jiná. Nahrazované postupy byly ryze mechanistické a jen v úzké části lidsky používaných činností.
Jak s AI do výuky?
Změny přijdou i do výuky i do učení se. AI již nyní umožňuje vnikat do pro osobu nových oblastí razantně rychleji i do řádově širší materie, než by bylo možné ještě před 2 roky. Žijeme v éře přelomu.
Úvodem snad jen to, že přenesením provádění úloh na AI pochopitelně reálně hrozí i zhloupnutí, vznešeněji omezení kognitivní angažovanosti. V jádru každého učení se je určitý proces, a to i vnitřní. Je-li vše přeneseno někam jinam mimo žáka, jde to mimo něj, a to i kýžený výsledek.
Děti do určitého věku též potřebují vnější organizovanost, vedení.
Změny přesto přijdou, budou působit až zázračně. Předně, asistent bude schopen personalizace vůči žákovi.
Každé dítě je jiné, má trochu jinou životní zkušenost, někdy nedávalo pozor nebo něco nepochopilo. Odborněji, každé má jiný svůj prior. Mnoho učení se v podstatě sestává z toho, že na dřívější základnu se roubují nové poznatky. Přitom se ovšem předpokládá, že základnu mají všichni zhruba shodnou, aspoň učební osnovy jsou tak koncipovány.
Asistenti ale i poměrně malým dětem umožní, aby se jich ptaly „Proč...?“ nebo „Jak...?“, „Nechápu toto a toto, vysvětli mi to nějak jinak...“, tak dlouho, dokud to děti bude bavit. V zásadě tak každé dítě získá svého vlastního soukromého učitele. Historicky něco takového měly pouze děti bohaté šlechty. Zůstane jistě problém motivace, někoho, kdo je k tomu bude doprovázet.
Zdá se mi, že jednou z možností by bylo výuku kvalitativně rozdělit na dvě formy. V té první by se pořád učila některá pochopení či záležitosti natolik důkladně, aby si je žák vybavil i pokud jej „vzbudí o půlnoci“. Ovládnout aspoň malou násobilku z hlavy se hodí pro celý život i jako prior pro mnoho dalšího. Prostě je zapotřebí zachovat a rozvíjet základní dovednosti: čtení s porozuměním, psaní vlastních textů, základní matematické operací, ale i schopnost soustředit se. Pro ověřování takových znalostí se stále uplatní klauzurní testy nebo písemky, předpokládá se ale i renesance ústního zkoušení.
Druhá forma by ale podle mě měla nově vypadat úplně jinak. Podnikal bych s dětmi jak občasné hluboké výpady daleko za zatím odučené pole, tak od naučeného prováděl bohatý pokryv do šířky. Jestli dříve bylo možné k látce mít jeden, dva příklady, nově by jich mohlo být deset, dvacet, rozmanitě zaměřených. Příkladem postupu do šířky nechť Vám třeba je, že má stránka na Kaggle, zabývající se českými testy, má ale i jejich kompletní verzi pro angličtinu, tedy potažmo pro celosvětové auditorium. Překlady jsou pochopitelně strojové, ale jsou dostatečně kvalitní i přesné. Něco takového by ještě před rokem, v rámci hobby aktivity, bylo naprosto mimo můj kapacitní dosah (časový, ekonomický).
Doporučuje se větší koncentrace na postup než na výsledek, tedy třeba projektová aktivita. Důležitější je schopnost sebe samého i okolí správně zorganizovat k činnosti, než si přesně pamatovat, k čemu mám dojít. A smysl bude mít ověřovat, jak student dospěl k řešení, jaké zdroje použil, jak informace kriticky zhodnotil a jak případně AI byla do celku integrována.
Konečně ztratí smysl domácí úkoly!
I s jakýmkoli využitím AI se neztratí lidská odpovědnost za výsledek. Jestliže ze 100 použití AI jsou i jen tři pomýlení či nepřesnosti, je vhodné mít vlastní přesnou schopnost chyby identifikovat. Jestliže při výuce třeba matematiky byl správný postup tradičním základem výuky a závěrečná zkouška považována za potřebný ale otravný relikt, s využitím AI pro praxi důležitost druhého podstatně vzroste. Ověřování správnosti nabude důležitosti obecně.
AI významně pomůže lidem s handicapy. Bude možné ji ovládat třeba hlasově a bude i vůči nim mocným nástrojem přinášení téměř jakýchkoli informací.
AI ale podstatně pomůže i učitelům. Budou moci takové nástroje využívat pro přípravu látky. Nejen textů, ale i charakteru vizuálního, popř. i interaktivního obsahu. Do dosahu se učitelům dostanou i 3D modely, simulace nebo virtuální realita. Aniž by nutně museli napřed být experty na ně.
Místo těžiště ve výuce samotné látky se učitelé více stanou mentory, průvodci či facilitátory učení. Pochopitelně jiné to bude u žáků na základní škole, jiné na univerzitě. Obecně se ale pedagogové budou více zaměřovat na podporu studentů, rozvoj jejich znalostí a dovedností a smysluplné interakce. Přijdou tím sice o znalostní monopol a z toho plynoucí autoritu, nicméně tyto jsou již dnes iluzorní. Nově by měli mít postavení výukových specialistů schopných více uvedenými způsoby ovlivňovat tok znalostí, dovednosti, ale i hodnot, směrem k žákům.
Smyslem není mírně zvýšit produktivitu či efektivitu. Domnívám, že AI se stane multiplikátorem. Čeho? V širokém slova smyslu vnitřních schopností dětí. Lidí. Důležité je, aby lidé zůstali rozhodujícími aktéry.
Znalosti samy o sobě nám devalvují před očima. Cenné by ale měly zůstat znalosti v akci. V jaké akci ale a v jak celkově provedené akci? K obojímu jsou stále a naprosto potřební lidé. Doufejme, že i zůstanou.
–––––––––––––––
Zaujala vás některá z myšlenek? Máte vlastní zkušenosti s využitím AI ve vzdělávání nebo jiné postřehy k budoucnosti testování? Jaké úlohy by podle vás současné AI modely ještě rozhodně nezvládly?
Své názory k tématu můžete vyjádřit v diskusi. Budu se snažit občas případně i reagovat.
Kontaktovat emailem mne můžete přes spojení na ILAW.
P.S.: za připomínku k 7.3 děkuji P.K.
–––––––––––––––
Doporučení pro vaše zprovoznění na Kaggle
Projekt Gemini řeší testy CERMAT je mnou implementován na platformě Kaggle. Můžete si ji představit jako určité programovací pískoviště.
Hlavní způsob použití takových stránek bývá v postupném spouštění jednotlivých buněk s kódem (v horní liště nahoře bývá tučná šipka doprava, nebo tučná šipka vlevo od buňky s kódem), jak jdou po sobě. Kód buňky vždy něco provede, shlédnete výsledek pod buňkou a pokračujete s další buňkou. Až potud by to asi zvládla i cvičená opička. Vtip je v tom, že pokud Vás něco opravdu zaujme, vidíte zcela přesně jak je to provedeno. Můžete systém provedení měnit, a to právě jen v tom místě, kde to je třeba. Aniž byste museli programovat celý zbytek stránky. Pokud kód beznadějně rozbijete, natáhnete si stránku znovu v původním stavu. Můžete se nechat inspirovat, kopírování technicky nebrání vůbec nic, právně je režim v tzv. dovolující Apache License 2.0. Můžete si též nechat vypsat hodnoty proměnných.
Kaggle je v současnosti asi vedoucí služba na trhu, která výše uvedené služby poskytuje. Mají především didaktický smysl prezentací pro jiné. Ale můžete si tam provádět i své zcela soukromé vlastní experimenty, aniž byste museli na ně mít svůj počítač. Další možností je si experimentální kód sdílet v menších skupinách, tj. nikoliv nutně veřejně. Pro každou stránku druhu notebook též můžete odlišné technické prostředí, podle potřeby. Jakmile ale budete mít kódu množství větší než malé, asi z Kagglu utečete.
Pokud jste na Kaggle již něco prováděli, dokážete si již asi poradit. Pro ostatní jsou níže uvedeny hlavní potřebné technické kroky.
Je ale jen na Vašem zvážení, zda Vám informace zde výše v článku již stačí, nebo si chcete zkoušet více. Je zde hodně navíc, ale je to vás.
1. Účet na Kaggle. Pro spuštění myslím potřebujete na Kaggle účet. Pokud jej nemáte, musíte si jej vytvořit svou registrací. Ověřuje se nejen email, ale i telefon. Nikoliv však kreditní karta. Důvod nejspíš spočívá v tom, že Vám následně je zdarma poskytnut určitý výpočetní výkon a další zdroje. V jejich rámci je spouštěn kód, který se nachází na Kaggle stránkách. Ověření totožnosti je tedy obrana před zneužíváním.
2. Copy & Edit. V pravé horní části strany projektu byste měli mít výrazné tlačítko „Copy & Edit“:
po jeho stisknutí se Vám provede kompletní zkopírování stránky do Vašeho vlastního prostoru na Kaggle, otevře se v režimu editace.
Následně ve stránce můžete s kódem dělat opravdu cokoliv. Provádět jakékoliv své vlastní editace a pokusy, aniž by měly vliv na obsah mé původní projektové stránky (nebo na jiné uživatele, kteří též začnou s původním obsahem).
3. GOOGLE_API_KEY. Jádro kódu projektu volá jazykové modely, zde od Google. Z kódu ve stránce na Kaggle do webových serverů Google. Taková volání jsou běžně zpoplatněná. Výrobci ale často poskytují určitou kapacitu na zkoušení lidem a vývojářům i zdarma, v rámci tzv. Free-Tier použití, což byla i mnou použitá volba a máte ji zřejmě i Vy. Opět, aby se vědělo, komu je co poskytováno, volání služby bývá vázáno na autentizaci. Ta se provádí pomocí tzv. API_KEY.
API_KEY, nebo-li „Klíč k Aplikačnímu Programovému Interfejsu“, mívá dnes podobu asi 40 znakového řetězce.
Zjednodušeně si představte, že se jedná o Vaše login i speciální heslo generované systémem dohromady. Pokud s takovýmto klíčem programový kód zavolá server služby, ten se podívá do své báze, zjistí tak přesně kdo jej volá, tedy hlavně komu má případně vyvolaný provoz s jazykovým modelem účtovat. Nebo zde tedy peněžně neúčtovat, ale kontrolovat, zda není překračována dovolená četnost za časový limit užívání. Limity bývají takové, aby byly možné pokusy nebo i vývoj, nikoliv však produkční zátěž.
Proto bývá vhodné si svůj klíč chránit, jeho obsah nikde nezveřejňovat, ani neukládat na zbytečných místech. Určitou výhodou je, že pokud si stavem ochrany svého klíče přestanete být jisti, můžete jej zneplatnit a nechat si vystavit nový. Aniž byste museli měnit jiné údaje ve svém účtu u poskytovatele služby.
Aby tedy nyní již Vaše stránka Kaggle mohla běžet vůči serveru, musíte 1) získat klíč a 2) vpravit jej do stránky. Klíč zde pak bude uložen v rámci Vašeho účtu na Kaggle a Vaší verze stránky na Kaggle. Nebudu jej tedy znát ani já, ani jiní uživatelé, ani jej nikdo další znát nepotřebuje!
3.1 Účet „Google AI Studio“ : Generace API KEY
Nejjednodušší možností získání API_KEY je z účtu stránky Google AI Studio. Možnosti vytvoření klíče předchází zřízení účtu zde. Stránka bohužel dovoluje přihlásit se pouze s nějakým již předchozím účtem Google.
Výhodou ovšem je, že se nemusíte trápit s vedením separátního účtu. Máte-li účet Google, je přechod na stránku jen záležitostí volby účtu a odkliknutím souhlasu s podmínkami užívání. Není zde zapotřebí žádné další ověřování vaší totožnosti, ani žádné zadávání platební karty atp.
Hlavní stránka AI Studio poskytuje rozhraní pro možnost interaktivní komunikace s jazykovými modely dle Vaší volby, včetně možností ladění různých parametrů (třeba Temperature). Ze zajímavějších je „Grounding with Google Search“, v takovém případě volaný jazykový model pro zodpovídání dotazů Vám využije vyhledávání samotným Googlem. Může Vám tedy odpovídat i po datu závěrky modelu, nebo do podrobností, které v jádru modelů zachyceny běžně nejsou.
Přesně takové stránky mají i všichni ostatní výrobci, jde o verzi pro vývojáře, s trochu více možnostmi.
Na stránce Google AI Studio - API Keys pak v pravém horním rohu máte velké tlačítko „Create API Key“. Po jeho stisku menší dialog, dole s tlačítkem „Create API key in a new project“. Po jeho stisku a hlášení o generování se Vám zobrazí dailog jako je výše (se zobrazenou hodnotou API KEY a tlačítkem „Copy“. Stiskem Copy klíč dostanete do clipboardu.
3.2 Vložení API KEY do stránky Kaggle
Na své kopii stránky v Kaggle byste nyní měli nahoře mít roletové menu. Z něj vybalte roletu „Add-ons“ a kliknětě v ní na „Secrets“:
Otevře se vám vpravo nový panel a na jeho spodku dole tlačítko „Add Secret“, které poklepáte.
Nyní se pro změnu nahoře v pravém postranním panelu otevře následující dialog nadepsaný „Secrets“.
Do políčka „Label“ napíšete přesně „GOOGLE_API_KEY“.
Do políčka „Value“ umístíte kursor a vyvoláte funkci Paste (Vložit). Uvidíte přitom svoji skutečnou hodnotu klíče a nikoli mé hvězdičky.
Stiskem tlačítka „Save“ potom hodnotu uložíte.
Nakonec ještě v pravém postranním panelu zkontrolujete, zda se v něm nachází řádek s názvem GOOGLE_API_KEY, který je zakšrtnutý:
Pokud ano, vaše stránka má tímto připojen tento „secret“, tj. při volání ve čtvrté kódové buňce shora se správně načte hodnota:
...get_secret(“GOOGLE_API_KEY“)
a vše by mělo fungovat tak, jak má. Secret se též již pak nikde zbytečně nezobrazuje. Zůstává součástí údajů vašeho účtu na Kaggle. Pokud s použitím stránky definitivně skončíte, můžete secret i vymazat.
––––––––
Ovládání aplikace
By mělo být jednoduché. Spouštění buněk krok za krokem tučnou šipkou doprava, Kroky 1-5 jsou přípravné jednorázově, v I-IV se pouští vlastní logika aplikace.
1. Install the SDK. Toto je asi jediná buňka, která občas zlobí. Vždy se nejprve umístí kursor dovnitř buňky s kódem, kterou chcete spustit. Následně se buňka spustí tučnou šipkou doprava v horní liště. Viz obrázek:
Jak je zde patrné, systém si stěžuje na nějaké konflikty. Dobrou zprávou ale je, že ani takovéto chybové hlášení nemusí nutně vadit.
Vždy ale počkejte, než se toto točící se kolečko
vedle buňky točit přestane a zmizí. Tím je indikováno, že buňka doběhla a můžete pokročit k další. Buňky jinak nemusí hlásit nic.
2. Load the packages
Důležité je, zda po spuštění druhé buňky se Vám podaří pod ní ze systému vyloudit toto hlášení:
Je-li hlášená verze „GenAI version: 1.7.0", systémové balíčky byly zavedeny správně a dál byste již měli být bez problémů.
Ne-li hlášení žádné, nebo se hlásí verze 0.8.0, je to špatné.
Lze pak vyzkoušet v pravé horní části ikonu tří teček nad sebou a ve vyvolaném menu „Restart & Clear Cell Outputs“:
Tím dostanete možnost spustit obě vrchní buňky znovu.
Nepomůže-li to, je vhodné zastavit sezení volbou „Stop session“, pozavírat všechna okna v prohlížeči i prohlížeč samotný. Tím se deaktivuje existující prostředí a po počkání řekněme hodiny můžete celý postup, včetně úvodního „Copy & Edit“, zkusit znovu. Je pak již velká šance, že se Kaggle v mezidobí vzpamatoval. Secret již v účtu máte, stačí jej jen povolit v checkboxu pro tuto novou stránku.
3. Load Utility Functions. Buňka natáhne podpůrné programové funkce a hodnoty. Jsou zcela nutné, ale ne stěžejní z hlediska ukázky.
4. Set up your API Key. Tato buňka natáhne API KEY, který jsme již vložili postupem výše. Je to také nutná hodnota, ale nyní již bleskově.
5. Automated retry. Slouží pro nastavení delšího vyčkávání, pokud se narazí na některý limit četnosti dotazů.
Jen úvodní buňky 1 a 2 trvají řádově desítky sekund, zatímco 3-4-5 jsou okamžité.
––
Volby I – II – III – IV jsou také velmi rychlé, s výjimkou čekání na odpověď po buňce IV v případech použití modelů 2.5 Pro. Jedná se o tzv. uvažující modely (thinking), které si prostě dají na čas.
I. Selection of the Test and its Language. Zobrazí pod buňkou tlačítka pro výběr sady, jsou na výběr dva testy z řádného termínu před 2 týdny, volit zde lze ale pouze jeden z nich, a též jen jeden jazyk (English, Czech).
Zvolil jsem první test, pak jazyk „Czech“ a završil „Confirm Selection“.
II. Loading the Selected Test in the Chosen Language. Buňka provede to, co píše. Oznámí kolik a jakých souborů zpracovala.
III. Select Question(s) & Display Them. Pod buňkou se zobrazí seznam úloh. Z něj vyberete ty, které chcete řešit. Zvolil jsem pouze úlohu „2" (je ale možné vybrat i více současně, jen to bude méně přehledné). Po stisku „Confirm“ se níže zobrazí znění vybraných úloh, včetně případných obrázků, přesně tak, jak je budou následně podány modelu.
Pohledem si tedy zkontrolujete, zda se jedná o tu úlohu, která Vás zajímá.
Pokud ano, spustíte další buňku.
IV. Let Gemini Answer. Obsahuje jádro celého experimentu, odpovídání od jazykových modelů.
Je to i nejzajímavějšího kód na celé stránce vůbec. Přesně tímto kódem se Gemini volá.
Pod buňkou se nejprve znovu zobrazí přesné znění otázky na níž Gemini bude odpovídat, nu a pak již i znění odpovědi.
Pokud jste se dostali až sem – voilà !
Chcete jinou otázku? Změňte volbu pod buňkou III. a stiskněte „Confirm“, poté znovu spusťte IV.
Chcete jiný test nebo jiný jazyk? Změňte volby pod buňkou I a stiskněte „Confirm Selection“, spusťte znovu II, III, IV.
Vojtěch Kment
Gemini AI solves CERMAT Tests with 43 points out of 50

Semi-automatic system vs. Mathematics entrance exams: How did Gemini AI fare on the CERMAT tests (Czech flavor of the S.A.T.) and where did it stumble? Take a look behind the scenes. What is the future of education and learning?
Vojtěch Kment
Llama 4 is born – Long live Llama 3 in the EU

Meta is blocking the multimodal Llama 4 in the EU. Innovation in AI is arriving – but not for us. Entities within the EU are out of luck.
Vojtěch Kment
Narodila se Llama 4 – dlouhý život Llamě 3 v EU

Meta blokuje multimodální Llamu 4 v EU. Inovace v AI přichází, ale ne pro nás – unijní subjekty mají smůlu.
Vojtěch Kment
50 minut Trump-Zelenský: Plný transkript

Úplný záznam dramatického rozhovoru mezi Trumpem a Zelenským v Oválné pracovně. Napětí, neshody i tvrdá vyjádření – celý přepis bez úprav.
Vojtěch Kment
Projev viceprezidenta USA Vance na pařížském Summitu AI

Strategie USA pro AI: Nespočet revolučních ekonomických inovací. Pozor na hladovění po spolehlivé energii. Lomení rukami nad bezpečností nemá budoucnost. Regulační režimy volným trhem...
Další články autora |
Tragicky zahynul moderátor počasí v České televizi Jan Šrámek
V sobotu odpoledne při nehodě v italských Alpách zemřel dlouholetý meteorolog a moderátor počasí...
Cizinec zaplatil za jízdu taxíkem v Praze přes 200 tisíc, zjistil ráno s hrůzou
O více než 200 tisíc korun málem přišel v Praze cizinec, který se v noci vracel na hotel taxíkem,...
Slevy kol tíží přezásobené prodejce. Část z nich zřejmě nepřežije
Prodejcům jízdních kol se nedaří zbavit zásob, které si vytvořili během boomu v časech pandemie....
Němcová ve studiu zahodila brožurku od Konečné. Nenávist, reagovala komunistka
Nesete historickou vinu a podporujete miliardáře Andreje Babiše, zaútočila senátorka Miroslava...
Požadavky odtržené od reality, zoufají po jednání Ukrajinci. Rusové jsou spokojeni
Sledujeme online Jednání delegací Ukrajiny a Ruska v Istanbulu po necelých dvou hodinách skončilo. Bylo to první...
Plynové potrubí v centru Prahy navrtali dělníci, doprava zůstává odkloněna
Hasiči zasahovali v pondělí odpoledne u úniku plynu v ulici Ke Karlovu na pražském Novém Městě, kde...
Na projíždějícího cyklistu spadl v Japonsku muž, který se zřítil z 43. patra
Ve středojaponské Ósace vypadl ze 43. patra muž a spadl na projíždějícího cyklistu. Oba lidé...
Šest na jednoho, líčí bitku rapper. Strhla se v čajovně kvůli placení
Ve fyzický konflikt vygradoval víkendový spor ohledně zaplacení v brněnské čajovně mezi rapperem...
Moderátor Železný zavolal na strážníka policii. Spor odstartovalo chování, tvrdí
Kandidát na generálního ředitele České televize se opět dostal do sporu s policistou. Incident v...
- Počet článků 19
- Celková karma 8,12
- Průměrná čtenost 850x
Smysl jednotlivci i celku.
Lawyer and computer engineer in one .
Advancing person and society alike.