Kolik slov stačí k obrazu? 

Vědec Filip Děchtěrenko zkoumá, jak si pamatujeme svět. Proč si spleteme dvě „žurnálové“ kuchyně, ale exotickou scénu si vybavíme přesně? A lze obrázek poslat jen jako pár klíčových slov?

Paměť není archiv, ale živá rekonstrukce. Výzkumník Filip Dechtěrenko z Psychologického ústavu AV ČR propojuje kognitivní psychologii s neuronovými sítěmi a generativní AI, aby zjistil, jak si ukládáme vizuální svět — a kolik slov stačí, abychom si ho dokázali znovu vytvořit. V rozhovoru vysvětluje, proč typické scény vedou k falešným vzpomínkám, jak vzniká „textový kód“ obrazu a k čemu může být věda o paměti užitečná třeba ve vzdělávání nebo vizuální komunikaci.

Jakým způsobem zkoumáte paměť?

Aktuálně máme dvě hlavní výzkumné linie. První se týká typičnosti, tedy toho, co náš mozek považuje za typické. Když lidem ukážete velké množství fotografií, překvapivě obtížně se rozhoduje, které jsou si podobnější a proč. Starší výzkumy to příliš neřešily: ukázalo se třeba deset tisíc náhodných snímků a měřilo se jen to, zda si je lidé pamatují. My se snažíme podobnost fotografií kvantifikovat. Používáme přetrénované neuronové sítě, které měří vzdálenost dvou obrazů v mnohorozměrném prostoru.

Jedna studie například sleduje vznik falešných vzpomínek: když lidem ukážeme specifickou sadu fotografií, dokážeme předvídat, u kterých udělají chybu. Zkoumáme, co lidé vyhodnocují jako typické — třeba u kuchyní. Pokud vidíte sérii „žurnálových“ kuchyní, snadno si později spletete jinou podobnou. Odpovídá totiž vašemu prototypu. Naopak výrazně odlišná scéna, například polní či marocká kuchyně, se ukládá přesněji.

Kolik detailů si obraz nese

Na co se zaměřujete v té další linii výzkumu, která více souvisí s projektem MEDIS:ON?
Koumáme, do jakých detailů si vizuální paměť skutečně pamatuje. Ukazuje se, že množství detailů je relativně malé — k obrazu si vytváříme i textový kód. Snažíme se rozklíčovat, jaké popisy si lidé ukládají. Když vidíte fotografii z dovolené, obvykle ji shrnete jednou větou. Zajímá nás, zda lidé, kteří si obrázek dobře pamatují, si pamatují i jeho typický popis.

Ukázali jsme účastníkům velké množství uměle generovaných fotografií a každou měli popsat. Pro každou máme zhruba 230 popisů. Zkoumáme, které jsou dobré a které ne — a také jak změna části popisu změní výsledný obraz. Například „domky u moře“ změníme na „mrakodrapy u moře“. Jazykový model pak z popisů vytváří obrázky a porovnáváme je s originálem. Testujeme prompty složené z pěti, deseti i dvou set popisů. Stačí i pár nepřesných informací a model vytvoří poměrně přesný obraz.

Možná se orientuje podle malého množství klíčových slov?
Přesně. Snažíme se zjistit, která to jsou a kolik jich potřebujeme, abychom mohli poslat „low-costový“ obrázek — já vám ho popíšu zprávou a vy si ho vygenerujete. Cílem je doporučení, jak obrázek popsat, aby výstup byl co nejlepší. Pak plánujeme paměťové studie s alternativními verzemi textu: například změníme třetinu popisu a dvě třetiny necháme stejné.

Obraz i jazyk: duální kódování

K čemu je dobré vědět, který popis je pro jazykový model nejlepší, nebo co přesně si lidé pamatují?
Primárně nás zajímá, jak si člověk ukládá vizuální podnět — nejen jako obraz, ale i jako textový kód, vědomý či nevědomý. To odpovídá Paiviově teorii duálního kódování: podněty ukládáme vizuálně i verbálně. Ty textové kódy se ale dlouho zkoumaly obtížně. Teď máme nástroje, jak je systematicky propojit s obrazem.

Chceme například vytvořit paměťovou úlohu s distraktory: podněty se budou lišit jen v části popisu. Dva texty se mohou lišit o deset procent, ale fotografie mohou být výrazně odlišné. Pak lze určit, kolik informace přináší obraz navíc oproti textu.

Takže text se liší málo, ale vizuál je vnímaný jako jiný.
Ano. A to souvisí i s tím, jak si lidé vytvářejí „klíče“. Když vidíte dvacet fotek, z toho deset lesů a jeden supermarket, stačí kód „supermarket a zbytek lesy“. Lesy pak rozlišujete jemněji. Do jaké míry tyto klíče stačí a jak vznikají, zatím nevíme.

Kulturní kontext a typičnost

Jak moc v zapamatování obrazu používáme jazyk — a co třeba u neslyšících?
Nějaký druh kódování pravděpodobně probíhá vždy, i u lidí používajících jiný jazykový systém, například znakový jazyk. Ten má také strukturu. Fotografická paměť je zvláštní případ, ale i tam by existovala nějaká forma reprezentace. My obvykle pracujeme s běžnou českou populací a zohledňujeme kulturní kontext, protože typičnost závisí na zkušenosti.

Češi popisují české obýváky. Co když jim ukážete kuchyně z jiné kultury?
To právě zkoumáme. Máme podněty z celého světa i různých sociálních vrstev. Existují biasy: lidé i jazykové modely hodnotí odlišně podněty z jiného kulturního okruhu. Hodnocení se navíc mění podle kontextu — když vidíte padesát „divných“ kuchyní, posune se vám měřítko normality. Tomu říkáme konceptuální posun.

Typické znamená zaměnitelné

Cílem je zjistit, jak se lidem posouvá to, co je typické?
Ve skutečnosti jde pořád o paměť. Naše studie ukazují, že typické podněty vedou k více chybám — lidé mají pocit, že je viděli. Jiní výzkumníci nacházejí opak, rozdíly jsou v metodologii i v tom, jak se typičnost měří. My rozlišujeme percepční a konceptuální typičnost. Dětská plastová kuchyňka vypadá jako normální kuchyň, ale funkčně jí není. Zkoušeli jsme i nemožné kuchyně — realistické, ale absurdní. Lidé tyto dimenze propojují: co vypadá divně, je i konceptuálně divné.

To vše směřuje k modelům paměti a pozornosti pro reálné komplexní scény, ne pouze jednoduché podněty typu barevných kuliček.

Kolik má typický popis slov?
V průměru asi 44. Sjednocení mnoha popisů do jednoho provádí jazykový model — ručně by to nešlo. Pak chceme měřit sémantickou vzdálenost popisů, tedy rozdíly ve významu, nejen ve formě. To pravděpodobně budeme validovat lidským hodnocením podobnosti.

Takže podobnost budou hodnotit lidé.
Ano. Model pomáhá s průzkumem, ale validace je lidská. V jiné studii jsme nechali model hodnotit typičnost kuchyní a korelace s lidským hodnocením byla 0,8, což je překvapivě vysoké.

Používáme také úlohu tří obrázků: který ze dvou je podobnější třetímu. Z velkých dat lze extrahovat dimenze podobnosti — říkáme jim „Big Five pro objekty“. U kuchyní vyšla například dimenze dřevěnosti nebo míry nepořádku. Každý obraz pak má profil, třeba „20 % bílá, 60 % špinavá“.

Falešné vzpomínky, přesycení, učení

V souvislosti s pamětí jste zmiňoval falešné vzpomínky. Zkoušíte je implantovat?
Implantovat ne. Zajímá nás, jak vznikají chyby rozpoznání. Když lidem ukážete mnoho fotografií, mohou říkat „viděl jsem“ téměř na všechno. Dříve se sledovala hlavně úspěšnost, ne typy chyb. My se snažíme pochopit limity paměti — například pro vzdělávání, kde je důležité vědět, co si lidé skutečně zapamatují a co už je jen pocit známosti.

Například emotikon mořského koníka, který lidé tvrdili, že existuje?
To odpovídá takzvanému Mandela efektu — systematicky sdíleným falešným vzpomínkám. Typickým příkladem je mylná představa, že Nelson Mandela zemřel ve vězení. Podobně si lidé zkresleně pamatují loga známých značek. Paměť není archiv, ale rekonstrukce.

Může množství AI generovaných „historických snímků“, například ve stylu černobílých fotografií z 2.světové války, ovlivnit naši paměť?
Masové množství podobných informací vede k přesycení. Když vidíte stovky verzí téže události, ztrácí se jistota, co je pravda. To může být snadno zneužitelné. Část je ale i módní vlna a forma zábavy.

Má váš výzkum praktické využití?
Jde primárně o základní výzkum paměti, ale aplikace existují. Ve vzdělávání lze lépe navrhovat vizuální materiály, aby se dobře pamatovaly. Nebo v profesích, kde záleží na vizuální atraktivitě — například u fotografií nemovitostí. Typičnost a odlišnost totiž silně ovlivňují, co si lidé zapamatují a co přehlédnou.

Autorka textu: Lucie Tomanová

Sledujte nás

Others

Cookies Policy

GDPR

Adresa

Psychologický ústav AV ČR, v. v. i.
Veveří 97, 602 00 Brno

All rights reserved.