How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Překladatel: Jana Medonosová Korektor: Katerina Jaburkova Něco vám ukážu. (Video) Holčička: Dobře, to je kočka sedící na posteli. Kluk si hladí slona. To jsou lidi, co nastupují do letadla. Je to velké letadlo. Fei-Fei Li: Toto je tříleté dítě popisující, co vidí na sérii fotek. Ještě se má hodně co učit o světě, ale už teď je expert na jednu velmi důležitou věc: dávat smysl tomu, co vidí. Naše společnost je více technologicky vyvinutá než kdy předtím. Posíláme lidi na měsíc, vyrábíme telefony, co na nás mluví, nebo si můžeme upravit radio, aby hrálo jenom hudbu, kterou chceme. Přesto naše nejvyvinutější stroje a počítače tenhle úkol nezvládají. Já jsem tu dnes, abych vám dala hlášení o vývoji posledních pokroků v našem výzkumu počítačového zraku, jedné z nejhraničnějších a potencionálně revolučních technologiích v počítačové vědě. Ano, navrhli jsme auta, která sama řídí, ale bez chytrého zraku, nerozeznají zmuchlaný papírový sáček na silnici, který se může přejet, od kamenu stejné velikosti, který by bylo lepší objet. Vytvořili jsme úžasné megapixelové foťáky, ale neumíme slepým vrá*** zrak. Drony mohou létat po rozsáhlé krajině, ale nemají dostatečnou vizuální technologie, aby nám pomohly mapovat změny v deštných pralesech. Kamerové systémy jsou všude, ale neupozorní nás, když se dítě topí v bazénu. Fotky a videa se stávají nezbytnou součástí života. Jsou vytvářeny rychlostí, která je mnohem vyšší než jsme si dokázali představit, a já zde na TEDu k tomu přispívám. Přesto všechno naše nejdokonalejší programy stále zápasí s porozuměním a ovládáním tohoto ohromného obsahu. Jiný slovy, dohromady jako společnost jsme prakticky slepí, protože naše nejchytřejší stroje jsou slepé. "Proč je to tak těžké?" ptáte se. Foťáky mohou vyfotit obrázek jako tento převedením světel do dvoudimenzionální soustavy známé jako pixely, ale to jsou jenom neživá čísla. Sama o sobě nemají smysl. Stejně jako slyšet není to samé jako poslouchat, fotit není to samé jako vidět, a viděním myslíme chápaní. Ve skutečnosti, Matce Zemi trvalo 540 milionů let tvrdé práce, aby tohoto dosáhla a velká část této snahy padla na vývoj zrakové procesního aparátu v našem mozku, nejen na oči samotné. Takže zrak začíná očima, ale odehrává se v mozku. Již po 15 let od mého doktorátu na Caltechu a vedení laboratoře Stanford's Vision, pracuji se svými mentory, spolupracovníky a studenty na tom, abychom naučili počítače vidět. Náš výzkum se jmenuje počítačový zrak a učení strojů. Je to součástí obecného oboru o umělé inteligenci. Chceme naučit stroje, aby viděly jako my: pojmenovávat objekty, identifikovat lidi, odvozovat 3D geometrii věcí, pochopení vztahů, emocí, akcí a úmyslů. Vy a já dohromady splétáme celé příběhy lidí, míst a věcí v okamžik, kdy je spatříme. Prvním krokem k dosažení tohoto cíle je naučit počítače vidět objekty, základní kameny světa vidění. Jednoduše řečeno, představte si tento proces učení jako ukazování počítačům tréninkové obrázky konkrétního objektu, například koček, a vytváření modelu, který se učí z těchto tréninkových obrázků. Jak těžké to může být? Vždyť kočka je jen sbírka tvarů a barev a to je přesně to, co jsme udělali v začátcích objektového modelování. Naučili jsme počítače algoritmus v matematickém jazyce, že kočka má kulatý obličej, zaoblené tělo, dvě špičaté uši, a dlouhý ocas, a všechno vypadalo dobře. Ale co třeba tahle kočka? (Smích) Je celá pokřivená. Nyní musíte tedy přidat další tvar a pohled danému modelu. Ale co když jsou kočky schované? Co tyhle pošetilé kočky? Teď už mě chápete. Tak jednoduchá věc jako je domácí mazlíček může mít nekonečné množství variací objektovému modelu, a to je to jenom jeden objekt. Takže před zhruba osmi lety, jeden prostý, ale pronikavý prostřeh změnil mé myšlení. Nikdo neříká dítěti jak má vidět, obzvláště v raném věku. Naučí se to pomocí skutečných životních zkušeností a příkladů. Když si představíte dětské oči jako pár biologických foťáků, vyfotí jeden obrázek každých 200 milisekund, což je průměrný čas, za který se oko pohne. Takže ve třetím roce dítě vidělo stovky milionů obrázků skutečného světa. To je celkem hodně tréninkových příkladů. Místo cílení na lepší algoritmy, můj nápad byl dát algoritmům taková tréninková data, jaká byla dána dítěti skrze zkušenosti jak množstevně, tak kvalitou. Jakmile jsme toto pochopili, věděli jsme, že potřebujeme sehnat sadu dat, která má v sobě mnohem více obrázků, než jsme kdy měli, možná i tisíckrát více, a společně s profesorem Kai Li na Princetonské univerzitě, jsme v roce 2007 spustili projekt ImageNet. Naštěstí jsme si nemuseli namontovat kameru na hlavu a čekat mnoho let. Šli jsme na internet, největší pokladnice obrázků, kterou jsme jako lidé vytvořili. Stáhli jsme téměř miliardu obrázků a využili crowdsourcingové technologie jako Amazon Mechanical Turk, aby nám pomohly pojmenovat tyto obrázky. Na svém vrcholu, ImageNet byl jedním z největších zaměstnavatelů pracovníků Amazon Mechanical Turk: celkem téměř 50 tisíc pracovníků, ze 167 zemí světa, nám pomohlo vyčistit, utřídit a označit téměř miliardu potencionálních obrázků. Přesně tolik úsilí nás stálo zachytili pouze zlomek obrázků, které dětská mysl přijímá během svých počátečních vývojových let. Při pohledu zpět, nápad používání velkého množství dat pro učení počítačových algoritmů se nyní může zdát samozřejmý, ale v roce 2007 tomu tak nebylo. Byli jsme po docela dlouhou dobu na této cestě sami. Někteří mí kolegové mi doporučovali, abych dělala něco užitečnějšího, a neustále jsme sháněli finance pro náš výzkum. Jednou jsem dokonce vtipkovala se svými studenty, že si znovu otevřu svoji čistírnu, abych zaplatila ImageNet. Přece jen, tak jsem financovala svoje studia na univerzitě. Tak jsme pokračovali. V roce 2009 projekt ImageNet vytvořil databázi 15 milionů obrázků napříč 22 000 tříd objektů a věcí organizovaných podle každodenních anglických slov. V obou - kvantitě i kvalitě, v nevídaném množství. Uvedu příklad na zmiňovaných kočkách, měli jsme více než 62 tisíc koček různého vzhledu, v různých pózách a všechny druhy domácích i divokých koček. Byli jsme ***šení, že jsme mohli dát ImageNet dohromady a chtěli jsme, aby toho mohl využívat celý výzkumný svět, takže podle TEDu, jsme celý náš data set otevřeli pro celosvětovou výzkumnou komunitu zadarmo. (Potlesk) Když teď máme data, kterými můžeme krmit náš počítačový mozek, jsme připraveni se vrá*** zpět k algoritmům jako takovým. Jak se pak ukázalo, hojnost informací z ImageNetu byla perfektní pro konkrétní třídu algoritmů pro učení strojů, které se nazývaly konvoluční neuronová síť, vytvořené Kunihikem Fukushimou, Geoffem Hintonem a Yannem LeCunem během 70. a 80. let 20. století. Stejně jako se mozek skládá z miliard vzájemně propojených neuronů, základní operační jednotkou v neuronové síti je uzel podobný neuronu. Vstup si vezme od jiných uzlů a pošle výstup dalším. Navíc tyto stovky tisíc či dokonce miliony uzlů jsou organizovány v hierarchistických vrstvách, podobně jako v mozku. V klasické neuronové síti, kterou používáme, abychom naučili náš model rozpoznávání objektů je 24 milionů uzlů, 140 milionů parametrů a 15 miliard spojení. To je obrovský model. Poháněný ohromným množstvím dat z ImageNet a moderními CPU a GPU k trénování takto velkého modelu, konvoluční neuronová síť kvete tak, jak by nikdo nečekal. Stala se vítěznou architekturou k vytváření nových úžasných výsledků v rozpoznávání objektů. Toto je počítač, který nám říká, že na obrázku je kočka a kde ta kočka je. Samozřejmě existuje víc věcí než jen kočky, takže tady je algoritmus počítače, který říká, že obrázek obsahuje chlapce a medvídka, psa, osobu a malého draka v pozadí, nebo velice chaotický obrázek plný věcí, jako je muž, skateboard, zábradlí, lampa atd. Někdy, když si počítač není jistý, co vidí, naučili jsme ho, aby byl dostatečně chytrý, a aby odpověděl neutrálně, než aby se k něčemu zavázal, stejně jako bychom to udělali my, ale jindy nám náš počítačový algoritmus znamenitě vysvětlí, co přesně dané objekty jsou, jako například značka, model a rok u auta. Aplikovali jsme tento algoritmus na miliony obrázků z Google Street View napříč stovkami amerických měst, a zjistili jsme něco velice zajímavého: zaprvé, to potvrdilo známou pravdu, že ceny aut jsou přímo úměrné příjmům domácností. A překvapivě, ceny aut jsou také závislé na kriminalitě v daných městech, a nebo volební názory na PSČ. Takže, to je ono? Dosáhly počítače lidských schopností, nebo je snad dokonce přesáhly? Ne tak rychle. Zatím jsme počítač naučili jenom vidět věci. Je to jako malé dítě, které se učí vyslovit pár slov. Je to neuvěřitelný úspěch, ale je to teprve první krok. Brzy, další vývojový mezník bude dosažen, a děti se naučí mluvit ve větách. Takže místo tvrzení - to je kočka, slyšeli jsme holčičku říct, že kočka leží na posteli. Abychom naučili počítač vidět obrázek a vytořit věty, vztah mezi velkým množstvím dat a algoritmem učení strojů musí dosáhnout další fáze. Nyní se počítač musí učit z obou částí, stejně tak jako jsou věty vytvářené lidmi. Stejně jako mozek spojuje zrak a jazyk, vytvořili jsme model, který spojuje části zraku, jako vizuální ústřižky se slovy a frázemi ve větách. Zhruba před čtyřmi měsíci, jsme to konečně spojili a vytvořili jeden z prvních modelů počítačového zraku, který je schopen vytvářet lidskou větu, když vidí daný obrázek poprvé. Nyní vám ukážu, co počítač řekne, když vidí obrázek, který viděla holčička na začátku. (Video) Počítač: Muž stojí vedle slona. Velké letadlo sedí na letištní runwayi. FFL: Samozřejmě, stále pracujeme na zlepšení našich algoritmů a stále je toho hodně, co se učit. (Potlesk) A počítač dělá i chyby. (Video) Počítač: Kočka ležící na posteli pod dekou. FFL: samozřejmě, že když vidí tolik koček, myslí si, že všechno může vypadat jako kočka. (Video) Počítač: Mladý chlapec drží baseballovou pálku. (Smích) FFL: Nebo pokud ještě neviděl kartáček, splete si ho s basebalkou. (Video) Počítač: Muž jede na koni po ulici vedle budovy. (Smích) FFL: Nenaučili jsme naše počítače základy umění. (Video) Počítač: Zebra stojí na poli trávy. FFL: A ještě neumí ocenit krásu přírody jako vy a já. Je to dlouhá cesta. Dostat se od věku 0 do 3 let bylo těžké. Opravdová výzva je dostat se od 3 let ke 13 a dál. Dovolte mi ukázat ještě jednou obrázek chlapce s dortem. Zatím jsme počítač naučili vidět objekty, či dokonce říct krátce co vidí na obrázku. (Video) Počítač: Člověk sedí u stolu s dortem. FFL: Ale na tom obrázku je toho o tolik více než jen člověk a dort. Co počítač nevidí, je, že je to speciální italský dort, který se podává pouze při Velikonocích. Chlapec má na sobě své nejoblíbenější tričko, které mu dal jeho otec po cestě do Sydney, a vy i já dokážeme říct, jak je šťastný a co si právě myslí. Toto je můj syn Leo. Při řešení zrakové inteligence, myslím na Lea neustále, a na svět, ve kterém bude žít. Když stroje mohou vidět, doktoři a sestry budou mít navíc pár neúnavných očí, které jim pomohou diagnostikovat a starat se o pacienty. Auta budou jezdit chytřeji a bezpečněji. Roboti, nejen lidé, nám pomohou prozkoumat místa neštěstí, aby zachránili uvězněné a zraněné. Objevíme nové druhy, lepší materiály, a prozkoumáme neznámé hranice, když nám stroje pomohou. Postupně dáváme zrak strojům. Nejdřív je učíme vidět. Pak nám pomohou pomoci vidět lépe. Poprvé, lidské oči nebudou jediné, které zkoumají a objevují náš svět. Nebudeme stroje používat jenom kvůli jejich inteligenci, ale můžeme spolupracovat způsoby, které si ani neumíme představit. Toto je můj úkol: dát počítačům zrakovou inteligenci, a vytvořit tak lepší budoucnost pro Lea a svět. Děkuji (Potlesk)