Michal Černý - Trendy ve vyhledÁvÁnÍ

Přemýšleli jste někdy *** tím, podle čeho vám Google řadí výsledky vyhledávání? Zkusme si udělat malý experiment. Zadejme do Googlu jméno Wej-Weje, což je významný čínský výtvarník, umělec, hudebník a občanský aktivista, ale také disident. Snadno zjistíme, že čínská verze Googlu indexuje o 90 000 stránek méně než ta verze česká nebo mezinárodní. A co více, řadí výsledky vyhledávání zcela jiným způsobem. Pokud vás tedy zajímá, podle čeho Google řadí výsledky vyhledávání a proč vidíte ve svých vyhledávačích to, co vidíte, poslechněte si následující video. Než budeme schopni odpovědět na otázku, proč a jak vyhledávači fungují, musíme si udělat krátký historický exkurz. Když v roce 1989 přišel Tim Berners-Lee se svým konceptem webu jako sítě složené z dokumentů a hypervazeb mezi nimi, byla celá síť v zásadě velmi jednoduchá. Obsahovala jen několik málo textových dokumentů a odkazy mezi nimi. Žádné obrázky, žádné grafy. Nic takového tehdejší web neznal. Velice rychle se však ukázalo, že objem stránek rychle narůstá a celý koncept webu, jako souboru hypertextových vazeb mezi dokumenty, bude mít podstatně větší ambice. Původní web vůbec nepočítal s tím, že by dokumenty bylo možné nějakým způsobem vyhledávat nebo pokročilejším způsobem procházet. Každý si musel pamatovat přesnou adresu dokumentu, tu zadat do internetového prohlížeče a zobrazila se mu patřičná internetová stránka. První projekt, který se s touto situací pokusil něco udělat, byl Archie, který byl spuštěn v roce 1990. Umožňoval procházet a indexovat FTP archivy, prohledávat jednotlivé soubory a položky a procházet mezi nimi. Každému souboru bylo navíc možno přiřadit určité popisky či tagy, což opět usnadňovalo vyhledávání. Jako klíčovou limitou se však ukázala být absence automatického zpracování. Automatické zpracování znamená, že každou novou položku nemusí do systému ručně zadávat člověk, ale že se o tuto činnost stará nějaký algortimus, kterému obvykle říkáme robot či agent. Ten je schopen identifikovat každý nový objekt, přidat mu patřičné popisky a správným způsobem ho zařadit do celkové struktury webu tak, aby bylo možné v něm snadno vyhledávat. Tuto funkci přinesl až v roce 1993 World Wide Web Wanderer. Komerční systémy se objevují v roce 1994 a jako první se na trhu objevuje AltaVista. Je následována Lycosem a pak především Yahoo Search. Na Yahoo Search můžeme vidět zajímavý posun. Již nejde o prostý vyhledávač, který by prohledával pouze tagy či zadané popisky některým z uživatelů nebo robotem, ale obsahuje předmětový katalog. V něm jsou nabízeny stránky, které jsou setříděny podle logických kategorií tak, aby běžný uživatel byl schopen snadno najít přesně takovou stránku, kterou hledá a která se věnuje tématu, které ho zajímá. Příkladem dnes hojně užívaných katalogů jsou databáze řemeslníků. Jestliže hledáme instalatéra do Brna, můžeme jít dvojí cestou. Buď použijeme klasický fulltextový vyhledávač a pokusíme se najít výsledky pomocí zadání klíčových slov nebo sáhnout po předmětovém katalogu, kde ho na základě patřičného klíče snadno najdeme. Velkou výhodou katalogů je především validita, ověřenost výsledků a kvality. Ale zpátky k vyhledávačům, jak je známe dnes. V roce 1996 se objevuje Google, a i přesto, že o dva roky později vypadá stále velmi pracovně, tak počet indexovaných stránek neroste lineárně, dokonce ani kvadraticky, ale exponenciálně. A tato situace trvá až dodnes. To, o čem jsme doteď hovořili, byla historie. Vyhledávače se snažily pracovat na principu objektivních výsledků vyhledávání, to znamená, že každé stránce byl přiřazen page rank, který jednoznačně určoval pořadí na stránce, která zobrazovala výsledky vyhledávání. Page rank je v zásadě číslo, které se vypočítává velmi složitě, a mezi základní proměnné, ze kterých je určován, patří počet odkazů vedoucí na tuto stránku, počet odkazů vedoucích z této stránky, návštěvnost stránky a také celá řada dalších parametrů jako je počet nadpisů, výskyt klíčových slov a řada dalších. Dnešní moderní vyhledávače se již s tímto postupem nespokojují a snaží se nabídnout výsledky, které by byly ušity maximálně na míru konkrétnímu uživateli. Na základě našeho předchozího informačního chování, toho, na které odkazy jsme klikali a co se nám vlastně líbilo, se snaží odhadnout, co se nám bude líbit v budoucnu, a podle toho nám upravit výsledky vyhledávání. Tato ***ýza umožňuje nejen nabízet lepší a přesvědčivější výsledky pro každého konkrétního uživatele, ale také na něj lépe cílit reklamu. Tomuto procesu se říká personalizace a v zásadě existují tři základní cesty, jak ji realizovat. Tou nejjednodušší je studovat jednotlivé prokliky uživatele a ty odkazy, na které kliká nejčastěji, posouvat ve vyhledávání nahoru a naopak ty, které ho nezajímají, z vyhledávání selektovat a posouvat buď dolů anebo je nahrazovat zcela jinými. Po hlubší ***ýze jsou schopni softwaroví agenti, kteří pracují uvnitř vyhledávacích strojů, rozhodnout, zda jste ajťák a při zadání slova LaTeX vás zajímá jazyk pro sazbu dokumentů anebo zda vyhledáváte informace o bílé tekutině, která vzniká v mléčnicích některých rostlin a ze které se vyráběly pneumatiky nebo například kondomy. K druhé fázi personalizace výsledků vyhledávání přistoupil Google v roce 2004. Od té doby ho již nezajímá pouze historie vašeho vyhledávání, ale k těmto datům připojuje celou řadu dalších, jako jsou například informace z poštovní schránky, kterou máme u Gmailu, dokumenty z GDrive nebo data ze sociální sítě Google +. Díky všem těmto informacím má k dispozici dokonalý profil uživatele, kterému může nabízet dokonalé výsledky vyhledávání stejně jako mimořádně dobře cílenou reklamu. Pokud si chcete vyzkoušet, co všechno se dá o vás najít na internetu, můžete vyzkoušet zajímavou vídeňskou službu, která se jmenuje Data Dealer. Té předložíte informace o tom, jaké máte zřízené profily a co všechno na nich sdělujete. Popíšete stručně, jakou máte digitální stopu, a na základě těchto informací vám Data Dealer vystaví jakýsi profil, který vám ukazuje, co všechno se o vás dá na internetu zjistit a co všechno by vlastně případní útočníci mohli proti vám použít. Vtipně tuto situaci ilustruje tento klip. Třetí možností, jak pracovat s personalizací výsledků vyhledávání, je počítačové zpracování emocí. Pomocí intonace hlasu, tepu, teploty kůže, galvanického odporu a řady dalších parametrů lze relativně snadno sestavit emocionální profil uživatele a na základě něj personalizovat výsledky vyhledávání a upravovat je podle toho, jak se daný uživatel cítí. Lze mu předkládat výsledky jiné v případě, že je zrovna aktuálně rozzlobený, nebo když je smutný či naštvaný. Ukázkou těchto technologií jsou Apple Siri či Google Now. Tito hlasoví asistenti umožní vyhledávat informace pomocí hlasu a právě detekce emocí je mimořádně důležitá pro to, aby tyto stroje pochopily, o čem člověk vlastně mluví. Jestliže člověk pokládá příkazy patřičnému zařízení a používá přitom ironii, ***ázku či jiný běžný jazykový prostředek, je potřeba, aby příslušný automat byl schopen tyto emoce identifikovat, rozpoznat a poskytnout správné výsledky vyhledávání. Počítačové zpracování emocí má také velký význam pro syntézu řeči, která je pro činnost těchto asistentů nezbytná. Budoucnost vyhledávání jde ale dál. Zatímco současné vyhledávače v zásadě jen velmi chytrým způsobem manipulují s daty, jejichž významu vůbec nerozumí, budoucnost má být taková, že vyhledávače budou schopny pracovat s informacemi, čili s daty, kterým budou schopny dát patřičný význam a hodnotu a odvozovat z nich nějaké nové vlastnosti a poznatky. Konceptu, který přichází s tím, že by web měl pracovat s informacemi a ne s daty, se říká sémantický web. Sémantický web je ovšem trochu něco jako Yetti. Všichni o něm mluví, ale nikdo ho nikdy neviděl. K tomu, abychom naučili stroje rozumět datům, se používá značkovací jazyk RDF, který je ovšem relativně složitý. Abychom si ukázali, jak vlastně funguje, použijeme triviálního příkladu věty „Autorem Babičky je Božena Němcová.“ V tomto případě je Babička podmětem, autorství vlastností a Božena Němcová předmětem. Avšak pokud větu formulujeme při zachování stejného významu – „Božena Němcová je autorkou Babičky.“ – Stává se Božena Němcová podmětem a Babička předmětem. Ve skutečnosti je to však ještě mnohem složitější. Počítačové zpracování přirozeného jazyka a odvozování znalostí tedy musí stát na poněkud jiných principech, i když ona motivace, se kterou jsme přicházeli ke konceptu sémantického webu, zůstává zachována. V současné době jsou jedinými funkčními řešeními uzavřené proprietární systémy, jejichž krásným příkladem je například Wolfram Alfa. Zajímá vás, jaké bylo počasí 17. listopadu 1989 v Praze? Tedy v revoluční den? Teplota byla -1° C a od 14 do 17 hodin bylo dokonce i větrno. Jinou cestou se vydává například Google, který provozuje svůj diagram znalostí, který se snaží z výsledků vyhledávání vytáhnout či vydestilovat některé základní informace, které může uživatel chtít najít, aby nemusel stránky s výsledky vyhledávání vůbec opouštět. Příkladem může být krátký medailonek Václava Klause anebo například informace o kočce domácí. Pokud vás zajímá odpověď na otázku z úvodu videa, tedy podle čeho Google řadí výsledky vyhledávání, tak odpovědí je jediné slovo. Personalizace. Nejde jen o ***ýzu předchozího informačního chování uživatelů, ale také o snahu získání co největšího množství dalších dat. O tom, co uživatele baví, zajímá, jaké má koníčky nebo z jakého sociálního a kulturního kontextu vychází. Toto všechno se potom kombinuje s dataminingem a dalšími pokročilými metodami tak, aby uživatel získal maximálně personalizované a tedy mu na míru ušité výsledky vyhledávání, ovšem jedním dechem musíme dodat také, že jde o to, abychom mu byli schopni co možná nejlépe prodat reklamu. Vyhledávání je jednou z nejdůležitějších lidských činností. Jestliže žijeme v informační společnosti, můžeme říci, že vyhledávání informací, jejich zpracovávání a manipulace s nimi představuje jednu z nejdůležitějších činností, které může člověk dělat. Schopnost vyhledat správné informace je nezbytná k ekonomické, kulturní i sociální integraci do informační společnosti. Jestliže 20 % obyvatel Evropské unie nikdy nepřistoupilo na internet, nikdy nic nevyhledávalo, a nebylo schopno pracovat s informacemi, představuje tato skutečnost vážný sociální i ekonomický problém. Informace jsou zdrojem bohatství, moci a prosperity. Jestliže se podíváme na žebříček nejbohatších a nejúspěšnějších firem dnešní doby, zjistíme, že téměř výhradně jsou mezi nimi zastoupeny ty, které nějakým způsobem manipulují s informacemi. Řada nedemokratických států jako je Čína, Írán či Kuba své internety uzavírají a vytvářejí z nich jakési podivné ostrůvky, na kterých nelze nic najít. V demokratických státech jsme pak odkázáni na dobrou vůli vyhledávačů a jejich správců, nicméně můžeme říci, že nedostatečně moderní industriální systémy ochran autorských práv často vyúsťují ve smlouvy jako je PIPA, SOPA či ACTA, které vyhledávání na internetu ve skutečnosti značně omezují a komplikují. Ač vyhledávání může na první pohled působit jako relativně triviální a nezajímavá záležitost, má zcela zásadní vliv na to, jaké informace se k nám dostávají, o čem přemýšlíme, a zprostředkovaně také na to, jakým způsobem vnímáme svět kolem nás. Proto rozhodně stojí za to věnovat mu náležitou pozornost. Přemýšlet *** tím, jakým způsobem funguje. Jestliže se chcete dozvědět více, můžete se podívat na můj článek „Budoucnost vyhledávání“ mezi soukromím, technologií a legislativou.