Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Ahoj.
Vítáme každého.
Mé jméno je Lucas Freitas.
Jsem junior na [neslyšitelný] studium výpočetní technika se zaměřením na
počítačová lingvistika.
Takže moje sekundární je v jazyce a lingvistické teorie.
Jsem opravdu ***šený, že učit vás kluci něco málo o této oblasti.
Je to velmi vzrušující prostor ke studiu.
Rovněž s velkým potenciálem pro budoucnost.
Takže jsem opravdu ***šená, že vy uvažujete o projekty v
počítačová lingvistika.
A já budu více než rád poradí někdo z vás, zda se rozhodnete
sledují jeden z nich.
>> Takže v první řadě to, co je výpočetní lingvistika?
Takže počítačová lingvistika je Průsečík mezi lingvistiky a
počítačová věda.
Takže, co je lingvistika?
Co je to počítačová věda?
No z lingvistiky, co Vezmeme jsou jazyky.
Takže lingvistika je vlastně studium přirozeného jazyka obecně.
Takže přirozený jazyk - hovoříme o jazyk, který jsme vlastně použít k
vzájemně komunikovat.
Takže jsme zrovna mluví o C nebo Java.
Mluvíme více o angličtině a Číňané a další jazyky, které jsme
používají ke komunikaci mezi sebou navzájem.
>> Náročná věc, o to je to, že teď máme téměř 7000
jazyků na světě.
Takže existuje poměrně vysoká odrůda jazyků, které můžeme studovat.
A pak si myslím, že je to pravděpodobně velmi těžké udělat, například,
překlad z jednoho jazyka do jiné, za to, že máte
téměř 7000 z nich.
Takže, pokud si myslíte, že děláte překlad z jednoho jazyka do druhého si
mají téměř více než milion různé kombinace, které můžete
se od jazyka k jazyku.
Takže je to opravdu náročné udělat nějaké druh příklad překladu systému
každý jazyk.
>> Takže, lingvistika zachází s syntaxí, sémantika, pragmatika.
Vy ne zrovna potřebujete vědět, co jsou.
Ale velmi zajímavá věc je, že jako rodilý mluvčí, když se naučíte
jazyk jako dítě, vlastně učit všechny ty věci - syntaxe sémantika
a pragmatika -
sami.
A nikdo se naučit syntaxi pro abyste pochopili, jak věty jsou
strukturované.
Takže, je to opravdu zajímavé, protože je to něco, co je velmi
intuitivně.
>> A co bereš od počítačová věda?
No, nejdůležitější věc, kterou bychom mají v informatice je první
vše, umělá inteligence a strojové učení.
Takže to, co se snažíme dělat výpočetní lingvistika je vyučovat
váš počítač, jak něco udělat s jazykem.
>> Tak, například, v přístroji překlad.
Snažím se učit můj počítač how vědět, jak přejít z jednoho
jazyka do druhého.
Takže, v podstatě rád učení počítačové dva jazyky.
Pokud se mi zpracování přirozeného jazyka, což je případ například
Facebook je graf Vyhledávání, učíte počítač, jak porozumět
dotazy dobře.
>> Takže, když řeknete "fotografie z mého přátelé. "Facebook neléčí, že
jako celý řetězec, který má jen banda slov.
Je to vlastně chápe vztah mezi "fotky" a "moji přátelé" a
chápe, že "fotky" jsou vlastnost "mých přátel."
>> Tak, to je část, například, zpracování přirozeného jazyka.
Snaží se porozumět tomu, co je vztah mezi
slova ve větě.
A velká otázka je, můžete naučit počítač, jak mluvit
jazyka obecně?
Což je velmi zajímavá otázka, myslím, jako by snad v budoucnu,
budete mít možnost poraďte se se svým mobilním telefonem.
Něco jako to, co děláme s Siri, ale něco jako, můžete skutečně
říkat, co chcete, a telefon bude rozumět všemu.
A to může mít navazující otázky a dál mluvit.
To je něco, co opravdu vzrušující, podle mého názoru.
>> Takže, něco o přirozených jazyků.
Něco opravdu zajímavé přirozené jazyky je to, že, a to je
úvěr na můj profesor lingvistiky, Maria Polinsky.
Dává příklad a myslím, že je to opravdu zajímavé.
Vzhledem k tomu, učíme jazyk od okamžiku, kdy se narodíme a pak náš rodák
Jazyk druh roste na nás.
>> A v podstatě se naučíte jazyk od minimální vstup, ne?
Vy jste jen dostat vstup z vašeho rodiče o tom, co váš jazyk zvuky
líbí a prostě se to naučit.
Takže, je to zajímavé, protože když se podíváte v těchto větách, například.
Můžete se podívat, "Mary staví na kabát každé čas odejde z domu. "
>> V tomto případě je možné mít Slovo "to" se vztahují k Marii, že jo?
Můžete říci: "Mary staví na kabát pokaždé, když opouští Mary
dům. "tak, že je v pořádku.
Ale pak když se podíváte na věty "Ona si vezme kabát pokaždé Mary
opustí dům. "Víš, že je to možné říci, že "ona" je
s odkazem na Marii.
>> Neexistuje žádný způsob, jak říct, že "Mary klade na kabát pokaždé Mary listy
dům. "Tak to je zajímavé, protože toto je ten druh intuice
že každý rodilý mluvčí má.
A nikdo se učili, že je to tak, že syntaxe funguje.
A to můžete mít jen tuto "ona" s odkazem na Marii v tomto prvním případě,
a ve skutečnosti v této jiné taky, ale ne v tomhle.
Ale každý druh dostane na stejnou odpověď.
Všichni se shodují na tom.
Tak to je opravdu zajímavé, jak i neznáte všechna pravidla
ve vašem jazyce tak nějak pochopit, jak jazyk funguje.
>> Takže zajímavá věc, o přírodní jazyk, je, že nemusíte
neznám syntaxi vědět, zda věta je gramatická nebo ungrammatical pro
ve většině případů.
Což si myslím, že možná to, co se stane, je, že přes svého života, budete
jen držet stále více a více věty řekl pro vás.
A pak budete mít zapamatování všechny vět.
A pak, když vám někdo řekne, něco, uslyšíte větu a
se díváte na svého slovníku vět a zjistit, zda
že věta je tam.
A pokud je tam máte říkají, že je to gramatický.
Pokud to není řeknete, že je to ungrammatical.
>> Takže v tomto případě, byste řekli, oh, takže máte obrovský seznam všech
Možné tresty.
A pak, když uslyšíte větu, Víte, jestli je to gramatický nebo
není založen na tom.
Věc je, že když se podíváte na věty, například "
pět v čele CS50 TFS vařené slepého chobotnice pomocí daPa hrnek. "Je to
rozhodně ne trest že jste slyšeli předtím.
Ale zároveň víte, že je to skoro gramatické, že jo?
Nejsou žádné gramatické chyby a lze říci, že
je to možné trest.
>> Tak to z nás dělá si myslí, že ve skutečnosti tak, že se učíme jazyk není jen
tím, že má obrovskou databázi možný slova nebo věty, ale více
pochopení vztahu mezi Slova v těchto větách.
Má to smysl?
Takže pak je otázka, může Počítače se učí jazyky?
Můžeme učit jazyk počítače?
>> Takže, pojďme přemýšlet o rozdílu mezi rodilým mluvčím jazyka
a počítač.
Takže, co se stane s reproduktoru?
No, rodilý mluvčí učí jazyk z expozice k ní.
Obvykle jeho rané dětství.
Takže, v podstatě, stačí mít dítě, a pořád mluvit k němu, a to
jen učí, jak mluvit jazyk, ne?
Takže, jste v podstatě dává vstup pro dítě.
Takže, pak můžete tvrdit, že počítač můžete udělat totéž, ne?
Stačí si jen dát JAZYKA jako vstup do počítače.
>> Jako například banda souborů které mají knihy v angličtině.
Možná, že je to jeden ze způsobů, které vám by se mohla učit
počítač English, jo?
A ve skutečnosti, pokud si myslíte, že o tom, to se ti možná pár
dny, číst knihu.
Na počítači to trvá sekundu podívejte se na všechny slova v knize.
Takže si můžete myslet, že může být jen to Argument vstup z kolem vás,
to nestačí říci, že je to něco, co jen člověk může dělat.
Můžete si myslet počítače mohou také získat vstup.
>> Druhá věc je, že rodilí mluvčí také mozek, který má
schopnost učení se jazyka.
Ale pokud si myslíte, že o tom, Mozek je solidní věc.
Když jste se narodili, je to již nastaven -
To je váš mozek.
A jak vyrosteš, stačí si více Vstup jazyka a možná živiny
a další věci.
Ale do značné míry se váš mozek je pevná věc.
>> Takže můžete říct, dobře, možná můžete postavit počítač, který má spoustu
funkce a metody, které jen napodobují schopnost učení se jazyka.
Takže v tomto smyslu, dalo by se říct, dobře, já může mít počítač, který má všechny
věci, které jsem se potřebují naučit jazyk.
A poslední věc je, že nativní mluvčí učí od pokusů a omylů.
Takže v podstatě další důležitá věc jazykového vzdělávání je, že druh
z naučit věci tím, že zobecnění toho, co slyšíte.
>> Takže, jak jste vyrůstal jste se dozvěděli, že některá slova jsou jako podstatná jména,
některé další z nich jsou adjektiva.
A nemusíte mít jakýkoli znalost lingvistiky
pochopit, že.
Ale prostě vím, že je některá slova jsou umístěny v určité části
věta a některé další v jiných části věty.
>> A že když děláte něco, co je jako věta, že není správné -
možná proto, že z více než generalizace například.
Možná, když jste vyrůstal, si všimnete že množné číslo je obvykle
tvořil tím, že by s při konec slova.
A pak se pokusíte udělat množný "jelen" jako "jeleni" nebo "zub" je
"zubu." Takže pak se vaše rodiče, nebo někdo opraví a řekne, ne,
množné číslo "jelen" je "jelen", a množný "zub" je "zuby". A pak
naučíte ty věci.
Takže jste se dozvěděli od pokusů a omylů.
>> Ale můžete si také udělat, že s počítačem.
Můžete mít něco, co nazývá posilované učení.
Což je v podstatě jako dávat Počítač odměna kdykoli to dělá
něco správně.
A dávat to opak odměnu a když se dělá něco špatného.
Můžete skutečně vidět, že když jdete do Google Translate a zkuste
přeložit větu, že zeptá se vás, pro zpětnou vazbu.
Takže když říkáte, ach, tam je lepší překlad pro tuto větu.
Můžete zadejte jej a pak, pokud hodně lidé stále říkají, že je lepší
překlad, to prostě zjistí, že je to by se namísto použít tento překlad
kdo to dával.
>> Takže, je to velmi filozofická otázka zjistit, zda počítače se bude
schopen mluvit, nebo ne v budoucnosti.
Ale já jsem si velké ***ěje, že mohou právě na základě těchto argumentů.
Ale je to jen více filozofický otázka.
>> Takže i když počítače stále nemůže mluvit, jaké jsou věci, které můžeme dělat?
Některé opravdu cool věci jsou klasifikace dat.
Tak, například, vy víte, že e-mailové služby, ano, pro
příklad, filtrování spamu.
Takže pokaždé, když obdržíte spam, to se snaží filtrovat na jiné pole.
Tak jak to dělá, že?
Není to tak, že počítač prostě ví, jaké e-mailové adresy jsou odesílání spamu.
Takže je to víc na základě obsahu zprávy, nebo možná titulu, nebo
možná nějaký vzor, který máte.
>> Takže, v podstatě, co můžete udělat, je dostat Mnoho údajů o e-maily, které jsou spam,
e-maily, které nejsou spam, a dozvědět se, co druh vzorů máte v
ty, které jsou spam.
A toto je část výpočetních lingvistika.
Říká se klasifikace dat.
A my vlastně uvidí příklad, že v příštích snímků.
>> Druhá věc je přirozený jazyk zpracování, což je věc, která se
Graf Hledání dělá z nájmu můžete napsat větu.
A věří, že chápete, co je smysl a dává
Jste lepší výsledek.
Ve skutečnosti, pokud jdete na Google nebo Bing a hledat něco jako dáma
Výška Gaga, jste vlastně děje získat 5 '1 "namísto informací
od ní, protože to vlastně chápe co mluvíš.
Takže to je součástí přírodního zpracování jazyka.
>> Nebo také v případě, že používáte Siri, první Máte algoritmus, který se snaží
překládat, co říkáš do slov v textu.
A pak se snaží překládat že na významu.
Takže to vše je součástí přírodní zpracování jazyka.
>> Pak máte strojového překladu -
, který je ve skutečnosti jedna z mých oblíbených -
který je jen překlad z jazyka do druhého.
Takže si můžete myslet, že když děláte strojový překlad, máte
nekonečné možnosti vět.
Takže neexistuje žádný způsob, jak jen ukládání každý překlad.
Takže budete muset přijít s zajímavý algoritmy, aby bylo možné
překládat každý věta nějakým způsobem.
>> Vy máte nějaké otázky tak daleko?
Ne?
OK.
>> Takže to, co budeme dnes vidět?
Za prvé, budu mluvit o tom, Problém klasifikace.
Takže ten, že jsem byl říká o spamu.
Co budu dělat, je vzhledem k tomu, Text skladby skladbu, můžete se pokusit přijít na to,
s vysokou pravděpodobností kdo je zpěvačka?
Řekněme, že mám písničky od Lady Gaga a Katy Perry, kdybych vám
nový song, můžete zjistit, zda to je Katy Perry nebo Lady Gaga?
>> Druhý, já jsem jen mluvit o problému segmentace.
Tak nevím, jestli vy víte, ale Čínština, japonština, další východní Asie
jazyky a další jazyky obecně, nemají
mezery mezi slovy.
A pak, pokud si myslíte, že o tom, jak této počítač druhu pokusů na
pochopit, zpracování přirozeného jazyka, to vypadá na slova a
se snaží pochopit vztahy mezi nimi, ne?
Ale pak, pokud máte čínsky, a mají nulové mezery, je to opravdu těžké
zjistit, jaký je vztah mezi slova, protože nemají žádné
slova na prvním místě.
Takže budete muset udělat něco, co nazývá segmentace, která prostě znamená uvedení
mezery mezi tím, co bychom nazvali slova v těchto jazycích.
Smysl?
>> A pak budeme mluvit o syntaxi.
Takže jen trochu o přírodní zpracování jazyka.
Bude to mít jen přehled.
Takže dnes, v podstatě to, co chci dělat, se vám kluci trochu
uvnitř, jaké jsou možnosti které můžete dělat s výpočetních
lingvistika.
A pak vidíte, co si myslíte je v pohodě mezi těmito věcmi.
A možná, že si můžete myslet o projektu a přijít se mnou mluvit.
A mohu vám poradit o tom, jak to provést.
>> Takže syntaxe bude trochu o Graf vyhledávání a stroje
překlad.
Jdu dát příklad toho, jak můžete například překládat
něco z portugalštiny do angličtiny.
Zní to dobře?
>> Tak za prvé, problém klasifikace.
Řeknu, že tato část semináře bude nejnáročnější
jeden jen proto, že se děje být některé kódování.
Ale to bude Python.
Vím, že vy nevíte, Python, takže Jdu vysvětlit na vysoké
úrovni to, co dělám.
A nemusíte se opravdu záleží také hodně o syntaxi, protože to je
něco, co vy můžete naučit.
OK?
To zní dobře.
>> Tak v čem je problém klasifikace?
Takže vzhledem k některé texty na píseň, a chcete hádat
který je zpívat.
A to může být pro jakýkoli druh dalších problémů.
Takže to může být, například, máte prezidentská kampaň a máte
řeč, a chcete najít , jestli je to, například,
Obama a Mitt Romney.
Nebo můžete mít spoustu e-mailů a Chcete-li zjistit, zda jsou
spam nebo ne.
Takže je to jen klasifikaci některých Údaje založené na slova
že jste tam.
>> Takže to, že budete muset provést některé předpoklady.
Takže hodně o počítačové lingvistiky dělá předpokladů,
obvykle inteligentní předpoklady, aby můžete získat dobré výsledky.
Snažím se vytvořit model pro ni.
A pak se to vyzkoušet a zjistit, jestli to funguje, v případě, že vám dává dobrou přesnost.
A pokud ano, pak jste pokusit se zlepšit.
Pokud tomu tak není, budete rád, OK, možná jsem by měl jiný předpoklad.
>> Takže předpoklad, že budeme je to, že umělec se obvykle zpívá
o tématu několikrát, a možná používá slova několikrát jen
protože jsou na to zvyklí.
Stačí si jen myslet na svého přítele.
Jsem si jistý, kluci mají přátele které říkají, jejich podpis frázi,
doslova pro každou větu -
jako nějaká konkrétní slova nebo některých specifických fráze, které říkají, že pro
každý trest.
>> A to, co mohu říci, je, že když vidíte větu, která má podpis
fráze, můžete hádat, že pravděpodobně Váš přítel je
kdo říká, že jo?
Tak uděláte tento předpoklad a pak to, jak vytvořit model.
>> Příklad, že budu dávat je na jak Lady Gaga, například, lidé
říkají, že ona používá "dítě" na všechny její číslo jedna písně.
A ve skutečnosti je to video, které ukazuje, jí říkat slovo "dítě" pro
různé písně.
>> [PŘEHRÁVÁNÍ]
>> - (SINGING) Dětská.
Dítě.
Dítě.
Dítě.
Dítě.
Babe.
Dítě.
Dítě.
Dítě.
Dítě.
>> [END VIDEOPŘEHRÁVÁNÍ-
>> LUCAS FREITAS: Takže tam jsou, myslím, 40 písní zde ve kterém ona říká
Slovo "dítě." Takže si můžete v podstatě hádat že když vidíte skladbu, která má
slovo "dítě", tam je nějaký vysoký pravděpodobnost, že je to Lady Gaga.
Ale zkusme se na rozvoji této dále pak formálně.
>> Takže se jedná o texty k písním od Lady Gaga a Katy Perry.
Takže se podíváte na Lady Gaga, můžete vidí mají mnoho výskytů "dítě,"
Mnoho výskytů "způsobem." A pak Katy Perry má mnoho výskytů
"," Mnoho výskytů "ohně."
>> Takže v podstatě to, co chceme to znamená, že dostanete lyriku.
Řekněme, že budete mít lyriku pro píseň, která je "dítě" jen "dítě." Jestliže
stačí si slovo "dítě", a to je všechna data, která jste od
Lady Gaga a Katy Perry, která by můžete hádat, je osoba,
kdo zpívá písničku?
Lady Gaga nebo Katy Perry?
Lady Gaga, že jo?
Vzhledem k tomu, že je jediný, kdo říká, že "Dítě." Zní to hloupě, že jo?
OK, je to opravdu snadné.
Jen se dívám na dvou písních a Samozřejmě, ona je jediná, kdo má
"Dítě."
>> Ale co když máte spoustu slov?
Máte-li skutečný lyrická, něco jako "dítě, já jen
šel vidět [? CFT?]
přednáška, "nebo něco takového, a pak jste skutečně zjistit, -
na základě všech těchto slov -
kdo je umělec, který pravděpodobně zpíval tuto píseň?
Takže pojďme se snaží rozvíjet Tento kousek dál.
>> OK, takže na základě jen na data, která se má, zdá se, že Gaga je pravděpodobně
zpěvák.
Ale jak můžeme psát to více formálně?
A tam to bude trochu Trochu statistiky.
Takže pokud jste se ztratili, ať to zkusí pochopit pojem.
Nezáleží na tom, jestli mi rozumíte rovnice dobře.
To vše bude on-line.
>> Takže v podstatě to, co jsem výpočet je pravděpodobnost, že tato píseň je o
Lady Gaga za předpokladu, že -
takže to znamená, bar za předpokladu, že -
Viděl jsem slovo "dítě". Má to smysl?
Takže se snažím vypočítat že pravděpodobnost.
>> Takže tam je to věta nazývá Bayesův teorém, který říká, že
pravděpodobnost daného B, je pravděpodobnost B vzhledem k A, doba
pravděpodobnost, než pravděpodobnost B. Jedná se o dlouhý rovnice.
Ale to, co musíte pochopit, ze to je, že to je to, co chci
vypočítat, že jo?
Takže pravděpodobnost, že píseň je o Lady Gaga za předpokladu, že jsem viděl slovo
"Dítě."
>> A teď, co jsem dostat je pravděpodobnost, že se slovo "dítě" vzhledem
že mám Lady Gaga.
A co je to v podstatě?
Co to znamená je to, co je pravděpodobnost vidět slovo "dítě"
V Gaga texty?
Pokud chci, aby vypočítali, že ve velmi Jednoduchý způsob, je to jen číslo
Časy vidím "dítě" na celkovém počtu slov v Gaga texty, ne?
Jaká je frekvence, kterou vidím že slovo Gaga práci?
Smysl?
>> Druhý termín je pravděpodobnost Gaga.
Co to znamená?
To v podstatě znamená, že to, co je pravděpodobnost zařazení
Některé texty jsou Gaga?
A to je trochu divné, ale pojďme myslet na příkladu.
Takže řekněme, že pravděpodobnost s "dítě" v písni je stejný
pro Gaga a Britney Spears.
Ale Britney Spears má dvakrát více písní, než Lady Gaga.
Takže pokud vám někdo jen náhodně dává Slova "dítě", první věc, kterou
podívat se na to, co je pravděpodobnost s "dítě" ve Gaga píseň, "dítě"
ve Britney písni?
A to je to samé.
>> Takže druhá věc, kterou uvidíte, je, dobře, co je pravděpodobnost
Tento lyrický samo o sobě, že Gaga lyric, a jaká je pravděpodobnost, že
že Britney lyrický?
Takže od Britney má tolik víc texty než Gaga, by pravděpodobně
řekněme, no, to je asi Britney lyrický.
Takže to je důvod, proč máme tento nazvat přímo zde.
Pravděpodobnost Gaga.
Dává to smysl?
Má to?
OK.
>> A poslední je jen pravděpodobnost o "dítě", které není
opravdu záležitost, která hodně.
Ale je to pravděpodobnost vidět "dítě" v angličtině.
Obvykle je to jedno, že hodně o tom termínu.
Má to smysl?
Takže pravděpodobnost Gaga je volal před pravděpodobnosti
třídního Gaga.
Vzhledem k tomu, to jen znamená, že to, co je pravděpodobnost, že bude tuto třídu -
který je Gaga -
jen obecně, jen bez podmínek.
>> A pak, když jsem se pravděpodobnost Gaga vzhledem k "dítě," říkáme a
uslzené pravděpodobnosti, protože je to pravděpodobnost, že bude
Gaga uveden nějaký důkaz.
Takže dávám vám důkazy že jsem viděl slovo dítě a
Píseň smysl?
OK.
>> Takže když jsem spočítal, že pro každý z písní pro Lady Gaga,
co by to bylo -
Zdá se, že nemůžu pohnout to.
Pravděpodobnost, že Gaga bude něco podobného, 2 přes 24, časy 1/2,
více než 2 po 53.
Nezáleží na tom, jestli víte, co tato čísla jsou zasílány z.
Ale je to jen číslo, které se bude být větší než 0, ne?
>> A pak, když jsem to Katy Perry, pravděpodobnost "dítě", vzhledem Katy je
Již 0, ne?
Protože neexistuje žádný "dítě" Katy Perry.
Takže pak to bude 0, a Gaga vítězství, což znamená, že Gaga je
pravděpodobně zpěvák.
Má to smysl?
OK.
>> Takže pokud chci, aby to více úředníka, Mohu skutečně udělat model
Pro více slov.
Takže řekněme, že mám něco, co jako "baby, já jsem
v ohni, "nebo tak něco.
Tak to má více slov.
A v tomto případě, můžete vidět že "dítě" je Gaga,
ale to není v Katy.
A "oheň" je v Katy, ale to není v Gaga, že jo?
Takže je to čím dál složitější, že jo?
Vzhledem k tomu, zdá se, že téměř mít kravatu mezi nimi.
>> Takže to, co musíte udělat, je předpokládat, nezávislost mezi slova.
Takže v podstatě to, co to znamená, že Já jen výpočet toho, jaká je
pravděpodobnost vidět "dítě," to, co je pravděpodobnost vidět "já", a
"Já", a "o" a "oheň," všechny samostatně.
Pak jsem vynásobením všechny z nich.
A já jsem viděl, co je pravděpodobnost, vidět celou větu.
Smysl?
>> Takže v podstatě, když mám jen jedno slovo, to, co chci najít, je arg max,
což znamená, že to, co je třída, která je mi dává největší pravděpodobnost?
Takže to, co je třída, která dává mě nejvyšší pravděpodobnost
pravděpodobnost třídy daného slova.
Takže v tomto případě, vzhledem k tomu Gaga "dítě." Stejně Katy "dítě." Smysl?
>> A právě z Bayes, že rovnice, že jsem ukázal,
jsme se vytvořit tento zlomek.
Jediná věc je, že vidíte, že pravděpodobnost slova vzhledem
změny třídy v závislosti na třídě, že jo?
Počet "Baby" s, které jsem V Gaga se liší od Katy.
Pravděpodobnost třídy také změny, protože je to jen číslo
písní každý z nich má.
>> Ale pravděpodobnost, že se slova sám bude stejná pro všechny
umělci, že jo?
Takže pravděpodobnost, že slovo je Jen to, co je pravděpodobnost
vidět, že slovo Anglický jazyk?
Takže je to stejné pro všechny z nich.
Takže, protože to je konstanta, můžeme jen pokles to a nezajímá o to.
Takže to bude skutečně rovnice hledáme.
>> A pokud mám více slov, jsem ještě bude mít před
pravděpodobnost zde.
Jediná věc je, že jsem násobení pravděpodobnost
všechny ostatní slova.
Takže jsem vynásobením všechny z nich.
Smysl?
Vypadá to divně, ale v podstatě znamená, výpočet předchozí třídy, a
pak násobit pravděpodobností každého slov je v této třídě.
>> A víte, že pravděpodobnost Slovo vzhledem třída bude
kolikrát vidíte, že slovo že třída, děleno počtem
slova, máte v tom, že třída obecně.
Smysl?
Je to, jak "dítě" bylo 2 přes počet slov, které
Měl jsem v textu.
Takže jen frekvence.
>> Ale je tu jedna věc.
Vzpomínám si, jak jsem se o tom, že pravděpodobnost "Baby" bytí texty
od Katy Perry 0. jen proto, že Katy Perry neměl "dítě" vůbec?
Ale zní to trochu krutý jen jednoduše říci, že texty nemohou být z
umělec jen proto, že nemají tento výraz zejména kdykoliv.
>> Takže jste mohli jen říct, dobře, pokud nemají slovo, budu
vám nižší pravděpodobnost, ale já prostě nebude
vám 0. hned.
Vzhledem k tomu, možná to bylo něco jako, "Oheň, oheň, oheň, oheň," který je
úplně Katy Perry.
A pak "dítě", a to jen dokazuje, 0 hned, protože tam byl jeden
"Dítě."
>> Takže v podstatě to, co děláme, je něco, co tzv. Laplace vyhlazování.
A to jen znamená, že dávám určitou pravděpodobností i slov
že neexistují.
Takže to, co dělám, je, že když jsem výpočtu to, vždycky jsem přidat 1 až
čitatel.
Takže i když slovo neexistuje, v V tomto případě, pokud je to 0, jsem stále
výpočet toto jako jeden přes Celkový počet slov.
Jinak jsem si, kolik slov Mám a jsem přidat 1 ks.
Takže jsem počítal pro oba případy.
Smysl?
>> Takže teď pojďme udělat nějaké kódování.
Budu muset udělat to docela rychle, ale to je jen důležité, aby vám
kluci pochopit koncepty.
Takže to, co se snažíme dělat je přesně realizovat tento
věc, kterou jsem právě řekl -
Chci vám dát texty od Lady Gaga a Katy Perry.
A program se bude moci říci, zda tyto nové texty jsou od Gaga
nebo Katy Perry.
Smysl?
OK.
>> Tak jsem si tento program Jdu volat classify.py.
Tak tohle je Python.
Je to nový programovací jazyk.
To je velmi podobné v některých způsoby, jak C a PHP.
Je to podobné, protože pokud chcete učit Python po znát C, je to
opravdu není, že velkou výzvu jen proto, že Python je mnohem jednodušší
než C, v první řadě.
A spousta věcí se již implementován pro vás.
Tak, jak jako PHP má funkce, které seřadit seznam, nebo přidat něco
na pole, nebo bla, bla, bla.
Python má všechny ty, které jsou dobře.
>> Tak jsem jen tak vysvětlit rychle jak bychom mohli udělat klasifikaci
problém zde.
Takže řekněme, že v tomto případě mám texty z Gaga a Katy Perry.
Způsobem, že mám ty texty, je, že první slovo textu je
jméno umělce, a zbytek je text.
Takže řekněme, že mám tento seznam v nichž první je text od Gaga.
Tak tady jsem na správné cestě.
A další je Katy, a má také texty.
>> Tak to je, jak deklarovat proměnná v Pythonu.
Nemusíte dávat datový typ.
Stačí napsat "texty" Něco jako v PHP.
Smysl?
>> Takže jaké jsou věci, které jsem se vypočítat, aby bylo možné vypočítat
pravděpodobnosti?
Musím vypočítat "priors" každého jiný
třídy, které mám.
Musím vypočítat "distální", nebo do značné míry pravděpodobnosti
každého z různých slov, která Mohu mít pro každého umělce.
Takže v rámci Gaga, například, já jdu mít seznam kolikrát vidím
každý ze slov.
Smysl?
>> A nakonec, já jen budu muset Seznam s názvem "slova", která se právě chystá
mít, kolik slov jsem mít pro každého umělce.
Takže pro Gaga, například, když se podívám k textu, jsem, myslím, 24
Slova celkem.
Takže tento seznam je jen bude mít Gaga 24, a Katy jiné číslo.
Smysl?
OK.
>> Takže teď, vlastně, pojďme jít na kódování.
Takže v Pythonu, můžete skutečně návrat na spoustu různých
věci z funkce.
Takže jdu vytvořit tuto funkci tzv. "podmíněné", který se bude
vrá*** všechny ty věci, "priors," že "pravděpodobnost", a
"slova." Takže "podmíněné", a to je bude volat do "texty."
>> Takže teď chci, abyste skutečně napsat tuto funkci.
Takže způsob, že mohu napsat tento funkce jsem definovala
fungovat s "def." Tak jsem to udělal "def podmíněné ", a to při
"Texty." A co to bude dělat je, v první řadě, mám priors
že chci počítat.
>> Takže způsob, jak to můžu udělat, je vytvořit slovník v jazyce Python, který
je skoro totéž jako hash stůl, nebo je to jako iterativní
pole v PHP.
To je, jak Prohlašuji slovník.
A v podstatě to, co to znamená, že priors Gaga je 0,5, například v případě,
50% z textů jsou z Gaga, 50% jsou od Katy.
Smysl?
Tak jsem se přijít na to, jak pro výpočet priors.
>> Příští ty, které musím udělat, i, jsou pravděpodobnosti a slova.
Takže pravděpodobnost Gaga je seznam ze všech pravděpodobností, že jsem
se pro každý ze slov pro Gaga.
Takže když jdu na pravděpodobnosti Gaga "Dítě", například, že to mi
něco jako 2 v průběhu 24 v tomto případě.
Smysl?
Tak já jdu na "pravděpodobnost", přejděte ke "Gaga" kbelík, který má seznam všech
slova Gaga, pak jdu na "dítě," a vidím pravděpodobnost.
>> A nakonec jsem si to "Slova" slovník.
Zde tedy, "pravděpodobnosti." A pak "slova." Takže když jsem to "slovo", "Gaga",
co se stane, je, že je to mi dáš 24, říká, že jsem
má 24 slov v textech z Gaga.
Dává to smysl?
Tak tady, "slova" rovná Dah-Dah-DAH.
OK
>> Takže, co budu dělat, je budu iteraci každý z textů, tak
každý z řetězců, které Mám v seznamu.
A budu počítat ty věci pro každý z kandidátů.
Dává to smysl?
Takže musím udělat pro smyčce.
>> Takže v Pythonu, co mohu udělat, je "pro linku v textech. "totéž jako
"Pro každý" prohlášení v PHP.
Vzpomínám si, jak kdyby to bylo PHP jsem mohl říci: "pro každý text jako
linka. "Dává to smysl?
Takže beru každý z řádků, v tomto případ, tento řetězec a další
řetězec, takže pro každou z linek, co jsem dělat, je první, budu
rozdělit tento řádek v seznamu slov oddělených mezerami.
>> Takže super věc o Pythonu je, že můžete jen Google, jako je "Jak mohu
rozdělit řetězec do slov? "A je to ti říct, jak to udělat.
A způsob, jak to udělat, je to jen "linka = Line.split () "a je to v podstatě
dám vám seznam s každý ze slov zde.
Dává to smysl?
Takže teď, že jsem to udělal, že chci vědět, kdo je zpěvačka této písně.
A k tomu, že jsem se dostat První prvek pole, ne?
Takže můžu jen říct, že jsem "zpěvák = Linka (0) "Dává to smysl?
>> A to, co musím udělat, pak je první všichni, budu aktualizovat, kolik
slova, která jsem si pod "Gaga". takže jsem jen bude počítat, kolik slov jsem
mají v tomto seznamu, ne?
Protože to je to, kolik slov mám ve slovech a já jen tak
přidat do "Gaga" pole.
Má to smysl?
Nepoužívejte příliš soustředí na syntaxi.
Přemýšlejte více o pojmy.
To je ta nejdůležitější část.
OK.
>> Takže to, co jsem si to, je-li "Gaga" je Již v tomto seznamu, tak "pokud zpěvák
slova ", což znamená, že jsem se již mají slova by Gaga.
Chci jen přidat další slova, že.
Takže to, co dělám, je "slova (zpěvák) + = Len (line) - 1 ".
A pak jsem si jen udělat délka vedení.
Tak kolik prvků I se v poli.
A musím udělat minus 1 jen proto, že První prvek pole je jen
zpěvák a ty nejsou texty.
Dává to smysl?
OK.
>> "Jinak," znamená to, že chci, aby skutečně vložit Gaga do seznamu.
Tak jsem prostě "slova (zpěvák) = Len (line) - 1, "Omlouvám se.
Takže jediný rozdíl mezi těmito dvěma vedení je, že tato jedna, to není
dosud neexistují, a tak jsem jen inicializaci.
Tenhle jsem vlastně přidat.
OK.
Takže to bylo přidáním slov.
>> Teď chci přidat Převorů.
Tak jak to mám vypočítat priors?
Převorové lze vypočítat podle toho, jak kolikrát.
Takže kolikrát vidíte, že zpěvák mezi všemi, které jste zpěváků
mít, že jo?
Takže pro Gaga a Katy Perry, v tomto případě vidím Gaga
jednou, Katy Perry jednou.
>> Takže v podstatě se priors pro Gaga a pro Katy Perry by
být jen jeden, ne?
Právě jste kolikrát Vidím umělce.
Tak to je velmi snadné vypočítat.
Mohu jen něco podobného jako jako "pokud zpěvák v priors, "Jdu
přidat 1 až jejich Priors pole.
Takže, "priors (zpívat)" + = 1 "a pak" jiný " Budu dělat, "priors (zpěvák)
= 1. "Dává to smysl?
>> Takže pokud to neexistuje, jen jsem dal jako 1, jinak jsem jen přidat 1 ks.
OK, tak teď všechno, co jsem odešel dělat je také přidat každý z slov
pravděpodobnosti.
Takže mám počítat, kolikrát Vidím každý ze slov.
Tak jsem prostě musel udělat další pro smyčku v řadě.
>> Takže první věc, kterou budu dělat, je zkontrolujte, zda zpěvačka už má
pravděpodobnosti pole.
Takže jsem kontrolovat, zda zpěvák není mají pravděpodobnosti pole, já jsem jen
bude inicializovat jeden pro ně.
Není to ani pole, je mi líto, je to slovník.
Takže pravděpodobnost zpěváka se děje být otevřený slovník, takže jsem
jen inicializaci slovník pro něj.
OK?
>> A teď může skutečně udělat pro smyčce pro výpočet každé ze slov "
pravděpodobnosti.
OK.
Takže to, co mohu udělat, je pro smyčce.
Tak jsem jen tak iteraci přes pole.
Takže tak, že to můžu udělat v Pythonu je "for i in range." Od 1.
protože chci začít v druhé element, protože první z nich je
Název zpěvák.
Takže z jednoho do délka vedení.
A když jsem se pohybují ve skutečnosti jít od jako zde od 1 do len z
linka minus 1.
Tak to už dělá tu věc dělat n minus 1 pro pole, které je velmi
pohodlné.
Dává to smysl?
>> Takže pro každého z nich, co budu udělat, je, stejně jako ve druhé,
Jdu zjistit, jestli slovo v tomto pozice v řadě je již v
pravděpodobnosti.
A pak, když jsem řekl tady, pravděpodobnosti slova, jako v dal jsem
"pravděpodobnosti (zpěvák)".
Takže jméno zpěváka.
Takže pokud je to již v roce "Probabilit (zpěvák)", znamená to, že jsem
Chcete přidat 1 k němu, takže budu dělat, "pravděpodobnosti (zpěvák)" a
Slovo se nazývá "linka (i)".
Chystám se přidat 1 a "jiný" Jsem jen bude inicializovat na hodnotu 1.
"Linka (i)".
Dává to smysl?
>> Tak, I vypočtená všech polí.
Takže teď vše, co mám udělat pro tohle je prostě "vrá*** priors,
pravděpodobnosti a slova. "Pojďme zjistit, zda existují nějaké, OK.
Zdá se, že vše funguje tak daleko.
Tak, to dává smysl?
V nějakým způsobem?
OK.
Takže teď mám všechny pravděpodobnosti.
Takže teď to jediné, co mi zbylo je jen mít tu věc, že
vypočítá součin všech Pravděpodobnosti, když jsem si texty.
>> Takže řekněme, že chci, aby se zavolat Tato funkce "klasifikace ()" a
věc, která funkce má je jen argumentem.
Řekněme, že "Baby, jsem na oheň" a je to bude zjistit, co je
pravděpodobnost, že je to Gaga?
Jaká je pravděpodobnost, že je to Katie?
Zní to dobře?
Takže jsem prostě muset vytvořit nová funkce s názvem "klasifikace ()" a
že to bude trvat nějaký texty stejně.
A kromě textů i já muset poslat priors,
pravděpodobnosti a slova.
Takže budu posílat texty, priors, pravděpodobnost, slova.
>> Takže je to s texty, priors, pravděpodobnost, slova.
Takže, co to dělá?
Je to v podstatě se chystá projít všechny možné kandidáty, které jste
mít jako zpěvák.
A kde jsou ty kandidáty?
Jsou v priors, že jo?
Tak jsem si všechny ty tam.
Takže budu mít slovník ze všech možných kandidátů.
A pak pro každého kandidáta v priors, tak to znamená, že to bude
bude Gaga, Katie, kdybych měl více, že to bude víc.
Chystám se začít výpočtu tato pravděpodobnost.
Pravděpodobnost, jak jsme viděli v PowerPoint je dřívější časy
produkt každého další pravděpodobnosti.
>> Tak jsem si to tady samé.
Mohu jen to, pravděpodobnost je zpočátku jen před.
Takže priors kandidáta.
Je to tak?
A teď mám pro iteraci přes všechny slova, která mám v textu se
možné přidat pravděpodobnost pro každou z nich, OK?
Takže, "slova v textech" co budu udělat, je, pokud je slovo v
"pravděpodobnosti (kandidátských)", které Znamená to, že je to slovo, které
kandidát má ve svých textech -
Například, "dítě" pro Gaga -
co budu dělat, je to, že pravděpodobnost se bude násobit
o 1 a pravděpodobnosti na kandidát na toto slovo.
A jmenuje se "slovo".
Tento dělený počtem slov že mám pro tohoto kandidáta.
Celkový počet slov, které mám pro zpěváka, který jsem při pohledu na.
>> "Else". to znamená, že je nové slovo tak to by bylo, jako například
"Oheň" pro Lady Gaga.
Takže chci jen udělat jeden přes "Slovo (kandidát)".
Takže nechci, aby tento termín zde.
>> Takže to bude v podstatě kopírování a vkládání toto.
Ale já jdu smazat tuto část.
Takže je to jen bude 1 přes to.
Zní to dobře?
A teď na konci, já jen tak vytisknout jméno kandidáta a
pravděpodobnost, že budete mít z má S na svých textech.
Dává to smysl?
A já vlastně ani nemám je třeba tento slovník.
Dává to smysl?
>> Takže, pojďme zjistit, jestli to skutečně funguje.
Takže když jsem spustit to, se to nebude fungovat.
Počkejte jednu sekundu.
"Slova (kandidátských)", "slova (kandidátských)", to je
název pole.
OK Tak, to říká, že je to nějaký bug pro kandidáta na priors.
Dovolte mi jen chill trochu.
OK.
Pojďme to zkusit.
OK.
>> Tak to dává Katy Perry má tento pravděpodobnost, že tento násobek 10 na
minus 7, a Gaga má tento krát 10 na minus 6.
Takže vidíte, že ukazuje, že Gaga má vyšší pravděpodobnost.
Takže "Miláčku, já jsem na Fire" je pravděpodobně Gaga píseň.
Dává to smysl?
Takže to je to, co jsme udělali.
>> Tento kód se bude vyslán on-line, takže vy můžete podívat.
Možná, že použití některé z nich, pokud si chcete udělat projekt, nebo něco podobného.
OK.
To bylo jen ukázat, Co výpočetní
lingvistika kód vypadá.
Ale teď pojďme k další Vysoká úroveň věci.
OK.
>> Takže další problémy jsem mluvil o -
problém segmentace je první z nich.
Takže máte tu japonštinu.
A pak vidíte, že nejsou tam žádné mezery.
Takže je to v podstatě znamená, že je horní židle, ne?
Můžete mluvit japonsky?
Je to nejvyšší ze židle, že jo?
>> STUDENT: Nevím, co kanji tam je.
>> LUCAS FREITAS: Je to [MLUVÍCÍ japonský]
OK.
Takže to v podstatě znamená, že předsednictví vrcholu.
Takže pokud byste měli dát prostor to bude tady.
A pak máte [? Ueda-san. ?]
Což v podstatě znamená, že pan Ueda.
A vidíte, že "Ueda" a máte prostor a pak se "san". Takže vidíte, že
zde "Ue" je jako sama o sobě.
A tady je má charakter vedle ní.
>> Takže to není jako v těch jazycích znaky, což znamená slovo to, aby vám
stačí dát hodně prostoru.
Postavy se vztahují ke každému jiný.
A mohou být spolu jako dvě, tři, jeden.
Takže jste skutečně vytvořit nějaký o způsob, jak dát tyto prostory.
>> A to je to, že vždy, když se dostanete Údaje z těchto asijských jazyků,
vše, co přijde unsegmented.
Protože nikdo, kdo píše japonsky nebo čínské píše s mezerami.
Kdykoli budete psát čínsky, Japonská stačí napsat vše
bez mezer.
To nemá ani smysl dát prostor.
Takže, když se dostanete data z některé Východní Asie jazyk, pokud chcete
skutečně něco udělat s tím musíte segmentu jako první.
>> Zamyslete se *** tím na příklad texty bez mezer.
Takže pouze texty, které mají Bude věty, ne?
Oddělených tečkami.
Ale pak mají jen trest bude není opravdu pomoci na to, aby informace
kdo ty texty jsou o.
Je to tak?
Takže byste měli staví první mezery.
Tak jak můžete dělat, že?
>> Takže pak přijde myšlenka jazyka model, který je něco, co opravdu
důležité pro výpočetní lingvistika.
Takže jazykový model je v podstatě tabulka pravděpodobností, že ukazuje
v první řadě to, co je pravděpodobnost mít slovo v jazyce?
Tak ukazuje, jak často je slovo.
A pak také ukazuje vztah mezi slovy ve větě.
>> Takže hlavní myšlenkou je, že pokud cizinec přišel pro vás a řekl větu
si, jaká je pravděpodobnost, že pro například, "tohle je moje sestra [? GTF"?]
byla věta, že člověk říká?
Takže samozřejmě některé věty jsou častější než jiné.
Například, "dobré ráno" nebo "dobrý noc, "nebo" hej tam, "je mnohem více
časté než většina vět že máme angličtinu.
Tak proč jsou ty tresty častější?
>> Za prvé, je to proto, že máte slova, která jsou častější.
Tak, například, když řeknete, že pes je velký, a pes je obrovský, můžete
obvykle asi slyšet pes je velký častěji, protože "velká" je více
často v angličtině, než "gigantický". Takže jeden z
co je slovo frekvence.
>> Druhá věc, která je opravdu Důležitá je jen
Pořadí slov.
Tak, to je běžné říkat "kočka je uvnitř krabice. ", ale ty nejsou obvykle
viz v "krabici uvnitř je kočka." tak Vidíte, že tam je nějaký význam
v pořadí slov.
Nemůžete jen tak říct, že ti dva věty mají stejnou pravděpodobnost
jen proto, že mají stejná slova.
Ve skutečnosti musíte starat o pořadí stejně.
Smysl?
>> Tak co budeme dělat?
Takže to, co jsem mohl pokusit dostat vás?
Snažím se vám to, co jsme zavolejte modely n-gram.
Takže n-gramové modely v podstatě předpokládá, že pro každé slovo, které
máte ve větě.
Je to pravděpodobnost, že mít Slovo zde závisí nejen na
Frekvence tohoto slova v jazyce, ale také na slova, která
se jej obklopuje.
>> Tak například, obvykle, když vidíte, něco jako na, nebo na ty jsi
pravděpodobně bude vidět podstatné jméno po něm, ne?
Vzhledem k tomu, když máte předložku Obvykle to trvá podstatné jméno po něm.
Nebo pokud máte sloveso, které je tranzitivní obvykle se chystáte
mají jmennou frázi.
Takže to bude mít podstatné jméno někde kolem něj.
>> Takže, v podstatě, co to udělá, je, že se domnívá, že pravděpodobnost, že bude
slova vedle sebe, když jste výpočtu
pravděpodobnost věty.
A to je to, co o jazyk, model je v podstatě.
Jen říkám, co je pravděpodobnost, mít specifický
věta v jazyce?
Tak proč je to užitečné, v podstatě?
A v první řadě to, co je Model n-gram, pak?
>> Takže modelu n-gram znamená, že každé slovo je závislá na
další N minus 1 slov.
Takže, v podstatě, to znamená, že pokud se podívám, například na CS50 TF při
Já výpočet pravděpodobnosti věta, budete mít jako "
pravděpodobnost, že bude slovo "" krát pravděpodobnost, že bude "
CS50 "krát pravděpodobnost, že bude "CS50 TF." Takže v podstatě jsem počítat
všechny možné způsoby natahovat to.
>> A pak se obvykle, když děláte to, jako v projektu, dáte N se
nízká hodnota.
Takže, obvykle bigrams nebo trigramů.
Takže stačí počítat dvě slovy, skupina dvou slov, nebo tří slov,
jen za funkční problémy.
A také proto, že možná máte-li něco jako "The CS50 TF." Když
mají "TF", to je velmi důležité, aby "CS50" je vedle ní, že jo?
Tyto dvě věci jsou obvykle vedle sebe.
>> Pokud si myslíte, že "TF", to je asi bude mít to, co
Třída je to TF'ing pro.
Také "" je velmi důležité, pro CS50 TF.
Ale pokud máte něco jako "The CS50 TF šel do třídy a dal jejich
Studenti nějaký bonbón. "" Candy "a" " nemají žádný vztah opravdu, že jo?
Jsou tak daleko od sebe, že to není opravdu jedno, co
Slova máte.
>> Takže tím, že dělá bigram nebo trigram, že prostě znamená, že jste omezení
sami na některých slov které jsou v okolí.
Smysl?
Takže pokud chcete udělat segmentace, v podstatě, co chcete udělat, je vidět
jaké jsou všechny možné způsoby, jak můžete segmentu větu.
>> Takový, že vidíte, co je pravděpodobnost, že každé z těchto vět
existující v jazyce?
Takže to, co děláte, je rád, dobře, ať me se snaží dát prostor zde.
Tak jsi dal prostor zde a uvidíte, co je
pravděpodobnost této věty?
Pak jste jako, OK, možná že to není tak dobré.
Tak jsem dal prostor tam a prostor tam, a vypočítat
pravděpodobnost nyní, a uvidíte, že je vyšší pravděpodobnost.
>> Tak tohle je algoritmus s názvem TANGO segmentace algoritmus, který je
vlastně něco, co by bylo opravdu v pohodě pro projekt, který
v podstatě se unsegmented text, který mohou být japonské nebo čínské, nebo možná
Anglicky bez mezer a snaží se dát mezery mezi slovy a to dělá
že pomocí jazyka modelu a se snaží zjistit, co je nejvyšší
Pravděpodobnost můžete dostat.
OK.
Tak tohle je segmentace.
>> Nyní syntaxe.
Takže, syntaxe je používán pro tolik věcí, právě teď.
Takže Graf vyhledávání, pro Siri pro skoro jakýkoli druh přírodní
zpracování jazyka, který máte.
Takže to, co je důležité věci, o syntaxi?
Takže, věty mají obecně co nazýváme složky.
Jaké jsou něco jako skupiny slov které mají funkci ve větě.
A nemohou být opravdu od sebe.
>> Takže, když řeknu, například, "Lauren miluje Milo. "Já vím, že" Lauren "je
složka a pak "lásky Milo "je také jiný.
Vzhledem k tomu, nemůžete říct, jako "Lauren Milo miluje "mají stejný význam.
Nebude to mít stejný význam.
Nebo Nemůžu říct, že jako "Milo Lauren miluje. "Ne všechno, co má stejný
což znamená, dělat, že.
>> Takže dvě další důležité věci, o Syntaxe jsou lexikální typy, které je
v podstatě funkce, která vám mají slova sami.
Takže musíte vědět, že "Lauren" a "Milo" jsou podstatná jména.
"Láska" je sloveso.
A druhá důležitá věc je, že jsou frázová typy.
Takže víte, že "miluje Milo" je vlastně slovní fráze.
Takže když říkám "Lauren," já vím, že Lauren se něco dělat.
Co to dělá?
Ona je milující Milo.
Tak to je celá věc.
Ale jeho komponenty jsou podstatné jméno a sloveso.
Ale dohromady, dělají sloveso frázi.
>> Takže, co můžeme skutečně udělat s počítačová lingvistika?
Takže, když mám něco, co například "přátelé Allison." Vidím, jestli jsem
se syntaktický strom bych vědět, že "Přátelé" je jmenná fráze je
podstatné jméno a pak "Allison" je předložkové fráze, v nichž "z" je
návrh a "Allison" je podstatné jméno.
To, co jsem mohl udělat, je naučit počítač že když mám jmenná fráze jedno a
pak předložkové fráze.
Takže v tomto případě, "přátelé" a pak "z Milo "Já vím, že to znamená, že
NP2, druhá, vlastní NP1.
>> Tak jsem se vytvořit nějaký vztah, nějaká funkce pro ni.
Takže když vidím tuto strukturu, která odpovídá přesně s "přáteli
Allison, "já vím, že Allison vlastní přátele.
Takže přátelé jsou něco, že Allison má.
Dává to smysl?
Tak to je v podstatě to, co Graf Search dělá.
Je to jen vytváří pravidla na spoustu věcí.
Takže "přátelé Allison", "moji přátelé kteří žijí v Cambridge, "" svým přátelům
kteří jdou na Harvardu. "Vytváří pravidla pro všechny ty věci.
>> Nyní strojový překlad.
Takže, strojový překlad, je také něco statistické.
A skutečně, pokud jste se zapojili do počítačová lingvistika, hodně
vaše věci bude statistika.
Takže jak jsem dělal příklad s hodně pravděpodobností, že jsem byl
výpočtu, a pak se dostanete k tomu velmi malé číslo, které je konečné
pravděpodobnost, a to je to, co vám dává odpověď.
Strojový překlad také používá statistický model.
A chcete-li myslet na stroji překlad v nejjednodušší
Mimochodem, co si můžete myslet, je jen překládat slovo od slova, že jo?
>> Když se učíte jazyk pro Poprvé, to je obvykle to, co
vy, že jo?
Pokud chcete, můžete přeložit větu ve vašem jazyce do jazyka
učíte, obvykle jako první, přeložit každý ze slov
individuálně, a potom zkuste dát slova na místo.
>> Takže když jsem chtěl, aby to přeložit, [MLUVÍCÍ portugalský]
, což znamená "bílá kočka utekla." Pokud bych to chtěl přeložit z
Portugalština do angličtiny, to, co jsem mohl udělat, je, jako první, jen jsem
překládat slovo od slova.
Takže "o" je "," "gato", "kočka", "Branco", "bílá", a pak "fugio" je
"Utekl."
>> Tak jsem si všechna slova zde, ale to není v pořádku.
Je to jako "kočka bílá utekl" který je ungrammatical.
Takže, pak mohu mít druhý krok, který se bude najít ideální
pozice pro každý ze slov.
Takže vím, že jsem vlastně chci mít "Bílý kocour" místo "kočka bílý." Tak
co mohu udělat, je, nejvíce naivní metodu by bylo vytvořit všechny
možné permutace slova, pozic.
A pak zjistit, který z nich má Nejvyšší pravděpodobnost podle
do mého jazyka modelu.
A pak, když jsem se najít ten, který má nejvyšší pravděpodobnost, že, který je
pravděpodobně "bílý kocour utekl," to je můj překlad.
>> A to je jednoduchý způsob, jak vysvětlit jak hodně strojového překladu
algoritmy pracují.
Má to smysl?
To je také něco, co opravdu vzrušující že vy můžete možná průzkum
Konečný projekt, jo?
>> STUDENT: No, říkal, že to bylo naivní způsob, takže to, co je
non-naivní cesta?
>> LUCAS FREITAS: non-naivní cesta?
OK.
Takže první věc, která je špatného na tom, tato metoda je, že jsem přeložil
slova, slovo od slova.
Ale někdy budete muset slova, která může mít více překladů.
Budu se snažit myslet něco.
Například, "manga" v portugalské plechovce buď "mandl" nebo "rukáv". Tak
když se snažíte přeložit slovo slovem, to by mohlo být, že vám
něco, co nedává smysl.
>> Takže vy vlastně chcete, aby se podíváte na všechny možné překlady
slova a vidět, v první řadě, co je rozkaz.
Povídali jsme si o permutating věci?
Chcete-li zobrazit všechny možné příkazy a vybrat ten s nejvyšší
pravděpodobnost?
Můžete si také vybrat všechny možné překlady pro každého
slovo a pak uvidíme -
v kombinaci s permutací -
, který z nich má nejvyšší pravděpodobnost.
>> Plus, můžete se také podívat na to jen slova, ale věty.
takže můžete analyzovat vztahy mezi slova a pak se
lepší překlad.
Také něco jiného, tak tento semestr Já jsem vlastně dělal výzkum v
Čínsko-anglický strojový překlad, takže překládání z
Čínská do angličtiny.
>> A něco, co děláme, je, kromě použití statistický model, který je právě
vidět pravděpodobností vidět některé pozice ve větě, že jsem
vlastně také přidat nějakou syntaxi my Model, řka: Ach, když vidím tento druh
výstavby, to je to, co chci to změnit, když jsem se překládat.
Takže můžete také přidat nějaký prvek syntaxe, aby
Překlad účinnější a přesnější.
OK.
>> Tak jak můžete začít, chcete-li dělat něco ve výpočetní
lingvistika?
>> Nejprve si vyberete projekt , která se týká jazyků.
Takže, tam je tak mnoho tam venku.
Je tu tolik věcí, které můžete udělat.
A pak můžete přemýšlet o modelu které můžete použít.
Obvykle to znamená, že myšlení předpoklady, as jako, oh, když jsem byl
jako myšlení textu.
Byl jsem rád, dobře, jestli chci přijít out, který to napsal, asi chci
podívat se na slova, osoba používá a zjistit, kdo používá toto slovo velmi často.
Takže se snaží, aby předpoklady a zkuste se zamyslet modelů.
A pak se můžete také vyhledat online druh problému, který máte,
a bude to o tom, aby vás modely, které možná
modelovat tu věc dobře.
>> A také můžete vždy napište mi.
me@lfreitas.com.
A mohu jen odpovědět na vaše otázky.
Můžeme dokonce mohli setkat, takže můžu dávat návrhy na způsoby
realizaci projektu.
A mám na mysli, když se zapojit do počítačová lingvistika, že to bude
být skvělý.
Budeš vidět, že je tak velký potenciál.
A průmysl chce najmout jste tak špatné, protože to.
Takže doufám, že vy užil toto.
Jestliže vy máte nějaké dotazy, můžete mě požádat po tomto.
Ale děkuji.