Jako začínající datový vědec můžete nejlépe zvýšit úroveň svých dovedností praxí. A jaký je lepší způsob procvičování technických dovedností než vytváření projektů. Osobní projekty jsou nezbytnou součástí vašeho kariérního růstu. Posunou vás o krok blíže k vašemu snu o datové vědě. Projekty posílí vaše znalosti, dovednosti a sebevědomí. Uvedení projektů v životopise vám výrazně usnadní získání práce v oblasti datové vědy.
„Jaké projekty bych měl dělat?“ ptáte se? No, nedělejte si starosti ani na vteřinu! Jsem tu totiž já, s těmito úžasnými nápady na projekty v oblasti datové vědy v roce 2020. Tak už začněme!“
- Rozpoznávání znaků
- Detekce ospalosti řidiče
- Detekce rakoviny prsu
- Vliv klimatických změn na globální zásobování potravinami
- Chatbot
- Předpovídání časových řad webového provozu
- Detekce falešných zpráv
- Rozpoznávání lidských činností
- Předpovídání lesních požárů
- Detekce pohlaví &Věk
- Závěr
- Přihlaste se k odběru novinek
- Připojte se k naší skupině na Telegramu. Staňte se součástí zajímavé online komunity. Připojte se zde.
Tento projekt se zaměřuje na schopnost počítače rozpoznat a pochopit znaky psané rukou člověka. Konvolutová neuronová síť je trénována pomocí datové sady MNIST. To pomáhá neuronové síti rozpoznávat ručně psané číslice s přiměřenou přesností. Projekt využívá hluboké učení a vyžaduje knihovny Keras a Tkinter.
Detekce ospalosti řidiče
Řízení v noci je náročná práce. K mnoha nehodám dochází, když je řidič při řízení ospalý nebo ospalý. Cílem tohoto projektu je rozpoznat, kdy řidič může usnout, a vyvolat poplach.
Tento projekt využívá model hlubokého učení ke klasifikaci mezi obrázky, na kterých mají lidé otevřené nebo zavřené oči. Udržuje skóre na základě toho, jak dlouho zůstávají oči zavřené. Pokud se skóre zvýší více, než je zadaná prahová hodnota. Model vyvolá poplach. Chcete-li tyto projekty implementovat, ujistěte se, že velmi dobře znáte všechny základní koncepty datové vědy.
Detekce rakoviny prsu
Projekt detekce rakoviny prsu využívá histologické snímky ke klasifikaci, zda má pacient invazivní duktální karcinom, nebo ne. Tento projekt používá soubor dat IDC ke klasifikaci histologických snímků jako maligních nebo benigních. Pro tuto úlohu je nejvhodnější konvolutní neuronová síť. Model je natrénován s použitím přibližně 80 % datové sady a zbývající datová sada je po natrénování použita k testování přesnosti modelu.
Vliv klimatických změn na globální zásobování potravinami
Klimatické změny a anomálie se v dnešní době stávají běžnou součástí našeho světa. Začíná to ovlivňovat všechny aspekty lidského života na naší planetě. Tento projekt se zaměřuje na kvantifikaci dopadu, který změna klimatu má a bude mít na globální produkci potravin. Účelem tohoto projektu je posoudit potenciální dopad změny klimatu na produkci základních plodin. Projekt posuzuje důsledky změny teploty a srážek s přihlédnutím k vlivu oxidu uhličitého na růst rostlin a k nejistotě změny klimatu. Tento projekt se zabývá vizualizací dat a porovnáváním výnosů v různých regionech v různých obdobích.
Chatbot
Chatboti hrají v podnikání důležitou roli. Pomáhají při poskytování lepších a personalizovaných služeb a zároveň šetří pracovní sílu.
Chatbota lze vycvičit pomocí technik hlubokého učení a s využitím datové sady se seznamem slovní zásoby, seznamem běžných vět, záměrem, který se za nimi skrývá, a jejich vhodnými odpověďmi. Nejběžnější metodikou pro trénování chatbotů je použití opakujících se neuronových sítí (RNN). Bot se skládá z kodéru, který aktualizuje své stavy podle vstupní věty spolu se záměrem a předává stav botovi. Bot pak pomocí dekodéru najde vhodnou odpověď podle slov a záměru, který se za nimi skrývá. Chatbota můžete snadno implementovat pomocí jazyka Python.
Předpovídání časových řad webového provozu
Předpovídání časových řad je velmi důležitý pojem ve statistice a strojovém učení. Předpovídání návštěvnosti webu je oblíbenou aplikací prognózování časových řad. Pomáhá webovým serverům lépe spravovat jejich zdroje, aby nedocházelo k výpadkům. Aby byl projekt ještě zajímavější, můžete místo tradičních neuronových sítí použít wavenety. Wavenety používají kauzální konvoluce, díky nimž jsou efektivnější a zároveň lehčí.
Detekce falešných zpráv
Záměrem tohoto projektu je vytvořit model strojového učení, který dokáže detekovat, zda je zpráva uvedená v nějakém příspěvku na sociálních sítích pravdivá, či nikoli. K sestavení tohoto modelu můžete použít TfidfVectorizer a klasifikátor PassiveAggressive.
TF neboli Term Frequency je počet výskytů slova v dokumentu.
IDF neboli inverzní frekvence dokumentu je míra důležitosti slova založená na počtu jeho výskytů v různých dokumentech. Běžná slova, která se vyskytují v mnoha dokumentech, nemají vysokou důležitost.
TFIDFVectorizer analyzuje kolekci dokumentů a podle ní vytvoří matici TF-IDF.
PasivníAgresivní klasifikátor zůstává pasivní, pokud je výsledek klasifikace správný, ale agresivně mění svá klasifikační kritéria, pokud je klasifikace nesprávná.
S jejich pomocí můžeme sestavit model strojového učení, který dokáže klasifikovat zprávy jako falešné nebo pravdivé.
Model rozpoznávání lidských činností se dívá na krátká videa lidí provádějících určité činnosti a snaží se je klasifikovat podle toho, o jakou činnost se jedná. Používá k tomu konvolutní neuronovou síť natrénovanou na souboru dat obsahujícím krátká videa a s nimi spojená data z akcelerometru. Projekt nejprve převádí data z akcelerometru na časovou reprezentaci. Poté používá knihovnu Keras k trénování, ověřování a testování sítě podle datové sady.
Předpovídání lesních požárů
Lesní požáry a lesní požáry se v dnešním světě staly znepokojivě častými katastrofami. Tyto katastrofy poškozují ekosystém a jejich řešení také stojí mnoho peněz a infrastruktury. Pomocí shlukování k-means lze určit ohniska lesních požárů a závažnost požáru v daném místě, což lze využít pro lepší alokaci zdrojů a rychlejší reakci. Použití meteorologických údajů, například ročních období, během nichž jsou požáry častější, a povětrnostních podmínek, které je zhoršují, může přesnost výsledků ještě zvýšit.
Detekce pohlaví &Věk
Detekce pohlaví a věku je projekt počítačového vidění a strojového učení. Využívá konvoluční neuronové sítě neboli CNN. Cílem projektu je zjistit pohlaví a věk osoby analýzou jediného snímku jejího obličeje. Pohlaví je klasifikováno jako mužské nebo ženské a věk je klasifikován v rozmezí 0-2, 4-6, 8- 2, 15-20, 25-32, 38-43, 48-53, 60-100 let. Vzhledem k faktorům, jako je líčení, osvětlení, výraz tváře atd., může být rozpoznání pohlaví a věku z jediného snímku obtížné. Proto se v tomto projektu místo regrese používá klasifikační model.
Závěr
Se znalostí správných nástrojů není žádný projekt datové vědy příliš obtížný. Projekty jsou ideálním způsobem, jak zlepšit své dovednosti a pokročit k jejich zvládnutí.
Tyto projekty datové vědy jsou ty, které budou v roce 2020 velmi užitečné a trendové. Určitě vás dovedou k úspěchu. Stačí, když se do nich pustíte.
Přihlaste se k odběru novinek
Získejte nejnovější aktualizace a relevantní nabídky sdílením svého e-mailu.