Aloittelevana datatieteilijänä paras tapa kasvattaa taitotasoa on harjoittelu. Ja mikä olisikaan parempi tapa harjoitella teknisiä taitojasi kuin projektien tekeminen. Henkilökohtaiset projektit ovat olennainen osa urakehitystäsi. Ne vievät sinut askeleen lähemmäs datatieteen unelmaasi. Projektit lisäävät tietojasi, taitojasi ja itseluottamustasi. Projektien esittäminen ansioluettelossasi helpottaa huomattavasti datatieteen työpaikan saamista.
”Mitä projekteja minun pitäisi tehdä?” kysyt? No, älä ole hetkeäkään huolissasi! Sillä minä olen täällä, näiden hämmästyttävien ideoiden kanssa datatieteen projekteihin vuonna 2020. Aloitetaan siis jo!
- Character Recognition
- Kuljettajan uneliaisuuden havaitseminen
- Rintasyöpätunnistus
- Impact Of Climate Change On Global Food Supply
- Chatbot
- Web-liikenteen aikasarjan ennustaminen
- Valeuutisten havaitseminen
- Ihmisen toiminnan tunnistus
- Metsäpalojen ennustaminen
- Sukupuoli & Iän havaitseminen
- Johtopäätökset
- Tilaa uutiskirjeemme
- Liity Telegram-ryhmäämme. Ole osa mukaansatempaavaa verkkoyhteisöä. Liity tähän.
Character Recognition
Tämä projekti keskittyy tietokoneen kykyyn tunnistaa ja ymmärtää ihmisten käsin kirjoittamia merkkejä. Koulutetaan kierretty neuroverkko MNIST-tietokannan avulla. Tämä auttaa neuroverkkoa tunnistamaan käsin kirjoitetut numerot kohtuullisella tarkkuudella. Projekti käyttää syväoppimista ja vaatii Keras- ja Tkinter-kirjastot.
Kuljettajan uneliaisuuden havaitseminen
Yön yli ajaminen on rankkaa työtä. Paljon onnettomuuksia tapahtuu, kun kuljettaja on unelias tai unelias ajon aikana. Tämän projektin tarkoituksena on tunnistaa, milloin kuljettaja saattaa nukahtaa, ja hälyttää siitä.
Tässä projektissa käytetään syväoppimismallia luokittelemaan kuvien joukosta kuvia, joissa ihmisten silmät ovat auki tai kiinni. Se ylläpitää pistemäärää sen perusteella, kuinka kauan silmät pysyvät kiinni. Jos pistemäärä nousee pidemmälle kuin tietty kynnysarvo. Malli hälyttää. Jotta voit toteuttaa nämä projektit, varmista, että tunnet hyvin kaikki datatieteen peruskäsitteet.
Rintasyöpätunnistus
Rintasyöpätunnistusprojekti käyttää histologisia kuvia luokitellakseen, onko potilaalla invasiivinen duktaalikarsinooma vai ei. Tässä projektissa käytetään IDC-tietokokonaisuutta histologisten kuvien luokittelemiseksi pahanlaatuisiksi tai hyvänlaatuisiksi. Tähän tehtävään soveltuu parhaiten kierretty neuroverkko. Malli koulutetaan käyttäen noin 80 % datasettiä, ja jäljelle jäävää datasettiä käytetään mallin tarkkuuden testaamiseen sen harjoittelun jälkeen.
Impact Of Climate Change On Global Food Supply
Ilmastonmuutoksesta ja poikkeavuuksista on tulossa nykyään yleinen osa maailmaamme. Tämä alkaa vaikuttaa kaikkiin ihmiselämän osa-alueisiin planeetallamme. Tässä hankkeessa keskitytään kvantifioimaan vaikutusta, joka ilmastonmuutoksella on ja tulee olemaan maailmanlaajuiseen elintarviketuotantoon. Hankkeen tarkoituksena on arvioida ilmastonmuutoksen mahdollisia vaikutuksia peruskasvien tuotantoon. Hankkeessa arvioidaan lämpötilan ja sademäärän muutoksen vaikutuksia ottaen huomioon hiilidioksidin vaikutukset kasvien kasvuun ja ilmastonmuutokseen liittyvät epävarmuustekijät. Hanke käsittelee tietojen visualisointia ja eri alueiden satojen välillä eri aikoina tehtyjä vertailuja.
Chatbot
Chatbotit ovat tärkeässä asemassa yrityksissä. Ne auttavat tarjoamaan parempia ja yksilöllisempiä palveluja ja säästävät samalla työvoimaa.
Chatbot voidaan kouluttaa käyttämällä syväoppimistekniikoita ja käyttämällä tietokokonaisuutta, joka sisältää luettelon sanastosta, luettelon yleisimmistä lauseista, niiden taustalla olevan tarkoituksen ja niihin sopivat vastaukset. Yleisin menetelmä chatbottien kouluttamiseen on käyttää toistuvia neuroverkkoja (Recurring Neural Networks, RNN). Botti koostuu koodaajasta, joka päivittää tilansa syötetyn lauseen mukaan yhdessä aikomuksen kanssa ja välittää tilan botille. Botti käyttää sitten dekooderia löytääkseen sopivan vastauksen sanojen ja niiden taustalla olevan tarkoituksen mukaan. Voit toteuttaa chatbotin helposti Pythonilla.
Web-liikenteen aikasarjan ennustaminen
Aikasarjan ennustaminen on erittäin tärkeä käsite tilastotieteessä ja koneoppimisessa. Verkkoliikenteen ennustaminen on suosittu aikasarjan ennustamisen sovellus. Se auttaa verkkopalvelimia hallitsemaan resurssejaan paremmin ja välttämään käyttökatkoksia. Jotta projektista tulisi vieläkin mielenkiintoisempi, voit käyttää perinteisten neuroverkkojen sijasta aaltoverkkoja. Wavenetit käyttävät kausaalisia konvoluutioita, mikä tekee niistä samalla tehokkaampia ja kevyempiä.
Valeuutisten havaitseminen
Tämän projektin ideana on rakentaa koneoppimismalli, joka pystyy havaitsemaan, onko minkä tahansa sosiaalisessa mediassa julkaistun viestin antama uutinen totta vai ei. Voit käyttää TfidfVectorizeria ja PassiveAggressive-luokittelijaa tämän mallin rakentamiseen.
TF eli Term Frequency eli termitaajuus tarkoittaa sitä, kuinka monta kertaa sana esiintyy asiakirjassa.
IDF eli Inverse Document Frequency eli käänteinen asiakirjan frekvenssi on sanan tärkeyden mitta, joka perustuu siihen, kuinka monta kertaa se esiintyy eri asiakirjoissa. Yleisillä sanoilla, jotka esiintyvät monissa asiakirjoissa, ei ole suurta merkitystä.
TFIDFVectorizer analysoi dokumenttikokoelman ja luo sen mukaan TF-IDF-matriisin.
PassiivinenAgressiivinen luokittelija pysyy passiivisena, jos luokittelun tulos on oikea, mutta muuttaa aggressiivisesti luokitteluperusteitaan, jos luokittelu on väärä.
Käyttämällä näitä voidaan rakentaa koneoppimismalli, joka pystyy luokittelemaan uutisen väärennetyksi tai oikeaksi.
Ihmisen toiminnan tunnistus
Ihmisen toiminnan tunnistusmalli tarkastelee lyhyitä videoita ihmisistä, jotka suorittavat tiettyjä toimintoja, ja pyrkii luokittelemaan ne sen perusteella, mitä toiminta on. Se käyttää kieroutunutta neuroverkkoa, joka on koulutettu tietokokonaisuudella, joka sisältää lyhyitä videoita ja niihin liittyviä kiihtyvyysanturitietoja. Hankkeessa muunnetaan ensin kiihtyvyysmittaridata aikaviipaloiduksi esitykseksi. Sen jälkeen se käyttää Keras-kirjastoa verkon kouluttamiseen, validointiin ja testaamiseen tietokokonaisuuden mukaan.
Metsäpalojen ennustaminen
Metsäpaloista ja maastopaloista on tullut hälyttävän yleisiä katastrofeja nykymaailmassa. Nämä katastrofit vahingoittavat ekosysteemiä ja niiden hoitaminen maksaa myös paljon rahaa ja infrastruktuuria. Käyttämällä k-means-klusterointia voidaan tunnistaa metsäpalojen kriisipesäkkeet ja tulipalon vakavuus kyseisessä paikassa, mitä voidaan käyttää resurssien parempaan kohdentamiseen ja nopeampaan reagointiaikaan. Käyttämällä meteorologisia tietoja, kuten vuodenaikoja, jolloin tulipalot ovat yleisempiä, ja sääolosuhteita, jotka pahentavat niitä, voidaan tulosten tarkkuutta lisätä entisestään.
Sukupuoli & Iän havaitseminen
Sukupuolen ja iän havaitseminen on tietokonenäköön ja koneoppimiseen liittyvä projekti. Siinä käytetään konvoluutiohermoverkkoja eli CNN:ää. Projektin tarkoituksena on tunnistaa henkilön sukupuoli ja ikä analysoimalla yksi kuva hänen kasvoistaan. Sukupuoli luokitellaan mieheksi tai naiseksi ja ikä luokitellaan välille 0-2, 4-6, 8-2, 15-20, 25-32, 38-43, 48-53, 60-100. Sukupuolen ja iän tunnistaminen yhdestä kuvasta voi olla vaikeaa muun muassa meikin, valaistuksen ja ilmeiden vuoksi. Siksi tässä projektissa käytetään luokittelumallia regression sijaan.
Johtopäätökset
Oikeiden työkalujen tuntemuksella mikään datatieteen projekti ei ole liian vaikea. Projektit ovat täydellinen tapa parantaa taitojasi ja edetä kohti niiden hallintaa.
Nämä datatieteen projektit ovat niitä, jotka ovat erittäin hyödyllisiä ja trendikkäitä vuonna 2020. Ne vievät sinut varmasti menestykseen. Sinun tarvitsee vain aloittaa.
Tilaa uutiskirjeemme
Saa viimeisimmät päivitykset ja merkitykselliset tarjoukset jakamalla sähköpostiosoitteesi.