En tant que scientifique de données en herbe, la meilleure façon pour vous d’augmenter votre niveau de compétence est de pratiquer. Et quel meilleur moyen existe-t-il pour pratiquer vos compétences techniques que de faire des projets. Les projets personnels sont un élément essentiel de l’évolution de votre carrière. Ils vous permettront de vous rapprocher de votre rêve de science des données. Les projets renforceront vos connaissances, vos compétences et votre confiance. Présenter des projets dans votre CV va faciliter l’obtention d’un emploi dans le domaine de la science des données.
« Quels projets dois-je faire ? » vous demandez-vous ? Eh bien, ne vous inquiétez pas une seconde ! Car je suis là, avec ces idées étonnantes de projets de science des données en 2020. Alors commençons déjà !
- Reconnaissance de caractères
- Détection de la somnolence du conducteur
- Détection du cancer du sein
- Impact du changement climatique sur l’approvisionnement alimentaire mondial
- Chatbot
- Prévision des séries temporelles du trafic web
- Détection de fausses nouvelles
- Reconnaissance d’actions humaines
- Prédiction des feux de forêt
- Gender &Détection de l’âge
- Conclusion
- Souscrivez à notre newsletter
- Rejoignez notre groupe Telegram. Faites partie d’une communauté en ligne engageante. Inscrivez-vous ici.
Reconnaissance de caractères
Ce projet se concentre sur la capacité de l’ordinateur à reconnaître et à comprendre les caractères écrits à la main par les humains. Un réseau neuronal convoluté est entraîné en utilisant l’ensemble de données MNIST. Cela aide le réseau neuronal à reconnaître les chiffres écrits à la main avec une précision raisonnable. Le projet utilise l’apprentissage profond et nécessite les bibliothèques Keras et Tkinter.
Détection de la somnolence du conducteur
La conduite de nuit est un travail difficile. Beaucoup d’accidents se produisent lorsqu’un conducteur est endormi ou somnolent au volant. Ce projet vise à reconnaître quand le conducteur pourrait s’endormir et à tirer la sonnette d’alarme.
Ce projet utilise un modèle d’apprentissage profond pour classer parmi les images où les yeux des personnes sont ouverts ou fermés. Il maintient un score basé sur la durée pendant laquelle les yeux restent fermés. Si le score augmente plus loin qu’un seuil spécifié. Le modèle déclenche l’alarme. Pour mettre en œuvre ces projets, assurez-vous que vous êtes très bien conscient de tous les concepts de base de la science des données.
Détection du cancer du sein
Le projet de détection du cancer du sein utilise des images d’histologie pour classer si le patient a un carcinome canalaire invasif ou non. Ce projet utilise un ensemble de données IDC pour classer les images histologiques comme malignes ou bénignes. Un réseau neuronal convoluté est le mieux adapté à cette tâche. Le modèle est entraîné en utilisant environ 80% du jeu de données, et le jeu de données restant est utilisé pour tester la précision du modèle après l’entraînement.
Impact du changement climatique sur l’approvisionnement alimentaire mondial
Le changement climatique et les anomalies deviennent une partie commune de notre monde de nos jours. Cela commence à affecter tous les aspects de la vie humaine sur notre planète. Ce projet se concentre sur la quantification de l’impact que le changement climatique a et aura sur la production alimentaire mondiale. L’objectif de ce projet est d’évaluer l’impact potentiel du changement climatique sur la production des cultures de base. Le projet évalue les implications des changements de température et de précipitations, en tenant compte des effets du dioxyde de carbone sur la croissance des plantes et de l’incertitude liée au changement climatique. Ce projet traite de la visualisation des données et des comparaisons établies entre les rendements dans différentes régions à différents moments.
Chatbot
Les chatbots jouent un rôle important dans les entreprises. Ils permettent de fournir des services améliorés et personnalisés et d’économiser de la main d’œuvre par la même occasion.
Un chatbot peut être formé en utilisant des techniques d’apprentissage profond et en utilisant un ensemble de données avec une liste de vocabulaire, une liste de phrases courantes, l’intention derrière celles-ci et leurs réponses appropriées. La méthodologie la plus courante pour former les chatbots consiste à utiliser des réseaux neuronaux récurrents (RNN). Le robot est composé d’un encodeur qui met à jour ses états en fonction de la phrase d’entrée et de l’intention, puis transmet l’état au robot. Le robot utilise ensuite le décodeur pour trouver une réponse appropriée en fonction des mots et de l’intention qui les sous-tend. Vous pouvez mettre en œuvre un chatbot facilement avec Python.
Prévision des séries temporelles du trafic web
La prévision des séries temporelles est un concept très important en statistique et en apprentissage automatique. La prévision du trafic web est une application populaire de la prévision des séries temporelles. Elle aide les serveurs web à mieux gérer leurs ressources pour éviter les pannes. Pour rendre le projet encore plus intéressant, vous pouvez utiliser des wavenets au lieu des réseaux neuronaux traditionnels. Les wavenets utilisent des convolutions causales qui les rendent plus efficaces et légers en même temps.
Détection de fausses nouvelles
L’idée derrière ce projet est de construire un modèle d’apprentissage automatique qui peut détecter si les nouvelles données par n’importe quel post de médias sociaux sont vraies ou non. Vous pouvez utiliser le TfidfVectorizer, et un classificateur PassiveAggressive pour construire ce modèle.
TF ou la fréquence des termes est le nombre de fois qu’un mot apparaît dans un document.
IDF ou la Fréquence Inverse des Documents est une mesure de l’importance d’un mot basée sur le nombre de fois où il apparaît dans différents documents. Les mots communs qui apparaissent dans de nombreux documents n’ont pas une grande importance.
TFIDFVectorizer analyse une collection de documents et crée une matrice TF-IDF en fonction de celle-ci.
A PassiveUn classificateur agressif reste passif si le résultat de la classification est correct mais change agressivement ses critères de classification si la classification est incorrecte.
En les utilisant, nous pouvons construire un modèle d’apprentissage automatique qui peut classer les nouvelles comme fausses ou vraies.
Reconnaissance d’actions humaines
Le modèle de reconnaissance d’actions humaines regarde de courtes vidéos d’humains effectuant certaines actions et essaie de les classer en fonction de ce qu’est l’action. Il utilise un réseau neuronal convoluté entraîné sur un jeu de données contenant de courtes vidéos et les données d’accéléromètre qui leur sont associées. Le projet convertit d’abord les données de l’accéléromètre en une représentation en tranches de temps. Il utilise ensuite la bibliothèque Keras pour entraîner, valider et tester le réseau en fonction du jeu de données.
Prédiction des feux de forêt
Les feux de forêt et les incendies sauvages sont devenus des catastrophes alarmantes dans le monde d’aujourd’hui. Ces catastrophes endommagent l’écosystème et coûtent également beaucoup en termes d’argent et d’infrastructure pour y faire face. En utilisant le clustering k-means, vous pouvez identifier les points chauds des feux de forêt et la gravité d’un incendie à cet endroit, ce qui peut être utilisé pour une meilleure allocation des ressources et des temps de réponse plus rapides. L’utilisation de données météorologiques comme les saisons pendant lesquelles les incendies sont plus fréquents et les conditions météorologiques qui les exacerbent peut augmenter encore plus la précision des résultats.
Gender &Détection de l’âge
La détection du genre et de l’âge est un projet de vision par ordinateur et d’apprentissage automatique. Il utilise des réseaux neuronaux convolutifs ou CNN. Le projet vise à détecter le sexe et l’âge d’une personne en analysant une seule image de son visage. Le sexe est classé comme homme ou femme et l’âge est classé dans les fourchettes suivantes : 0-2, 4-6, 8- 2, 15-20, 25-32, 38-43, 48-53, 60-100. En raison de facteurs tels que le maquillage, l’éclairage, les expressions faciales, etc., il peut être difficile de reconnaître le sexe et l’âge à partir d’une seule image. Par conséquent, ce projet utilise un modèle de classification au lieu de la régression.
Conclusion
Avec la connaissance des bons outils, il n’y a pas de projet de science des données qui soit trop difficile. Les projets sont le moyen idéal pour améliorer vos compétences et progresser vers leur maîtrise.
Ces projets de science des données sont ceux qui seront très utiles et tendance en 2020. Ils vous mèneront certainement au succès. Tout ce que vous avez à faire est de vous lancer.
Recevez les dernières mises à jour et les offres pertinentes en partageant votre email.