Applied Data Science Course 🚀

This repository contains my notes, practices, and solutions for the Applied Data Science Course offered by Sharif University of Technology (EE-879). The course has also been presented — and is currently being presented — at Teias, Khatam University. The content covers various data science concepts, hands-on exercises, and solutions to course assignments.

Course Information

For more details about the course, visit the official course website: Applied Data Science - Sharif University of Technology, Spring 2025 or Saloot GitHub

Course Topics

The course covers the following key topics:

📚 Introduction to Pandas
🧹 Data Cleaning and Preprocessing
📊 Data Visualization
⚙️ Feature Engineering and Dimensionality Reduction
🎯 Different Problem Types and Accuracy Measures
📈 Regression Methods
🔍 Classification Methods
🌂 Multiclass/Multilabel Classification and Boosting
🧠 Neural Networks
🚀 Deep Learning
🖼️ Deep Learning Application: Image Classification
🤖 Generative AI

Datasets

The following datasets are utilized in this repository:

Assignments

Assignment 1: Introduction to Pandas 🐼📊

Complete Kaggle mini tutorial on Pandas: https://www.kaggle.com/learn/pandas
Choose a dataset for future assignments.

Assignment 2: Exploratory Analysis and Data Cleaning 🔍🧹

Perform EDA, cleaning, and preprocessing on the Stroke Prediction dataset: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset
Complete Kaggle mini tutorial on Data Cleaning: https://www.kaggle.com/learn/data-cleaning

Assignment 3: Data Visualization + Web Scraping 📈🎨🕸️

Data visualization on the Hotel Booking Demand dataset: https://www.kaggle.com/datasets/jessemostipak/hotel-booking-demand/data
Kaggle mini tutorial on Data Visualization: https://www.kaggle.com/learn/data-visualization
Web-scrape 50 Samand cars from bama.ir (price, mileage, color, year, transmission, description)

Assignment 4: Feature Engineering 🧱⚙️

Create new features (ratio, binning, functional transforms, combining columns)
Create date/time features
Perform aggregation and counts
Feature selection using Mutual Information
PCA for dimensionality reduction
Write explanation: When is feature engineering optional vs necessary?
Optional: Kaggle mini tutorial on Feature Engineering

Assignment 5: Accuracy Measures 🎯📏

Compute regression metrics: MSE, MAE, MAPE, R2
Compute binary classification metrics: Precision, Recall, F1
Compute multi-class metrics: per-class Precision and Recall, macro/micro/weighted F1
Answer question about multi-label metrics (football example)
Use models or random predictions for metric evaluation

Assignment 6: Regression Methods 📉🤖

Train and evaluate:
- Linear Regression
- Kernel Regression
- Logistic Regression
- Ridge Regression
- LASSO Regression
Explain the kernel trick

Assignment 7: Binary Classification Methods ⚡📘

Train and evaluate:
- Logistic Regression
- SVM (linear + kernel)
- KNN (implement + tune K)
- Decision Trees (implement + tune depth)
- Random Forest
Explain three regularization techniques for decision trees
Bonus: Achieve F1 > 0.9 on diabetes dataset

Assignment 8: Multiclass Classification Methods 🎨🔢

Implement and evaluate:
- Multiclass SVM
- Multiclass Logistic Regression (OVR, multinomial, log loss)
- Multiclass KNN (implement + tune K)
- Multiclass Decision Trees
- Boosting methods: XGBoost, LightGBM, Adaboost/Catboost
Perform grid search on one boosting method
Explain how KNN and Decision Trees extend to multi-label classification
Bonus: Achieve F1 > 0.6 on 12-class player-position dataset

Assignment 9: Neural Networks 🧠💡

Train and evaluate:
- Scikit-Learn MLP (classification + regression)
- Keras 4-layer sequential network (classification + regression)
- PyTorch 4-layer network (classification + regression)
- Keras 4-layer non-sequential network
Explain why neural networks are powerful and difficult to design
Bonus: RNN (3-layer) if dataset includes time-series

Assignment 10: Deep Neural Network Tuning 🚀🔧

Tune Keras network using at least 5 options:
- Optimizer
- Learning rate
- Learning rate decay
- Batch size
- Activation functions
- Weight initialization
- Network depth and width
- L1/L2 weight regularization
- L1/L2 activity regularization
- Dropout rate
Explain why deeper networks are harder to train
Use 4-fold cross validation for evaluation

Assignment 11: CNNs, Transfer Learning, and Data Augmentation 🖼️📦🤝

Build CNN with at least two convolutional layers
Tune:
- Convolution kernel size
- Convolution stride
- Pooling size
- Pooling stride
Perform data augmentation using ImageGenerator
Perform transfer learning using two pretrained models (VGG19, ResNet, EfficientNet)
Explain impact of receptive field size on performance

Assignment 12: Autoencoders and Generative Models 🎛️✨🧬

Build and train:
- Dense autoencoder
- Convolutional autoencoder
- Denoising autoencoder
Train a GAN on CIFAR-10 dataset
Use OpenAI API to generate:
- An image
- An audio voice reading generated text
Explain the adversarial learning process
Bonus: Build a Variational Autoencoder on Fashion-MNIST

Practices

Practice 1: Explore pandas features on Car Features and MSRP dataset.

Maybe I will practice more in the future :).

Repository Structure

Notes → Summarized lecture notes & key concepts
Practices → Hands-on coding exercises & projects
Assignments → Solutions to course assignments

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
Assignments		Assignments
Practices/Pandas		Practices/Pandas
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Applied Data Science Course 🚀

Course Information

Course Topics

Datasets

Assignments

Assignment 1: Introduction to Pandas 🐼📊

Assignment 2: Exploratory Analysis and Data Cleaning 🔍🧹

Assignment 3: Data Visualization + Web Scraping 📈🎨🕸️

Assignment 4: Feature Engineering 🧱⚙️

Assignment 5: Accuracy Measures 🎯📏

Assignment 6: Regression Methods 📉🤖

Assignment 7: Binary Classification Methods ⚡📘

Assignment 8: Multiclass Classification Methods 🎨🔢

Assignment 9: Neural Networks 🧠💡

Assignment 10: Deep Neural Network Tuning 🚀🔧

Assignment 11: CNNs, Transfer Learning, and Data Augmentation 🖼️📦🤝

Assignment 12: Autoencoders and Generative Models 🎛️✨🧬

Practices

Repository Structure

Project

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Applied Data Science Course 🚀

Course Information

Course Topics

Datasets

Assignments

Assignment 1: Introduction to Pandas 🐼📊

Assignment 2: Exploratory Analysis and Data Cleaning 🔍🧹

Assignment 3: Data Visualization + Web Scraping 📈🎨🕸️

Assignment 4: Feature Engineering 🧱⚙️

Assignment 5: Accuracy Measures 🎯📏

Assignment 6: Regression Methods 📉🤖

Assignment 7: Binary Classification Methods ⚡📘

Assignment 8: Multiclass Classification Methods 🎨🔢

Assignment 9: Neural Networks 🧠💡

Assignment 10: Deep Neural Network Tuning 🚀🔧

Assignment 11: CNNs, Transfer Learning, and Data Augmentation 🖼️📦🤝

Assignment 12: Autoencoders and Generative Models 🎛️✨🧬

Practices

Repository Structure

Project

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages