K_means.Rmd

---
title: "Lab 27. K-means"
output:
  pdf_document: default
  html_document: default
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## Data Preprocessing

```{r extract plants}
plants <- read.csv("plants.csv", sep=';')
head(plants) 
```
1. Remove rows with at least 3 NAs
2. Replace NAs with column means
3. Scale columns with doubles

```{r pressure}
prepare_dataframe <- function(data) {
  data <- subset(data, select=-c(plant.name))
  
  cnt_na <- apply(data, 1, function(z) sum(is.na(z)))
  data <- data[cnt_na < 3,]

  mean_pdias <- mean(data[ ,'pdias'], na.rm = TRUE)
  mean_longindex <- mean(data[ ,'longindex'], na.rm = TRUE)
  
  data$pdias[is.na(data$pdias)] <- mean_pdias
  data$longindex[is.na(data$longindex)] <- mean_longindex
  
  data$pdias <- scale(data$pdias)
  data$longindex <- scale(data$longindex)
  
  return(data)
}

plants <- prepare_dataframe(plants)
```


```{r}
plants <- subset(plants, select=c(pdias, longindex, insects, leafy))
```

## K-means

Find the last number of cluster that significantly decreases the error.
```{r}
set.seed(1234)

cluster_num <- 2:10
inner_dists <- replicate(length(cluster_num), 0)
for (i in 1:length(cluster_num)) {
  model <- kmeans(plants, cluster_num[i])
  inner_dists[i] <- model[ 'tot.withinss' ]
}
plot(cluster_num, inner_dists, xlab="Number of Clusters", ylab="Inner Square Sum")

```

```{r}
library(NbClust)
res <- NbClust(data = plants, distance = 'euclidean', min.nc = 2, max.nc = 10, method = 'kmeans')
```