楚新元 | All in R

Welcome to R Square

K 最近邻算法(KNN)

楚新元 / 2023-11-01


理解近邻分类

你知道蛋白质、蔬菜和水果是怎么分类的吗?生活中我们发现既不脆也不甜的是蛋白质,脆而不甜的是蔬菜,而水果往往是甜的,有可能脆也有可能不脆。基于以上生活经验(人以群分,物以类聚),那么你知道西红柿是水果还是蔬菜呢?首先我们来看下面一组数据。

食物 甜度 脆度 食物类型
葡萄 8 5 水果
四季豆 3 7 蔬菜
坚果 3 6 蛋白质
橙子 7 3 水果

现在如果我们知道西红柿的甜度为 6,脆度为 4,如果我们把这些数据放在横轴为甜度,纵轴为脆度的二维平面图上,我们很容易计算出西红柿与其他四种食物之间的直线距离。例如西红柿和四季豆之间的距离为:

$$ d(西红柿, 四季豆) = \sqrt{(6-3)^2 + (4-7)^2} = 4.2 $$

根据以上算法,我们分别计算了西红柿和葡萄、四季豆、坚果、橙子之间的距离,分别是2.2、4.2、3.6、1.4。

我们发现西红柿和橙子之间的距离最短,那么我们据此认为西红柿是一种水果。这里其实是只选了一个最近的“邻居”,即 \(k=1\),是一个 1NN 分类。

如果我们使用 \(k=3\) 的 KNN 算法。那么它会在三个最近邻居即橙子、葡萄和坚果之间进行投票表决。因为这个里面有两票归为水果(2/3 的票数),所以西红柿再次归为水果。

定义最近邻

在 KNN 算法中,常用的距离有三种,分别为曼哈顿距离、欧几里得距离和闵可夫斯基距离。在寻找最近邻的过程中,一般使用欧几里得距离来确定最近的邻居。

那么 k 究竟选择多少合适呢?

可以使用几种策略来选择 k 参数,第一个快速直接的解决方法是将 k 设置为训练实例数量的平方根;另一种方法是使用验证集上的优化工具选择 k,在这种情况下,将训练集进一步划分为训练集和验证集,并选择 k,以便使用训练数据将验证数据的预测准确性最大化,k 应该最小化诸如 MAPE 之类的预测精度统计量(Hyndman and Koehler 2006),应该注意的是,这种优化策略非常耗时;Martínez 等(2019)探索的第三个策略是使用多个具有不同 k 值的 KNN 模型,每个 KNN 模型都会生成其预测,并对不同模型的预测值求平均,以生成最终预测值(Martínez et al. 2019),此策略基于模型组合在时间序列预测中的成功实践(Hibon and Evgeniou 2005),这种方式,避免了使用费时的优化工具,并且预测也不基于唯一的 k 值。

待预测新实例目标值计算方法选择

一旦我们根据特征确定了对 k 个最近邻居,我们就可以汇总这 k 个最近邻居的目标得到待预测新实例的目标值。默认情况下对 k 个最近邻居的目标取平均值。但是,我们除了取 k 个最近邻居的目标取平均值外,还可以选择取去掉最大最小值后的平均数、中位数和加权平均数。如果选择加权平均数算法,其核心思想是将更多的权重分配给更近的邻居。

注意,如果根据加权平均法预测新实例的目标,则 k 参数的选择就不太重要,因为邻居在远离新实例时会获得一个较小的权重。在这种情况下,如果k的取值足够大,正好等于训练实例的数目时,可以视为广义回归神经网络来处理(Weizhong Yan 2012)。

KNN 算法对数据的要求

如果我们在数据集中加入另外一个特征,比如食物的辛辣度,辛辣度的取值在 0~100 多万,而甜度和脆度的取值在 1~10 之间,所以尺度的差异,导致辛辣对距离函数的影响远远超过了甜度和脆度,如果不对数据进行调整,那么我们可以预见,距离度量和辛辣度有很大的关系,而脆度、甜度的影响几乎可以忽略不计。

解决的方法便是对原数据进行标准化处理,使各个特征的值都落在 0~1 范围内,或者使各个特征在量上具有可比性。常用的方法有两种:

normalize_mm = \(x) {
  return ((x - min(x)) / (max(x) - min(x)))
}
normalize_z = function(x) {
  return ((x - mean(x)) / sd(x))
}

注意:计算非数值型数据的距离,需要将原数据先转化为数值型数据。一种典型的解决方案使利用虚拟变量编码。例如 1 表示男性,0 表示女性。

下面是一个 KNN 实战案例,进一步学习 KNN 算法的应用。

第一步收集数据

案例来自 R 语言实战第二版(Kabacoff 2011)。文中数据来源为威斯康星州乳腺癌数据集,本数据包含 699 个样本,11 个变量。可在 UCI机器学习数据库中找到。

# 获取原始数据
loc = "https://archive.ics.uci.edu/ml/machine-learning-databases/"
ds = "breast-cancer-wisconsin/breast-cancer-wisconsin.data"
url = paste0(loc, ds)
breast = read.table(url, sep = ",", header = FALSE, na.strings = "?")

# 对原始数据添加变量名称
names(breast) = c(
  "ID", "clumpThickness", "sizeUniformity", "shapeUniformity",
  "maginalAdhesion", "singleEpithelialCellSize", "bareNuclei",
  "blandChromatin", "normalNucleoli", "mitosis", "class"
)

# 设置因子变量,原数据中 class 编码为 2 代表良性,4 代表恶性
breast$class = factor(
  breast$class, 
  levels = c(2, 4), 
  labels = c("benign", "malignant")
)

数据集中的变量说明:

第二步探索和准备数据

# 清洗数据
library(dplyr)
breast %>% 
  select(-ID) %>%   # 去掉ID列,此列属于模型无关变量
  na.omit() -> df  # 缺失值占比很少,此处直接删除

# 对除class列的数据进行标准化处理
df_n = as.data.frame(lapply(df[1:9], normalize_mm))

# 创建训练数据集和验证数据集
set.seed(1234)  # 设置随机数种子,方便重复性研究
train = sample(nrow(df), 0.7 * nrow(df))  # 原数据的随机抽取 70% 用来训练模型
df_train = df_n[train, ]  # df_train 为训练数据集
df_validate = df_n[-train, ]  # df_validate 为验证数据集
df_train_labels = df[train, 10]  # 训练数据集诊断结果
df_validate_labels = df[-train, 10]  # 验证数据集诊断结果

# 对训练数据和验证数据做初步统计
df_train %>%
  cbind(df_train_labels) %>% 
  rename(class = df_train_labels) %>% 
  group_by(class) %>%
  summarise(
    total = n()
  ) -> train_stat

df_validate %>%
  cbind(df_validate_labels) %>%
  rename(class = df_validate_labels) %>% 
  group_by(class) %>%
  summarise(
    total = n()
  ) -> validate_stat

第一个变量 ID 不纳入数据分析,最后一个变量 class 即输出变量。

对于每一个样本来说,另外九个变量是与判别恶性肿瘤相关的细胞特征,任一变量都不能单独作 为判别良性或恶性的标准,建模的目的是找到九个细胞特征的某种组合,从而实现对恶性肿瘤的 准确预测。

数据从UCI数据库中抽取,剔除缺失值,并随机分出训练集和验证集,其中 训练集中包含 478 个样本单元 (占 70%), 其中良性样本单元 302 个, 恶性样本单元 176 个; 验证集中包含 205 个样本单元 (占 30%), 其中良性 142 个, 恶性 63 个。

第三步基于数据训练模型

因为训练的样本有 478 个,开根后是 22,因此此处 k 取 22。

library(class)
knn.pred = knn(
  train = df_train,
  test = df_validate,
  cl = df_train_labels,
  k = 22
)

第四步评估模型的性能

library(gmodels)
CrossTable(
  x = df_validate_labels,
  y = knn.pred,
  dnn = c("Actual", "Predicted"),
  prop.chisq = FALSE
)
#> 
#>  
#>    Cell Contents
#> |-------------------------|
#> |                       N |
#> |           N / Row Total |
#> |           N / Col Total |
#> |         N / Table Total |
#> |-------------------------|
#> 
#>  
#> Total Observations in Table:  205 
#> 
#>  
#>              | Predicted 
#>       Actual |    benign | malignant | Row Total | 
#> -------------|-----------|-----------|-----------|
#>       benign |       140 |         2 |       142 | 
#>              |     0.986 |     0.014 |     0.693 | 
#>              |     0.979 |     0.032 |           | 
#>              |     0.683 |     0.010 |           | 
#> -------------|-----------|-----------|-----------|
#>    malignant |         3 |        60 |        63 | 
#>              |     0.048 |     0.952 |     0.307 | 
#>              |     0.021 |     0.968 |           | 
#>              |     0.015 |     0.293 |           | 
#> -------------|-----------|-----------|-----------|
#> Column Total |       143 |        62 |       205 | 
#>              |     0.698 |     0.302 |           | 
#> -------------|-----------|-----------|-----------|
#> 
#> 

左上角代表真阴性,右下角代表真阳性。预测的准确率为 (140+60)/205*100%=97.56%。同时我们也发现位于左下角的 3 个样本,实际为恶性,但是却被 KNN 错误地归为良性,即假阴性;右上角 2 个样本,实际为良性,却被 KNN 错误地归为恶性,即假阳性。但是预测的准确率还是比较高的,模型令人满意。

第五步提高模型的性能

这里我们可以尝试两种简单的改变,一是数据标准化处理时可以考虑采用 z-分数标准化,二是尝试几个不同的 k 值。需要注意的是,过分的追求预测的精度,可能导致过拟合,加大了拟合噪音的可能,从而使泛化能力变弱。

在确定 k 值方面,caret 包又可以大显身手了。

library(caret)
set.seed(1234) # 设置随机数种子,方便重复性研究
grid = expand.grid(.k = seq(2, 20, by = 1))
control = trainControl(method = "cv")

df_validate %>%
  cbind(df_validate_labels) %>%
  rename(class = df_validate_labels) -> train

knn.train = train(
  class ~ .,
  data = train,
  method = "knn",
  trControl = control,
  tuneGrid = grid
)

knn.train
#> k-Nearest Neighbors 
#> 
#> 205 samples
#>   9 predictor
#>   2 classes: 'benign', 'malignant' 
#> 
#> No pre-processing
#> Resampling: Cross-Validated (10 fold) 
#> Summary of sample sizes: 185, 184, 184, 185, 184, 185, ... 
#> Resampling results across tuning parameters:
#> 
#>   k   Accuracy   Kappa    
#>    2  0.9759524  0.9412545
#>    3  0.9709524  0.9298909
#>    4  0.9661905  0.9188071
#>    5  0.9757143  0.9410020
#>    6  0.9757143  0.9402357
#>    7  0.9757143  0.9402357
#>    8  0.9707143  0.9277898
#>    9  0.9757143  0.9402357
#>   10  0.9757143  0.9402357
#>   11  0.9707143  0.9277898
#>   12  0.9754762  0.9414350
#>   13  0.9754762  0.9414350
#>   14  0.9707143  0.9277898
#>   15  0.9659524  0.9166787
#>   16  0.9659524  0.9166787
#>   17  0.9659524  0.9166787
#>   18  0.9659524  0.9166787
#>   19  0.9659524  0.9166787
#>   20  0.9659524  0.9166787
#> 
#> Accuracy was used to select the optimal model using the largest value.
#> The final value used for the model was k = 2.

报告显示当 \(k=2\) 时模型最优,此时模型的正确率最高,为 97.60%。其中:Kappa 统计量(用于测量两个分类器对观测值分类的一致性)对正确率进行了修正,去除了仅靠偶然性(或随机性)获得正确分类的因素。

下面我们利用 \(k=2\) 重新训练模型:

knn.pred_new = knn(
  train = df_train,
  test = df_validate,
  cl = df_train_labels,
  k = 2
) 
CrossTable(
  x = df_validate_labels,
  y = knn.pred_new,
  dnn = c("Actual", "Predicted"),
  prop.chisq = FALSE
)
#> 
#>  
#>    Cell Contents
#> |-------------------------|
#> |                       N |
#> |           N / Row Total |
#> |           N / Col Total |
#> |         N / Table Total |
#> |-------------------------|
#> 
#>  
#> Total Observations in Table:  205 
#> 
#>  
#>              | Predicted 
#>       Actual |    benign | malignant | Row Total | 
#> -------------|-----------|-----------|-----------|
#>       benign |       139 |         3 |       142 | 
#>              |     0.979 |     0.021 |     0.693 | 
#>              |     0.986 |     0.047 |           | 
#>              |     0.678 |     0.015 |           | 
#> -------------|-----------|-----------|-----------|
#>    malignant |         2 |        61 |        63 | 
#>              |     0.032 |     0.968 |     0.307 | 
#>              |     0.014 |     0.953 |           | 
#>              |     0.010 |     0.298 |           | 
#> -------------|-----------|-----------|-----------|
#> Column Total |       141 |        64 |       205 | 
#>              |     0.688 |     0.312 |           | 
#> -------------|-----------|-----------|-----------|
#> 
#> 

我们比较两次结果,我们发现假阴性减少了 1 个,假阳性增加 1 个,总体上预测的精度保持不变,为 (139+61)/205*100%=97.56%。

笔者也尝试了利用 z-分数标准化对原数据进行处理,根据 Kappa 统计量确定最优 k 值为 12,结果显示真阴性为 139,真阳性为 61,假阴性为 2,假阳性为 3,精度为 (139+61)/205*100%=97.56%,精度依然没有变化3

最后需要指出的是,还有其他方法可以对距离进行加权,kknn 包提供了 10 中不同的加权方式,有兴趣可以尝试。

为了保证结果的可重现,我把系统环境信息提供如下:

xfun::session_info(c("class", "gmodels", "caret"))
#> R version 4.2.3 (2023-03-15 ucrt)
#> Platform: x86_64-w64-mingw32/x64 (64-bit)
#> Running under: Windows 10 x64 (build 19045)
#> 
#> Locale:
#>   LC_COLLATE=Chinese (Simplified)_China.utf8 
#>   LC_CTYPE=Chinese (Simplified)_China.utf8   
#>   LC_MONETARY=Chinese (Simplified)_China.utf8
#>   LC_NUMERIC=C                               
#>   LC_TIME=Chinese (Simplified)_China.utf8    
#> 
#> Package version:
#>   caret_6.0-94         class_7.3-22         cli_3.6.2           
#>   clock_0.7.0          codetools_0.2.19     colorspace_2.1.0    
#>   compiler_4.2.3       cpp11_0.4.7          data.table_1.15.4   
#>   diagram_1.6.5        digest_0.6.35        dplyr_1.1.4         
#>   e1071_1.7.14         ellipsis_0.3.2       fansi_1.0.6         
#>   farver_2.1.2         foreach_1.5.2        future_1.33.2       
#>   future.apply_1.11.2  gdata_3.0.0          generics_0.1.3      
#>   ggplot2_3.5.1        globals_0.16.3       glue_1.7.0          
#>   gmodels_2.19.1       gower_1.0.1          graphics_4.2.3      
#>   grDevices_4.2.3      grid_4.2.3           gtable_0.3.5        
#>   gtools_3.9.5         hardhat_1.3.1        ipred_0.9.14        
#>   isoband_0.2.7        iterators_1.0.14     KernSmooth_2.23.22  
#>   labeling_0.4.3       lattice_0.22.5       lava_1.8.0          
#>   lifecycle_1.0.4      listenv_0.9.1        lubridate_1.9.3     
#>   magrittr_2.0.3       MASS_7.3.60.0.1      Matrix_1.6.5        
#>   methods_4.2.3        mgcv_1.9.1           ModelMetrics_1.2.2.2
#>   munsell_0.5.1        nlme_3.1.164         nnet_7.3.19         
#>   numDeriv_2016.8.1.1  parallel_4.2.3       parallelly_1.37.1   
#>   pillar_1.9.0         pkgconfig_2.0.3      plyr_1.8.9          
#>   pROC_1.18.5          prodlim_2023.8.28    progressr_0.14.0    
#>   proxy_0.4.27         purrr_1.0.2          R6_2.5.1            
#>   RColorBrewer_1.1.3   Rcpp_1.0.12          recipes_1.0.10      
#>   reshape2_1.4.4       rlang_1.1.3          rpart_4.1.23        
#>   scales_1.3.0         shape_1.4.6.1        splines_4.2.3       
#>   SQUAREM_2021.1       stats_4.2.3          stats4_4.2.3        
#>   stringi_1.8.4        stringr_1.5.1        survival_3.5.7      
#>   tibble_3.2.1         tidyr_1.3.1          tidyselect_1.2.1    
#>   timechange_0.3.0     timeDate_4032.109    tools_4.2.3         
#>   tzdb_0.4.0           utf8_1.2.4           utils_4.2.3         
#>   vctrs_0.6.5          viridisLite_0.4.2    withr_3.0.0

参考文献

Hibon, Michèle, and Theodoros Evgeniou. 2005. “To Combine or Not to Combine: Selecting Among Forecasts and Their Combinations.” International Journal of Forecasting 21 (1): 15–24. https://doi.org/10.1016/j.ijforecast.2004.05.002.

Hyndman, Rob J., and Anne B. Koehler. 2006. “Another Look at Measures of Forecast Accuracy.” International Journal of Forecasting 22 (4): 679–88. https://doi.org/10.1016/j.ijforecast.2006.03.001.

Kabacoff, Robert. 2011. R in Action. Manning Publications. https://book.douban.com/subject/6126331/.

Martínez, Francisco, María Pilar Frías, María Dolores Pérez, and Antonio Jesús Rivera. 2019. “A Methodology for Applying k-Nearest Neighbor to Time Series Forecasting.” Artificial Intelligence Review 52 (3): 2019–37. https://doi.org/10.1007/s10462-017-9593-z.

Weizhong Yan. 2012. “Toward Automatic Time-Series Forecasting Using Neural Networks.” IEEE Transactions on Neural Networks and Learning Systems 23 (7): 1028–39. https://doi.org/10.1109/TNNLS.2012.2198074.


  1. 换句话说,你不能只听邻居的片面之词啊! ↩︎

  2. 换句话说,了解他你也不用找外国人打听啊,你不妨多打听下他周围的人意见。 ↩︎

  3. 2024 年 6 月 7 日对文章的代码重新跑了一遍,结果和之前有一定差异。 ↩︎