详细解释了选择主成分分析 (PCA) 等降维技术的原因。 构造一个线性判别函数来预测新的观察结果。

使用这个测量细胞核大小和形状的 32 个变量的数据集,目标是创建一个模型,使我们能够预测乳腺癌细胞是良性还是恶性。

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lKa01XTTJZbU5tTnpVeE5qUTBOamcyWVRKaE16UXhNV1l4TjJZd01XUTVNeUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9

特征是根据乳房肿块的细针抽吸 (FNA) 的数字化图像计算的。 它们描述了图像中存在的细胞核的特征。 我们的数据集由 569 个观测值和 32 个变量组成。 有一个 ID 变量、一个显示它们是良性还是恶性的诊断变量,以及 30 个详细描述细胞核大小和形状的测量变量。 诊断是一个分类变量,是我们的响应变量,30 个测量变量都是连续的,是我们模型的潜在解释变量。 这 30 个测量变量实际上只是核的 10 个不同特征,但每个变量都有 3 个不同的测量值; 平均值、标准误差和“最差”或最大(三个最大值的平均值)。 包含的 10 个特征包括:

数据清理

使用 read.csv 我们可以下载数据集,如下所示:

wdbc <- read.csv("../input/data.csv")
library(dplyr)
glimpse(wdbc)
## Observations: 569
## Variables: 33
## $ id                      <int> 842302, 842517, 84300903, 84348301, 84...
## $ diagnosis               <fctr> M, M, M, M, M, M, M, M, M, M, M, M, M...
## $ radius_mean             <dbl> 17.990, 20.570, 19.690, 11.420, 20.290...
## $ texture_mean            <dbl> 10.38, 17.77, 21.25, 20.38, 14.34, 15....
## $ perimeter_mean          <dbl> 122.80, 132.90, 130.00, 77.58, 135.10,...
## $ area_mean               <dbl> 1001.0, 1326.0, 1203.0, 386.1, 1297.0,...
## $ smoothness_mean         <dbl> 0.11840, 0.08474, 0.10960, 0.14250, 0....
## $ compactness_mean        <dbl> 0.27760, 0.07864, 0.15990, 0.28390, 0....
## $ concavity_mean          <dbl> 0.30010, 0.08690, 0.19740, 0.24140, 0....
## $ concave.points_mean     <dbl> 0.14710, 0.07017, 0.12790, 0.10520, 0....
## $ symmetry_mean           <dbl> 0.2419, 0.1812, 0.2069, 0.2597, 0.1809...
## $ fractal_dimension_mean  <dbl> 0.07871, 0.05667, 0.05999, 0.09744, 0....
## $ radius_se               <dbl> 1.0950, 0.5435, 0.7456, 0.4956, 0.7572...
## $ texture_se              <dbl> 0.9053, 0.7339, 0.7869, 1.1560, 0.7813...
## $ perimeter_se            <dbl> 8.589, 3.398, 4.585, 3.445, 5.438, 2.2...
## $ area_se                 <dbl> 153.40, 74.08, 94.03, 27.23, 94.44, 27...
## $ smoothness_se           <dbl> 0.006399, 0.005225, 0.006150, 0.009110...
## $ compactness_se          <dbl> 0.049040, 0.013080, 0.040060, 0.074580...
## $ concavity_se            <dbl> 0.05373, 0.01860, 0.03832, 0.05661, 0....
## $ concave.points_se       <dbl> 0.015870, 0.013400, 0.020580, 0.018670...
## $ symmetry_se             <dbl> 0.03003, 0.01389, 0.02250, 0.05963, 0....
## $ fractal_dimension_se    <dbl> 0.006193, 0.003532, 0.004571, 0.009208...
## $ radius_worst            <dbl> 25.38, 24.99, 23.57, 14.91, 22.54, 15....
## $ texture_worst           <dbl> 17.33, 23.41, 25.53, 26.50, 16.67, 23....
## $ perimeter_worst         <dbl> 184.60, 158.80, 152.50, 98.87, 152.20,...
## $ area_worst              <dbl> 2019.0, 1956.0, 1709.0, 567.7, 1575.0,...
## $ smoothness_worst        <dbl> 0.1622, 0.1238, 0.1444, 0.2098, 0.1374...
## $ compactness_worst       <dbl> 0.6656, 0.1866, 0.4245, 0.8663, 0.2050...
## $ concavity_worst         <dbl> 0.71190, 0.24160, 0.45040, 0.68690, 0....
## $ concave.points_worst    <dbl> 0.26540, 0.18600, 0.24300, 0.25750, 0....
## $ symmetry_worst          <dbl> 0.4601, 0.2750, 0.3613, 0.6638, 0.2364...
## $ fractal_dimension_worst <dbl> 0.11890, 0.08902, 0.08758, 0.17300, 0....
## $ X                       <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA...

探索性数据分析

主成分分析