ABSTRACT
Acronyms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 11.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 11.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
11.2.1 A Brief Explanation of k-Means. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 11.3 Cluster Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
11.3.1 Internal Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 11.3.2 External Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 11.3.3 Relative Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.4 The Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 11.4.1 Artificial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 11.4.2 E-coli Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
11.5 Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 11.5.1 Download and Install R Extension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 11.5.2 Processes and Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.6 The Process in Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 11.6.1 Import Data (A) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 11.6.2 Generate Clusters (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 11.6.3 Generate Ground Truth Validity Measures (C) . . . . . . . . . . . . . . . . . . . . . . . 170 11.6.4 Generate External Validity Measures (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 11.6.5 Generate Internal Validity Measures (E) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 11.6.6 Output Results (F) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
11.7 Running the Process and Displaying Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11.8 Results and Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
11.8.1 Artificial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 11.8.2 E-coli Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
11.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
ARI - Adjusted Rand Index
FM - Fowlkes Mallow Index
RI - Rand Index
Applications
This chapter is about clustering, i.e., the task of automatically grouping objects (examples) into groups of similar objects. This is an unsupervised technique; no human is involved in the production of the answer. This, of course, means that the answers could be meaningless. Because there are many possible answers, all potentially equally meaningless and certainly difficult to tell apart, it is difficult for a human to understand what clustering is best. It is vital, therefore, that to allow a human to be involved and be helped to identify the best answers, methods should be provided to highlight those to focus on.