ABSTRACT

Acronyms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 11.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 11.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

11.2.1 A Brief Explanation of k-Means. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 11.3 Cluster Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

11.3.1 Internal Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 11.3.2 External Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 11.3.3 Relative Validity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

11.4 The Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 11.4.1 Artificial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 11.4.2 E-coli Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

11.5 Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 11.5.1 Download and Install R Extension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 11.5.2 Processes and Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

11.6 The Process in Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 11.6.1 Import Data (A) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 11.6.2 Generate Clusters (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 11.6.3 Generate Ground Truth Validity Measures (C) . . . . . . . . . . . . . . . . . . . . . . . 170 11.6.4 Generate External Validity Measures (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 11.6.5 Generate Internal Validity Measures (E) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 11.6.6 Output Results (F) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

11.7 Running the Process and Displaying Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 11.8 Results and Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

11.8.1 Artificial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 11.8.2 E-coli Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

11.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

ARI - Adjusted Rand Index

FM - Fowlkes Mallow Index

RI - Rand Index

Applications

This chapter is about clustering, i.e., the task of automatically grouping objects (examples) into groups of similar objects. This is an unsupervised technique; no human is involved in the production of the answer. This, of course, means that the answers could be meaningless. Because there are many possible answers, all potentially equally meaningless and certainly difficult to tell apart, it is difficult for a human to understand what clustering is best. It is vital, therefore, that to allow a human to be involved and be helped to identify the best answers, methods should be provided to highlight those to focus on.