ABSTRACT

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703 31.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704 31.2 Clustering Aims and Cluster Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705 31.3 Data Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709

31.3.1 Choice of Representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709 31.3.2 Dissimilarity Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711

31.3.2.1 Aggregating Binary Variables . . . . . . . . . . . . . . . . . . . . . . . . . 712 31.3.2.2 Aggregating Categorical Variables . . . . . . . . . . . . . . . . . . . . . 712 31.3.2.3 Aggregating Continuous Variables . . . . . . . . . . . . . . . . . . . . . 712 31.3.2.4 Aggregating Ordinal Variables . . . . . . . . . . . . . . . . . . . . . . . . 713 31.3.2.5 Aggregating Mixed-Type Variables and Missing Values . . . . . . 714 31.3.2.6 Custom-Made Dissimilarities for Structured Data . . . . . . . . . . 714

31.3.3 Transformation of Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 31.3.4 Standardization, Weighting, and Sphering of Variables . . . . . . . . . . . . . 716

31.4 Comparison of Clustering Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717 31.4.1 Relating Methods to Clustering Aims . . . . . . . . . . . . . . . . . . . . . . . . . . 718 31.4.2 Benchmarking Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720 31.4.3 Axioms and Theoretical Characteristics of Clustering Methods . . . . . . . 721

31.5 Cluster Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723 31.5.1 The Number of Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724 31.5.2 Use of External Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724 31.5.3 Testing for Clustering Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725 31.5.4 Internal Validation Indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725 31.5.5 Stability Assessment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726 31.5.6 Visual Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726 31.5.7 Different Clusterings on the Same Dataset . . . . . . . . . . . . . . . . . . . . . . 727

31.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 Acknowledgment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728

The aim of this chapter is to provide a framework for all the decisions that are required when carrying out a cluster analysis in practice. A general attitude to clustering is outlined, which connects these decisions closely to the clustering aims in a given application.