chapter  21
28 Pages

Clustering of Symbolic Data

ByPaula Brito

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 21.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 21.2 Symbolic Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471

21.2.1 Quantitative Single-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 472 21.2.2 Quantitative Multi-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 21.2.3 Interval-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 21.2.4 Histogram-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473 21.2.5 Categorical Single-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 21.2.6 Categorical Multi-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 21.2.7 Categorical Modal Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 21.2.8 Other Types of Symbolic Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476

21.2.8.1 Taxonomic Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 21.2.8.2 Constrained Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476

21.3 Dissimilarities and Distances for Symbolic Data . . . . . . . . . . . . . . . . . . . . . . . . 476 21.3.1 Dissimilarities for Set-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . 476 21.3.2 Distances for Interval-Valued Variables . . . . . . . . . . . . . . . . . . . . . . . . . 478 21.3.3 Distances for Distributional-Valued Data . . . . . . . . . . . . . . . . . . . . . . . 479 21.3.4 Standardization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480

21.3.4.1 Standardization of Interval Data . . . . . . . . . . . . . . . . . . . . . . . 481 21.3.4.2 Standardization of Histogram Data . . . . . . . . . . . . . . . . . . . . . 481

21.4 Clustering Interval Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 21.4.1 Nonhierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 21.4.2 Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483

21.5 Clustering Distributional Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 21.5.1 Nonhierarchical Clustering of Distributional Data . . . . . . . . . . . . . . . . . 483 21.5.2 Hierarchical Clustering of Distributional Data . . . . . . . . . . . . . . . . . . . 484

21.6 Clustering Methods for Multiple Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . 484 21.6.1 Nonhierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 21.6.2 Hierarchical and Pyramidal Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 485

21.7 Application: The CAR Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 21.8 Concluding Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491

of

In this chapter, we present clustering methods for symbolic data. We start by recalling that symbolic data is data presenting inherent variability, and the motivations for the introduction of this new paradigm.We then proceed by defining the different types of variables that allow for the representation of symbolic data, and recall some distance measures appropriate for the new data types. Then we present clustering methods for different types of symbolic data, both hierarchical and nonhierarchical. An application illustrates two well-known methods for clustering symbolic data.