ABSTRACT

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 8.2 Definition of Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.3 Maximum-Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.4 Fitting Mixture Models via the EM Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 148

8.4.1 E-Step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 8.4.2 M-Step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.5 Choice of Starting Values for the EM Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 150 8.6 Advantages of Mixture Model-Based Clustering . . . . . . . . . . . . . . . . . . . . . . . . 151 8.7 Choice of the Number of Components in a Mixture Model . . . . . . . . . . . . . . . . . 151

8.7.1 Bayesian Information Criterion and Related Methods . . . . . . . . . . . . . . . 152 8.7.2 Resampling Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

8.8 Clustering via Normal Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.8.1 Heteroscedastic Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.8.2 Homoscedastic Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.8.3 Spherical Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.8.4 Spectral Representation of Component-Covariance Matrices . . . . . . . . . . 154 8.8.5 Choice of Root . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

8.9 Multivariate t-Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.9.1 Definition of t-Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.9.2 ML estimation of Mixtures of t-Distributions . . . . . . . . . . . . . . . . . . . . . . 156

8.10 Factor Analysis Model for Dimension Reduction . . . . . . . . . . . . . . . . . . . . . . . . 158 8.10.1 Factor Analysis Model for a Single Component . . . . . . . . . . . . . . . . . . . . 158 8.10.2 Mixtures of Factor Analyzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 8.10.3 Choice of the Number of Factors q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 8.10.4 Mixtures of t-Factor Analyzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8.11 Some Recent Extensions for High-Dimensional Data . . . . . . . . . . . . . . . . . . . . . 161 8.12 Mixtures of Skew Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

8.12.1 Classification of Skew Normal Distributions . . . . . . . . . . . . . . . . . . . . . . 162 8.12.2 Restricted Skew Normal Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 8.12.3 Unrestricted Skew Normal Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.12.4 Skew t-Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.12.5 Skew Symmetric Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.12.6 Mixtures of Skew Normal and t-Distributions . . . . . . . . . . . . . . . . . . . . . 166 8.12.7 Other Non-Normal Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

of

8.13 Available Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.14 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

In this chapter, we consider the use of finite mixture models for the clustering of multivariate data observed from a random sample. Such models can be fitted by maximum likelihood via the expectation-maximization (EM) algorithm. The focus is on the use of mixtures of normal component distributions with attention also given to component tdistributions for clusters with tails longer than the normal. There is also coverage of recent developments on the use of mixtures of skew normal and skew t-distributions for nonelliptical-shaped clusters that may possibly contain outliers.