Faktoranalízis

a többváltozós statisztika egyik módszere
Ez a közzétett változat, ellenőrizve: 2024. január 19.

A faktorelemzés a többváltozós statisztika módszerei közé tartozik, célja a változók csoportosítása és a változók számának csökkentése, redukálása. A faktorelemzés lényege, hogy a változók között összefüggések, korrelációk tapasztalhatók: a közvetlenül nem megfigyelhető háttérváltozók – a latens változók, azaz a faktorok – meghatározása ezen korrelációk alapján lehetséges. A megfigyelt változók lineáris kombinációjából képezünk új változókat. A korrelációs módszer segítségével érhető el az eredeti változók számának csökkentése, hogy az eredeti adatok leírása a lehető legkevesebb információveszteséggel járjon.

A faktorelemzés modelljében feltételezzük, hogy a megfigyelt korrelált változók nem megfigyelhető hipotetikus háttérváltozók, ún. faktorok lineáris kombinációjaként írhatók le. A faktorelemzés során megkeressük az eredeti változók egymással szorosabb korrelációban levő csoportjait, ezeket a változókat egy faktorhoz tartozónak tekintjük. Amennyiben sikerült ilyen csoportokat elkülönítenünk, a következő feladat a faktorok értelmezése. Így a nagyszámú eredeti változót néhány faktorban összesíthetjük, és ezekkel mint új változókkal dolgozhatunk tovább.

A módszer a pszichológiában a személyiség szerkezetének, modelljének vizsgáló többváltozós kutatások alapjául szolgál, de azokon a területeken alkalmazható leginkább, ahol nagy mennyiségű adattal dolgoznak. A faktorelemzés módszerét alkalmazzák a pszichometriában, a viselkedés- és társadalomtudományokban, használja a szociológia, a marketing, a termékmenedzsment és az operációkutatás is.

Faktoranalízis típusai

szerkesztés

A feltáró faktoranalízst arra használjuk, hogy feltárjunk velük komplex kölcsönös korrelációkat bizonyos itemek és csoportosító változóik között, illetve ezen csoportosító változók (faktorok) közötti kapcsolatokat, melyek egy bizonyos fogalom részeit képezik (pl. intelligencia).[1] A feltáró faktoranalízis során a kutató nem él előzetes feltételezésekkel arra vonatkozóan, hogy a faktorok között milyen jellegű kapcsolat áll fenn.[1]

A megerősítő (konformatikus) egy bonyolultabb megközelítés abban az értelemben, hogy az itemjeink már kapcsolatban állnak bizonyos faktorokkal. Ilyen értelemben tehát modellt tesztelünk vele, esetleg bizonyítjuk azt. MFA strukturális egyenlet modellezési eljárást (SEM) alkalmaz a mérni kívánt modell tesztelésére. Ezt akképpen teszi, hogy a faktortöltések által kiszámítja a megfigyelt változók és háttérváltozók (v. látens változó) közötti kapcsolatot.[1] SEM modellek képesek figyelembe venni a számítási hibákat és sokkal kevésbé korlátozóak, mint a legkisebb négyzetes módszerek.[1] Hipotetikus modellünket saját adaton teszteljük, és az analízis be fogja mutatni a megfigyelt változók töltéseit a látens változókon (faktorokon), mint ahogyan a faktorok közötti korrelációkat is.[1]

Faktorkiemelés típusai

szerkesztés

A főkomponens-analízis (FKA) egy széles körben alkalmazott eljárás faktorkiemeléshez, amit a feltáró faktoranalízis (FFA) első lépése.[1] Az eljárás keretében faktorsúlyokat kell számolnunk, hogy megkapjuk a lehető legnagyobb lehetséges varianciát, ami nem más mint az első főkomponens varianciája. Miután ez megvan további faktorálás (faktorsúly számítás) következik, melynek keretében meghatározzuk a többi komponenst is, melyek varianciája csökkenő sorrendiséget fog mutatni. Tehát addig alkotunk komponenseket, még nem marad hátra jelentős variancia.[1] Majd a faktormodellt elforgatjuk az analízishez.[1]

Kanonikus faktorelemzést Rao-féle kanonikus faktorkiemelésnek is neveznek, mely főtengely módszert alkalmaz. Kanonikus faktorelemzés azokat a faktorokat keresi, melyeknek a legnagyobb a kanonikus korrelációja a megfigyelt változókkal.

Főfaktoranalízis vagy más néven főtengely faktorálás azon faktorok legkisebb számát keresi, melyek egy változóhalmaz közös varianciáját magyarázni képesek.

A faktor regressziós modell egy faktormodell és regressziós modell kombinatorikus modellje. Tulajdonképpen egy olyan hibrid faktormodellként tekinthetünk rá, melynek faktorait részben ismerjük.[2]

Faktorok számának meghatározásához használt kritériumok

szerkesztés

Kutatók szeretnének olyan önkényes vagy szubjektív kritériumokat elkerülni mint például „ezt tűnt észszerűnek”.  Számos objektív eljárást dolgoztak ki, hogy megoldják ezt a problémát lehetővé téve az ezen eljárások felhasználóinak egy sor lehetséges megoldás számbavételét. Ezek az eljárások azonban nem feltétlenül fedik le egymást. Párhuzamos analízis példának okáért 5 faktort feltételezhet, addig a Velicer-féle MAP (minimum averaged partial) már 6-ot, így a kutatónak 5 és 6 faktoros megoldásra egyaránt szüksége lehet és ennek függvényében vizsgálja meg mindkettőt a külső adatok és elmélet összefüggésében.

Modern kritérium

szerkesztés

Horn-féle párhuzamos analízis: egy Monte-Carlo alapú szimulációs eljárás mely összehasonlítja a megfigyelt sajátértékeket azokkal a sajátértékekkel, melyeket a korrelálatlan normális eloszlású változókból szereztünk. Egy faktort vagy komponenst tehát csak abban az esetben tartunk meg, hogyha az ahhoz tartozó sajátérték nagyobb értéket vesz fel mint a random adatkészletből származó sajátértékek eloszlásának 95. percentilise. PA eljárás minősül a leggyakrabban ajánlott eljárásnak a faktorok számának meghatározásához,[3] ugyanakkor sok program nem tartalmazza ezt a lehetőséget (melyek közül R kivételt képez).[4]  Formann ugyanakkor elméleti és kutatási bizonyítékkal is szolgált arra vonatkozóan, hogy alkalmazása bizonyos esetékben nem javasolt, ugyanis a Horn-féle párhuzamos analízis teljesítményét olyan tényezők befolyásolhatják, mint a mintaméret, item diszkrimináció vagy a korrelációs koefficiens típusa.[5]

Velicer-féle MAP eljárás[6][7] magába foglal egy teljes főkomponens elemzést amit egy sor parciális korrelációs mátrix megvizsgálása követ. Ezen eljárás során a komponenseket mindaddig fennmaradnak, amíg a korrelációs mátrixban jelenlévő variancia szisztematikus varianciát reprezentál, ellentétben a reziduálissal vagy a hibavarianciával. Annak ellenére, hogy metodológiailag hasonló a főkomponens elemzéshez, a MAP eljárás elég jól teljesít a faktorok számának meghatározásában számos szimulációs eljárásban.[8][8][9]

Régi eljárások

szerkesztés

Kaiser kritérium: Kaiser kritérium szabálya, hogy dobjunk el minden olyan komponenst, aminek sajátértéke 1.0 alatt van. Kaiser kritérium alapeljárás SPSS-ben, illetve a legtöbb statisztikai szoftverben is, ugyanakkor mint egyetlen adatok csökkentését szolgáló kritériumként nem javasolt a használata a faktorok meghatározásához, mivel hajlamos túlbecsülni a faktorok számát.[10]  Az eljárásnak olyan verzióját is kidolgozták, ahol a kutató kiszámolja a minden sajátértékhez tartozó konfidencia intervallumokat és mindössze azokat a faktorokat tartja meg, melyek konfidencia intervallum értéke nagyobb mint 1.0,.[8][11]

Scree plot[12] olyan eljárás melyben a komponensek az x tengelyen a hozzájuk tartozó sajátértékek pedig az y tengelyen jelennek meg. Ahogyan jobbra haladunk a későbbi komponensek irányába, a sajátértékek csökkenni fognak. Amikor a görbe meredeksége véget ér és egyenesbe megy át, ott határozzuk meg a komponensek számát. Tehát attól a ponttól kezdve, ahogy a görbe egyenesbe fordul eldobunk minden komponenst. Ugyanakkor ezt az eljárást sok esetben kritizálták, ugyanis hajlamosít a kutatói szubjektivitásra. Az egyenesnek ugyanis számos „könyöke” lehet (azok a részek, ahol a görbe egyenesbe fordul), így a kutató hajlamos lehet a számára elérni kívánt mennyiségnél meghatározni a faktorok számát.[12]

Feltáró faktoranalízis (FFA) versus főkomponens-analízis (FKA)

szerkesztés

Miközben a feltáró faktorelemzést és a főkomponens-analízist mint egymással megfeleltethető, szinonim technikákként kezelik a statisztika bizonyos területein, ez az eljárás sokak által megkérdőjelezett.[13][14] Faktoranalízis során a kutatók azzal az előfeltételezéssel élnek, hogy a háttérben jelen van egy bizonyos ok-okozati, kauzális modell, mialatt a főkomponens-analízis esetében csupán egy változó-redukciós technikáról beszélhetünk.[15] Kutatók úgy érvelnek, hogy a két technika között fennálló alapvető különbség azt jelentheti, hogy vannak bizonyos objektív előnyei az egyik technika alkalmazásának a másikkal szemben attól függően, hogy mi a statisztikai elemzésünk célja. Abban az esetben, ha faktormodellünk nem megfelelően lett megszerkesztve vagy az előfeltételek nem teljesülnek, akkor faktoranalízisünk hibás, rossz eredményt fog adni. Faktoranalízis abban az esetben használható tehát megfelelően, ha statisztikai modellünk is megfelelő. Főkomponens-analízis egy matematikai transzformációs eljárást alkalmaz az eredeti adatokon, miközben nem fogalmaz meg előfeltételeket a kovarianciamátrix formáját illetően. FA célja, hogy meghatározza az eredeti változók lineáris kombinációit, melyeket az adathalmaz megfelelő összegzésére lehet felhasználni anélkül, hogy azzal túl sok információt vesztenénk.[16]  

Érvek az FFA és FKA közötti különbségre

szerkesztés

Fabrigar és mtsai. (1999) egy sor érvet sorakoztat fel amellett, hogy a főkomponens-analízis és a feltáró-faktoranalízis nem ugyanaz. Ezek a következőek:

  1. Felmerül, hogy a FKA analízis kevésbé számításigényes és ezért kevesebb erőforrást vesz igénybe mint a FFA. Fabrigar és mtsai szerint ugyanakkor a számítógépes erőforrások széleskörű elérhetősége miatt ez a gyakorlati szempont már nem játszik jelentős szerepet.
  2. FFA és FKA hasonló eredményeket képesek produkálni. Bizonyos esetekben ugyanakkor, mikor a kommunalitások alacsonyak (pl. .40), a két technika egymástól különböző eredményeket is hozhat. Fabrigar és mtsai. szerint továbbá azokban az esetekben, amikor az adat eleget tesz a közös faktormodell előfeltételeinek, FKA eredményei pontatlanok.
  3. Vannak esetek, amikor a faktoranalízis úgynevezett „Heywood esetekhez” vezet bennünket. Ezek olyan helyzeteket foglalnak magukba, melyeknél a statisztikai modell a variancia 100 vagy annál nagyobb százalékát képes magyarázni egy mért változónál. Fabrigar és mtsai. szerint ezek az esetek informatívak egy kutató számára, hiszen potenciálisan jelezhetnek egy nem megfelelően specifikált statisztikai modellt, vagy a közös faktormodell előfeltételeinek sérülését. Heywood esetek hiánya FKA eljárás esetében azt jelentheti, hogy ehhez hasonló eseték figyelmen kívül maradnak.
  4. Kutató extra információkat nyerhet FKA eljárásnál, mint egyének bizonyos fajta értékei bizonyos komponenseknél, melyek faktoranalízisnél ellenben nem tárhatóak fel. Fabriger és mtsai. szerint a faktoaranalízis elsődleges célja, miszerint hogy meghatározza azon faktorokat melyek felelősek a mért változók között megjelenő korrelációs struktúráért, nem igényli a faktorértéket ismeretét, így az FKA fenti előnye FFA esetében elhanyagolható.

Az első lépés a standardizált változók korrelációs – vagy kovariancia – mátrixának elkészítése és vizsgálata. Ekkor minden változónak mindegyik más változóval való kapcsolatát határozzuk meg. A következőkben azonosítanunk kell a faktorokat, azaz faktorextrakciót (faktorkivonást) kell végeznünk a változók közötti korrelációs vizsgálat alapján. A faktorextrakció után a faktorsúlyok becslése, a faktorok értelmezése, interpretációja következik. Faktorsúlynak (factor loading) a mérési mutató és a faktor közti korrelációt nevezzük.

Az így kapott faktorokat még nehezen lehet értelmezni, de a faktorok megfelelő rotációjával az eredeti változók korábbi viszonylag nagy faktorterhelései még nagyobbak lesznek, a korábbi viszonylag kis faktorterhelések pedig még kisebbek, az egyes faktorok a nagy terhelésű változók mentén könnyebben értelmezhetők. Az egyes eseteket a faktorpontok (factor score) segítségével jellemezhetjük. A faktorok elnevezésekor törekedni kell arra, hogy az elnevezések tükrözzék a legnagyobb faktorsúlyú tételeket.

A faktoranalízis főbb módszerei a főkomponensmódszer, a főfaktoranalízis és a maximum likelihood-faktoranalízis. A faktoranalízist gyakran összekeverik a főkomponens-analízissel, mivel a két módszer összefügg.

A főkomponens-analízis a legelterjedtebb módszer a faktorsúlyok becslésére. Az eredeti változókat új, korrelálatlan változókba transzformáljuk lineáris transzformáció segítségével, így a teljes variancia egyre kisebb hányadát fogják magyarázni az egymást követő komponensek, amelyből csak az első néhányat tartjuk meg.

Története

szerkesztés

A faktoranalízis bevezetése Charles Spearman nevéhez fűződik, aki az intelligencia kutatásának során kétfaktoros elméletet feltételezett. Elmélete szerint minden ember egy általános intelligenciafaktorral („g” faktor) és speciális intelligencia faktorokkal („s” faktor) rendelkezik, s ezen faktorok különböző képességekre vonatkoznak.

Louis Leon Thurstone Az értelem vektorai (The Vectors of Mind, 1935) című munkájában mutatja be a faktoranalízis módszerét. Thurstone szerint a teljesítményben nem lehet egyik faktornak nagyobb szerepe, mint a többinek, és a faktorokat úgy értékelte, ahogy az egy adott pillanatban az adott tesztben elért teljesítményt befolyásolta. 1938-ban az Elsődleges Mentális Képességek Tesztje (Primary Mental Abilities Test) megalkotásakor az emberi intelligenciának különféle összetevőit határozta meg (a következtetés képessége, a verbális készség, a verbális megértés, a számolás, a térlátás és a gépies emlékezet).

Raymond Cattell elkötelezett híve volt a faktoranalízis módszerének, megalkotta saját, multi-faktoriális elméletét az intelligencia magyarázatára, amely szerint az elsődleges személyiségvonásokat 16 fő faktor tartalmazza (1977). A főkomponens-módszer kifejlesztése Harold Hotelling nevéhez fűződik, a maximum likelihood-faktoranalízist Lawley és J. C. Maxwell Barnett vezette be az 1930-as és az 1940-es években.

Alkalmazása

szerkesztés

A faktoranalízist olyan faktorok azonosítására használják, amelyek a különböző teszteken elért eredmények változatosságát magyarázzák. Intelligenciakutatásokban azt az eredményt kapták, hogy azok a vizsgálati személyek, akik a verbális képességeket vizsgáló valamely teszten magas pontszámot értek el, más verbális képességeket megkövetelő teszteken is jól szerepeltek. A kutatók a faktoranalízis segítségével elkülönítettek egy gyakran „crystallized intelligence”-nek vagy verbális intelligenciának nevezett jelenséget, ami annak a képességnek a mértékét jelzi, hogy valaki mennyire képes problémákat megoldani verbális készségei bevonásával.

A faktoranalízis fogalma a pszichológiában leggyakrabban az intelligenciakutatásokkal, illetve a személyiség- és attitűdkutatásokkal stb. kapcsolódott össze. Alkalomadtán a faktoranalízist természettudományi kérdések megoldására is felhasználják, mint például a beszédfelismerés hangjelzéseinél a vakforrás-szeparáció esetében, amikor a függetlenkomponens-analízist az akusztikus főfaktorok elvonására a repülőtéri hangosbeszélők, illetve a zenei felvételek érthetővé tételében használják.

A faktoranalízist feltáró (exploratory) vagy megerősítő (confirmatory) céllal is alkalmazhatjuk. A faktoranalízis lehetőséget ad arra, hogy a változók számának csökkentésével egy időben két vagy több változó egyesüljön egyetlen faktorban.

Hátrányai

szerkesztés

A faktoranalízis hátrányai közé tartozik, hogy többféle eltérő megoldási lehetőséget is felkínál, bár az eredmények nagyon hasonlíthatnak is egymásra. A kutató tapasztalata, döntései is nagy szerepet játszhatnak a faktoranalízis során létrejövő eredményekben, hiszen ezeken múlik a kiszűrendő faktorok számának megválasztása, a rotálás alkalmazása (a megfelelő elforgatással markánsabb jelentést adhatunk a faktoroknak), illetve a használt iterációk száma is. Minden rotáció különböző mögöttes folyamatokat reprezentál, de minden rotáció egyenlően érvényes kimenetelű a faktoranalízis standard optimalizálásánál. A pszichológiában a kutató többé-kevésbé érvényes és megbízható mérésekre támaszkodnak, mint akár az önjellemzések, illetve a faktoranalízis heurisztikákon alapul, ami problémákat is okozhat.

  1. a b c d e f g h Polit DF Beck CT (2012).. „Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins.”. 
  2. Meng, Jia, Jianqiu (2011. május 1.). „Uncover cooperative gene regulations by microRNAs and transcription factors in glioblastoma using a nonnegative hybrid factor model”. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kiadó: IEEE. DOI:10.1109/icassp.2011.5947732. 
  3. Dobriban, Edgar (2017-10-02).. „"Permutation methods for factor analysis and PCA". arXiv:1710.00479v2”. 
  4. Ledesma, R.D.; Valero-Mora, P. (2007).. „"Determining the Number of Factors to Retain in EFA: An easy-to-use computer program for carrying out Parallel Analysis". Practical Assessment Research & Evaluation. 12 (2): 1–11.”. 
  5. Tran, U. S., & Formann, A. K. (2009).. „Performance of parallel analysis in retrieving unidimensionality in the presence of binary data. Educational and Psychological Measurement, 69, 50-61.”. 
  6. Velicer, Wayne F. (1976. szeptember 1.). „Determining the number of components from the matrix of partial correlations” (angol nyelven). Psychometrika 41 (3), 321–327. o. DOI:10.1007/BF02293557. ISSN 0033-3123. 
  7. Courtney, M. G. R. (2013).. „Determining the number of factors to retain in EFA: Using the SPSS R-Menu v2.0 to make more judicious estimations. Practical Assessment, Research and Evaluation, 18(8). Available online: http://pareonline.net/getvn.asp?v=18&n=8”. 
  8. a b c Warne, R. T.; Larsen, R. (2014).. „"Evaluating a proposed modification of the Guttman rule for determining the number of factors in an exploratory factor analysis". Psychological Test and Assessment Modeling. 56: 104–123.”. 
  9. Ruscio, John (2012. június 1.). „Determining the number of factors to retain in an exploratory factor analysis using comparison data of known factorial structure.”. Psychological Assessment 24 (2), 282–292. o. DOI:10.1037/a0025697. ISSN 1939-134X. 
  10. Bandalos, D.L.; Boehm-Kaufman, M.R. (2008).. „"Four common misconceptions in exploratory factor analysis". In Lance, Charles E.; Vandenberg, Robert J. (eds.). Statistical and Methodological Myths and Urban Legends: Doctrine, Verity and Fable in the Organizational and Social Sciences. Taylor & Francis. pp. 61–87”. 
  11. Larsen, R.; Warne, R. T. (2010). „Estimating confidence intervals for eigenvalues in exploratory factor analysis". Behavior Research Methods. 42 (3): 871–876.”. 
  12. a b Cattell, Raymond (1966). „"The scree test for the number of factors". Multivariate Behavioral Research. 1 (2): 245–76. doi:10.1207/s15327906mbr0102_10. PMID 26828106.”. 
  13. Fabrigar; et al. (1999).. „"Evaluating the use of exploratory factor analysis in psychological research" (PDF). Psychological Methods.”. 
  14. Suhr, Diane (2009).. „"Principal component analysis vs. exploratory factor analysis" (PDF). SUGI 30 Proceedings. Retrieved 5 April 2012.”. 
  15. SAS Statistics. „"Principal Components Analysis" (PDF). SAS Support Textbook.”. 
  16. Meglen, R.R. (1991).. „"Examining Large Databases: A Chemometric Approach Using Principal Component Analysis". Journal of Chemometrics. 5 (3): 163–179. doi:10.1002/cem.1180050305.”. 

Kapcsolódó szócikkek

szerkesztés