క్రమానుగత vs విభజన క్లస్టరింగ్

క్లస్టరింగ్ అనేది డేటాను విశ్లేషించడానికి మరియు సారూప్య డేటా సమూహాలకు విభజించడానికి ఒక యంత్ర అభ్యాస సాంకేతికత. ఈ సమూహాలు లేదా సారూప్య డేటా సమితులను క్లస్టర్‌లు అంటారు. క్లస్టర్ విశ్లేషణ క్లస్టర్‌లను స్వయంచాలకంగా గుర్తించగల క్లస్టరింగ్ అల్గారిథమ్‌లను చూస్తుంది. క్రమానుగత మరియు విభజన అనేది క్లస్టరింగ్ అల్గోరిథంల యొక్క రెండు తరగతులు. క్రమానుగత క్లస్టరింగ్ అల్గోరిథంలు డేటాను క్లస్టర్ల శ్రేణికి విచ్ఛిన్నం చేస్తాయి. పార్షనల్ అల్గోరిథంలు సెట్ చేసిన డేటాను పరస్పరం విభజన విభజనలుగా విభజిస్తాయి.

క్రమానుగత క్లస్టరింగ్ అంటే ఏమిటి?

క్రమానుగత క్లస్టరింగ్ అల్గోరిథంలు చిన్న సమూహాలను పెద్ద వాటికి విలీనం చేయడం లేదా పెద్ద సమూహాలను చిన్న వాటికి విభజించడం యొక్క చక్రాన్ని పునరావృతం చేస్తాయి. ఎలాగైనా, ఇది డెండోగ్రామ్ అని పిలువబడే సమూహాల శ్రేణిని ఉత్పత్తి చేస్తుంది. అగ్లోమెరేటివ్ క్లస్టరింగ్ స్ట్రాటజీ క్లస్టర్‌లను పెద్ద వాటికి విలీనం చేసే బాటమ్-అప్ విధానాన్ని ఉపయోగిస్తుంది, అయితే విభజించే క్లస్టరింగ్ వ్యూహం చిన్న వాటికి విభజించే టాప్-డౌన్ విధానాన్ని ఉపయోగిస్తుంది. విలీనం / విభజన కోసం ఏ పెద్ద / చిన్న సమూహాలను ఉపయోగించాలో నిర్ణయించడానికి అత్యాశ విధానం ఉపయోగించబడుతుంది. యూక్లిడియన్ దూరం, మాన్హాటన్ దూరం మరియు కొసైన్ సారూప్యత సంఖ్యా డేటా కోసం సారూప్యత యొక్క సాధారణంగా ఉపయోగించే కొలమానాలు. సంఖ్యా రహిత డేటా కోసం, హామింగ్ దూరం వంటి కొలమానాలు ఉపయోగించబడతాయి. క్రమానుగత క్లస్టరింగ్ కోసం వాస్తవ పరిశీలనలు (ఉదంతాలు) అవసరం లేదని గమనించడం ముఖ్యం, ఎందుకంటే దూరాల మాతృక మాత్రమే సరిపోతుంది. డెండోగ్రామ్ అనేది సమూహాల యొక్క దృశ్యమాన ప్రాతినిధ్యం, ఇది సోపానక్రమం చాలా స్పష్టంగా ప్రదర్శిస్తుంది. డెండోగ్రామ్ కత్తిరించబడిన స్థాయిని బట్టి వినియోగదారు వివిధ క్లస్టరింగ్ పొందవచ్చు.

విభజన క్లస్టరింగ్ అంటే ఏమిటి?

విభజన క్లస్టరింగ్ అల్గోరిథంలు వివిధ విభజనలను ఉత్పత్తి చేస్తాయి మరియు తరువాత వాటిని కొన్ని ప్రమాణాల ద్వారా అంచనా వేస్తాయి. ప్రతి ఉదాహరణను పరస్పరం ప్రత్యేకమైన క్లస్టర్‌లలో ఒకదానిలో ఉంచినందున వాటిని నాన్‌హిరార్కికల్ అని కూడా పిలుస్తారు. ఒక సాధారణ సమూహ విభజన క్లస్టరింగ్ అల్గోరిథం యొక్క అవుట్పుట్ మాత్రమే క్లస్టర్ల సమితి కనుక, వినియోగదారుడు కావలసిన సంఖ్యలో క్లస్టర్‌లను ఇన్పుట్ చేయవలసి ఉంటుంది (సాధారణంగా దీనిని k అని పిలుస్తారు). సాధారణంగా ఉపయోగించే విభజన క్లస్టరింగ్ అల్గోరిథంలలో ఒకటి k- అంటే క్లస్టరింగ్ అల్గోరిథం. ప్రారంభించడానికి ముందు క్లస్టర్ల సంఖ్యను (k) వినియోగదారు అందించాలి మరియు అల్గోరిథం మొదట k విభజనల కేంద్రాలను (లేదా సెంట్రాయిడ్లను) ప్రారంభిస్తుంది. ఒక్కమాటలో చెప్పాలంటే, k- అంటే క్లస్టరింగ్ అల్గోరిథం ప్రస్తుత కేంద్రాల ఆధారంగా సభ్యులను కేటాయిస్తుంది మరియు ప్రస్తుత సభ్యుల ఆధారంగా తిరిగి అంచనా వేసే కేంద్రాలు. ఒక నిర్దిష్ట ఇంట్రా-క్లస్టర్ సారూప్యత ఆబ్జెక్టివ్ ఫంక్షన్ మరియు ఇంటర్-క్లస్టర్ అసమానత ఆబ్జెక్టివ్ ఫంక్షన్ ఆప్టిమైజ్ అయ్యే వరకు ఈ రెండు దశలు పునరావృతమవుతాయి. అందువల్ల, విభజన క్లస్టరింగ్ అల్గోరిథంల నుండి నాణ్యమైన ఫలితాలను పొందడంలో కేంద్రాల యొక్క సరైన ప్రారంభించడం చాలా ముఖ్యమైన అంశం.

క్రమానుగత మరియు విభజన క్లస్టరింగ్ మధ్య తేడా ఏమిటి?

క్రమానుగత మరియు విభజన క్లస్టరింగ్ నడుస్తున్న సమయం, అంచనాలు, ఇన్పుట్ పారామితులు మరియు ఫలిత సమూహాలలో కీలక తేడాలు ఉన్నాయి. సాధారణంగా, విభజన క్లస్టరింగ్ క్రమానుగత క్లస్టరింగ్ కంటే వేగంగా ఉంటుంది. క్రమానుగత క్లస్టరింగ్‌కు సారూప్యత కొలత మాత్రమే అవసరం, అయితే విభజన క్లస్టరింగ్‌కు క్లస్టర్‌ల సంఖ్య మరియు ప్రారంభ కేంద్రాలు వంటి బలమైన అంచనాలు అవసరం. క్రమానుగత క్లస్టరింగ్‌కు ఇన్‌పుట్ పారామితులు అవసరం లేదు, అయితే విభజన క్లస్టరింగ్ అల్గోరిథంలు అమలు ప్రారంభించడానికి క్లస్టర్‌ల సంఖ్య అవసరం. క్రమానుగత క్లస్టరింగ్ క్లస్టర్ల యొక్క మరింత అర్ధవంతమైన మరియు ఆత్మాశ్రయ విభజనను అందిస్తుంది, కాని విభజన క్లస్టరింగ్ ఖచ్చితంగా k క్లస్టర్లలో ఫలితమిస్తుంది. సారూప్య కొలతను తదనుగుణంగా నిర్వచించగలిగినంత వరకు క్రమానుగత క్లస్టరింగ్ అల్గోరిథంలు వర్గీకరణ డేటాకు మరింత అనుకూలంగా ఉంటాయి.