Sunday, October 9, 2016

Proc distance proc distance statement , simratio






+

Queste opzioni ed abbreviazioni sono descritti (in ordine alfabetico) nel resto di questa sezione. specifica il valore da utilizzare come valore in assenza delle partite assente assenti irrilevante per tutte le variabili nominali asimmetrici. Se si desidera specificare un valore diverso per l'assenza di una particolare variabile, utilizzare l'ASSENTE = opzione nella dichiarazione VAR. Vedere gli assenti = opzione nella Dichiarazione sezione VAR per i dettagli. Un valore assenza di una variabile può essere un valore numerico o una stringa citato costituito da combinazioni di caratteri. Per esempio. -999, E "NA" valori legali sono per il ASSENTE = opzione. Il valore assenza di default per una variabile carattere è "Nessuno" (si noti che un valore vuoto è considerato un valore mancante), e il valore di assenza predefinito per una variabile numerica è 0. specifica una costante, per aggiungere ad ogni valore dopo la standardizzazione e moltiplicando per il valore specificato nella MULT = opzione. Il valore di default è 0. Specifica il set di dati di input che contiene osservazioni da cui viene calcolata la vicinanza. Se si omette l'DATA = opzione, la più recente creazione data set SAS viene utilizzato. specifica il fattore di incertezza relativa per calcolare i punteggi standardizzati. Il valore predefinito è 1E-14. Per la OUTSDZ = set di dati, il punteggio viene calcolato come segue: dove è la costante numerica specificata nel MULT = opzione, o 1 se MULT = opzione non è specificata. specifica il metodo di calcolo delle stime iniziali per l'A-stime (ABW, Awave, e AHUBER). I seguenti metodi non sono consentiti per l'opzione iniziale =: ABW, AHUBER, Awave, e IN. Il valore di default è INIZIALE = MAD. specifica il metodo di calcolo misure di prossimità. Per l'utilizzo in misure PROC CLUSTER, a distanza o di diversità, come METHOD = EUCLID o METHOD = DGOWER dovrebbe essere scelto. Le sei tabelle che seguono illustrano le misure di prossimità disponibile per il METODO = opzione. Queste tabelle sono classificati per livelli di misura accettati da ciascun metodo. Ci sono tre o quattro colonne in ogni tabella: colonna misure di prossimità (metodo), la colonna (s) limiti superiori e inferiori (Range), e il tipo di colonna di prossimità (Type). La colonna Tipo ha due valori possibili: "SIM" se un metodo generare somiglianza o "DIS" se un metodo genera misure di distanza o di diversità. Per le formule e le descrizioni di questi metodi, vedere i dettagli sezione: DISTANZA procedura. Tabella 32.2 elenca la gamma e Tipo di uscita Matrice dei metodi di Gower e DGOWER. Questi due metodi accettano tutti i livelli di misurazione, tra cui il rapporto, intervallo, ordinale, nominale, e nominale asimmetrica. METODO = GOWER o METHOD = DGOWER implica sempre la standardizzazione. Assumendo che tutte le (ordinali, di intervallo, e il rapporto) variabili numeriche sono standardizzati dai loro metodi predefiniti corrispondenti, i possibili valori di intervallo per entrambi i metodi nella seconda colonna di questa tabella sono accesi o tra 0 e 1. Per scoprire i metodi predefiniti di la standardizzazione per il metodo = GOWER o METHOD = DGOWER, vedere la STD = opzione nella Dichiarazione sezione VAR. Le voci in questa tabella sono i seguenti: Tabella 32.2 Metodi accettando tutti livelli di misurazione Tabella 32.7 elenca i metodi di accettare le variabili nominali e rapporto asimmetrici. Utilizzare l'ASSENTE = opzione per creare un valore da considerare assente. Ci sono quattro invece di tre colonne di questa tabella. La seconda colonna contiene i possibili valori di intervallo se viene specificato un solo livello di misurazione (sia rapporto o asimmetrica nominale ma non entrambi); la terza colonna contiene i possibili valori del campo se vengono specificati entrambi i livelli. Il metodo JACCARD è equivalente al metodo SIMRATIO se non c'è variabile nominale asimmetrica; se entrambi rapporto e asimmetrici variabili nominali sono presenti, il coefficiente viene calcolato come la somma del coefficiente dalle variabili di rapporto e il coefficiente dalle variabili nominali asimmetrici. Vedere "Misure di prossimità" nelle Dettagli sezione: distanza Procedura per la formula e le descrizioni del metodo JACCARD. Le voci in questa tabella sono i seguenti: Coefficiente di somiglianza Jaccard Coefficiente di dissomiglianza Jaccard Tabella 32.7 Metodi Accettare asimmetriche variabili nominali e Ratio specifica una costante numerica,, per cui moltiplicare ogni valore dopo standardizzazione. Il valore predefinito è 1. omette osservazioni con valori mancanti dal calcolo delle misure di posizione e la scala quando standardizzazione; genera distanze undefined (mancanti) per le osservazioni con valori mancanti nel calcolo distanze. Utilizzare l'UNDEF = opzione per specificare i valori non definiti. Se viene creata una matrice di distanza da utilizzare come input per PROC CLUSTER, l'opzione NOMISS non deve essere usato perché la procedura CLUSTER non accetta matrici distanza con valori mancanti. normalizza il stimatore di scala per essere coerente per la deviazione standard di una distribuzione normale quando si specifica l'opzione STD = AGK, STD = IQR, STD = MAD, o STD = spaziatura in dichiarazione VAR. sopprime standardizzazione delle variabili. L'opzione NOSTD non deve essere specificato con l'opzione STDONLY o con l'opzione REPLACE. Specifica un prefisso per denominare le variabili distanza in OUT = set di dati. Per impostazione predefinita, i nomi sono Dist1. Dist2. Dist. Se si specifica prefix = ABC, le variabili sono chiamati ABC1. ABC2. ABCN. Se viene specificato anche l'istruzione ID, le variabili sono denominate aggiungendo il valore della variabile ID al prefisso. specifica il nome del set di dati SAS creato da PROC DISTANZA. Il set di dati di uscita contiene le variabili da, la variabile ID, variabili a distanza calcolate, le variabili di copia, la variabile FREQ, e le variabili di peso. Se si omette l'OUT = opzione, PROC DISTANZA crea un set di dati di output denominato in base alla convenzione DATI. specifica il nome del set di dati SAS contenente i punteggi standardizzati. Il set di dati di uscita contiene una copia del set di dati = dati, salvo che le variabili analizzate sono state standardizzate. variabili analizzate sono quelle elencate nella dichiarazione VAR. specifica il metodo di assegnazione di punteggi alle variabili ordinali. I metodi disponibili sono elencati come segue: assegna numeri interi consecutivi per ciascuna categoria con considerazione del valore di frequenza. Questo è il metodo di default. assegna numeri interi consecutivi a ciascuna categoria indipendentemente frequenze. L'esempio seguente spiega come ogni metodo assegna i punteggi di rango. Supponiamo che i dati contengono un ABC variabili ordinali con valori A, B, C. Ci sono due modi per assegnare i numeri. Uno è quello di utilizzare midranks, che dipendono dalle frequenze di ciascuna categoria. Un altro è di assegnare numeri interi consecutivi per ciascuna categoria, indipendentemente frequenze. Tabella 32.8 Esempio di rango l'assegnazione di punteggi sostituisce i dati mancanti con zero nei dati standardizzati (per corrispondere alla misura posizione prima standardizzazione). Per sostituire i dati mancanti con qualcos'altro, utilizzare l'MISSING = opzione nella dichiarazione VAR. L'opzione REPLACE implica la standardizzazione. Non è possibile specificare le seguenti opzioni insieme: sia il le opzioni REPONLY REPLACE e sia il le opzioni NOSTD REPLACE e sostituisce i dati mancanti con la misura di posizione specificata dal MISSING = opzione o la STD = opzione (se l'MISSING = opzione non è specificata), ma non standardizzare i dati. Se l'MANCANTE = opzione non è specificata e il metodo = GOWER è specificato, i valori mancanti vengono sostituiti dal provvedimento posizione dal metodo Range (il valore minimo), non importa quale sia il valore della STD = opzione. Non è possibile specificare sia l'opzioni REPONLY REPLACE e. SHAPE = TRIANGOLO | TRI | SQUARE | SQU | SQR specifica la forma della matrice di prossimità da memorizzare nel OUT = set di dati. SHAPE = TRIANGOLO richiede la matrice viene memorizzata come una matrice triangolare inferiore; SHAPE = SQUARE chiede che la matrice memorizzato come una matrice quadrata. Utilizzare SHAPE = PIAZZA se i dati di uscita impostati deve essere utilizzato come input per le procedure MODECLUS. Il valore predefinito è TRIANGOLO. normalizza stimatore scala per avere un'aspettativa di circa 1 per una distribuzione normale standard quando viene specificato il STD = un'opzione di spaziatura. standardizza variabili solo e calcola alcuna matrice di distanza. È necessario utilizzare il OUTSDZ = possibilità di salvare i punteggi standardizzati. Non è possibile specificare sia l'opzione STDONLY e l'opzione NOSTD. specifica la costante numerica utilizzata per sostituire distanze indefinite, come quando una osservazione ha tutti i valori mancanti, o se un divisore è zero. VARDEF = DF | N | WDF | PESO | WGT specifica il divisore da utilizzare nel calcolo della distanza, diversità, o misure di similarità, e per standardizzare le variabili ogniqualvolta viene calcolata una varianza o covarianza. Per impostazione predefinita, VARDEF = DF. I valori e divisori collegate sono le seguenti: La Procedura DISTANZA Queste opzioni ed abbreviazioni sono descritti (in ordine alfabetico) nel resto di questa sezione. specifica il valore da utilizzare come valore in assenza delle partite assente assenti irrilevante per tutte le variabili nominali asimmetrici. Se si desidera specificare un valore diverso per l'assenza di una particolare variabile, utilizzare l'ASSENTE = opzione nella dichiarazione VAR. Vedere gli assenti = opzione nella Dichiarazione sezione VAR per i dettagli. Un valore assenza di una variabile può essere un valore numerico o una stringa citato costituito da combinazioni di caratteri. Per esempio. -999, E "NA" valori legali sono per il ASSENTE = opzione. Il valore assenza di default per una variabile carattere è "Nessuno" (si noti che un valore vuoto è considerato un valore mancante), e il valore di assenza predefinito per una variabile numerica è 0. specifica una costante, c. per aggiungere ad ogni valore dopo la standardizzazione e moltiplicando per il valore specificato nella MULT = opzione. Il valore di default è 0. Specifica il set di dati di input che contiene osservazioni da cui viene calcolata la vicinanza. Se si omette l'DATA = opzione, la più recente creazione data set SAS viene utilizzato. specifica il fattore di incertezza relativa per calcolare i punteggi standardizzati. Il valore predefinito è 1E-14. Per la OUTSDZ = set di dati, il punteggio viene calcolato come segue: dove m è la costante numerica specificata nel MULT = opzione, o 1 se MULT = opzione non è specificata. specifica il metodo di calcolo delle stime iniziali per l'A-stime (ABW, Awave, e AHUBER). I seguenti metodi non sono consentiti per l'opzione iniziale =: ABW, AHUBER, Awave, e IN. Il valore di default è INIZIALE = MAD. specifica il metodo di calcolo misure di prossimità. Per l'utilizzo in misure PROC CLUSTER, a distanza o di diversità, come METHOD = EUCLID o METHOD = DGOWER dovrebbe essere scelto. Le sei tabelle che seguono illustrano le misure di prossimità disponibile per il METODO = opzione. Queste tabelle sono classificati per livelli di misura accettati da ciascun metodo. Ogni tabella contiene quattro o cinque colonne: la colonna Metodo mostra le misure di prossimità, una o due colonne Range Mostra i limiti superiori e inferiori, e il TYPE = colonna è indicato il tipo di vicinanza. La TYPE = colonna contiene simile se un metodo genera misure di similarità o distanza se un metodo genera misure di distanza o di diversità. Il set di dati di uscita è del tipo mostrato. Per ulteriori informazioni sul set di dati di output, vedere il OUT = opzione. Per le formule e le descrizioni di questi metodi, vedere i dettagli sezione: DISTANZA procedura. La tabella 33.2 mostra la gamma e l'uscita a matrice dei metodi di Gower e DGOWER. Questi due metodi accettano tutti i livelli di misurazione, tra cui il rapporto, intervallo, ordinale, nominale, e nominale asimmetrica. METODO = GOWER o METHOD = DGOWER implica sempre la standardizzazione. Assumendo che tutte le numerici (ordinale, intervallo, e il rapporto) le variabili sono standardizzati dai loro metodi predefiniti corrispondenti, i possibili valori di intervallo per entrambi i metodi sono compresi tra 0 e 1, estremi inclusi. Per ulteriori informazioni sui metodi di default della standardizzazione per il metodo = GOWER o METHOD = DGOWER, vedere la STD = opzione nella Dichiarazione sezione VAR. Tabella 33.2 Metodi che accettano tutti i livelli di misurazione specifica una costante numerica, c. per il quale moltiplicare ogni valore dopo standardizzazione. Il valore predefinito è 1. omette osservazioni con valori mancanti dal calcolo delle misure di posizione e la scala quando standardizzazione; genera distanze undefined (mancanti) per le osservazioni con valori mancanti nel calcolo distanze. Utilizzare l'UNDEF = opzione per specificare i valori non definiti. Se viene creata una matrice di distanza da utilizzare come input per PROC CLUSTER, l'opzione NOMISS non deve essere utilizzato perché PROC CLUSTER non accetta matrici distanza con valori mancanti. normalizza il stimatore di scala per essere coerente per la deviazione standard di una distribuzione normale quando si specifica l'opzione STD = AGK, STD = IQR, STD = MAD, o STD = spaziatura in dichiarazione VAR. sopprime standardizzazione delle variabili. L'opzione NOSTD non deve essere specificato con l'opzione STDONLY o con l'opzione REPLACE. specifica il nome del set di dati SAS creato da PROC DISTANZA. Il set di dati di uscita contiene le variabili da, la variabile ID, variabili a distanza calcolate, le variabili di copia, la variabile FREQ, e le variabili di peso. Se si omette l'OUT = opzione, PROC DISTANZA crea un set di dati di output denominato in base alla convenzione DATI n. Il set di dati in uscita è di tipo TYPE = distanza o TYPE = SIMILI. Vedere il metodo = opzione per ulteriori informazioni circa l'associazione tra il metodo e il tipo di set di dati in uscita. Set di dati tipi non vengono mantenute quando si copia o modificare un insieme di dati. È necessario specificare l'opzione TYPE = set di dati per il nuovo set di dati, come nel seguente esempio: Se non si specifica l'opzione di impostare il tipo di dati = DISTANZA, il nuovo set di dati è il tipo predefinito = DATI. Se si utilizza il nuovo set di dati in una procedura che accetta sia TYPE = DATA o TYPE = set di dati a distanza (come ad esempio CLUSTER PROC o PROC MODECLUS), i risultati non saranno corretti. specifica il nome del set di dati SAS contenente i punteggi standardizzati. Il set di dati di uscita contiene una copia del set di dati = dati, salvo che le variabili analizzate sono state standardizzate. variabili analizzate sono quelle elencate nella dichiarazione VAR. Specifica un prefisso per denominare le variabili distanza in OUT = set di dati. Per impostazione predefinita, i nomi sono Dist1. Dist2. n Dist. Se si specifica prefix = ABC, le variabili sono chiamati ABC1. ABC2. ABCN. Se viene specificato anche l'istruzione ID, le variabili sono denominate aggiungendo il valore della variabile ID al prefisso. specifica il metodo di assegnazione di punteggi alle variabili ordinali. I metodi disponibili sono elencati come segue: assegna numeri interi consecutivi per ciascuna categoria con considerazione del valore di frequenza. Questo è il metodo di default. assegna numeri interi consecutivi a ciascuna categoria indipendentemente frequenze. L'esempio seguente spiega come ogni metodo assegna i punteggi di rango. Supponiamo che i dati contengono un ABC variabili ordinali con valori A, B, C. Ci sono due modi per assegnare i numeri. Uno è quello di utilizzare midranks, che dipendono dalle frequenze di ciascuna categoria. Un altro è di assegnare numeri interi consecutivi per ciascuna categoria, indipendentemente frequenze. Tabella 33.8 Esempio di rango l'assegnazione di punteggi sostituisce i dati mancanti con zero nei dati standardizzati (per corrispondere alla misura posizione prima standardizzazione). Per sostituire i dati mancanti con qualcos'altro, utilizzare l'MISSING = opzione nella dichiarazione VAR. L'opzione REPLACE implica la standardizzazione. Non è possibile specificare le seguenti opzioni insieme: sia il le opzioni REPONLY REPLACE e sia il le opzioni NOSTD REPLACE e sostituisce i dati mancanti con la misura di posizione specificata dal MISSING = opzione o la STD = opzione (se l'MISSING = opzione non è specificata), ma non standardizzare i dati. Se l'MANCANTE = opzione non è specificata e il metodo = GOWER è specificato, i valori mancanti vengono sostituiti dal provvedimento posizione dal metodo Range (il valore minimo), non importa quale sia il valore della STD = opzione. Non è possibile specificare sia l'opzioni REPONLY REPLACE e. SHAPE = TRIANGOLO | TRI | SQUARE | SQU | SQR specifica la forma della matrice di prossimità da memorizzare nel OUT = set di dati. SHAPE = TRIANGOLO richiede la matrice viene memorizzata come una matrice triangolare inferiore; SHAPE = SQUARE chiede che la matrice memorizzato come una matrice quadrata. Utilizzare SHAPE = PIAZZA se i dati di uscita impostati deve essere utilizzato come input per le procedure MODECLUS. Il valore predefinito è TRIANGOLO. normalizza stimatore scala per avere un'aspettativa di circa 1 per una distribuzione normale standard quando viene specificato il STD = un'opzione di spaziatura. standardizza variabili solo e calcola alcuna matrice di distanza. È necessario utilizzare il OUTSDZ = possibilità di salvare i punteggi standardizzati. Non è possibile specificare sia l'opzione STDONLY e l'opzione NOSTD. specifica la costante numerica utilizzata per sostituire distanze indefinite, come quando una osservazione ha tutti i valori mancanti, o se un divisore è zero. VARDEF = DF | N | WDF | PESO | WGT specifica il divisore da utilizzare nel calcolo della distanza, diversità, o misure di similarità, e per standardizzare le variabili ogniqualvolta viene calcolata una varianza o covarianza. Per impostazione predefinita, VARDEF = DF. I valori e divisori collegate sono le seguenti:




No comments:

Post a Comment