HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Trunkierte Regression Versionsinfo: Code für diese Seite wurde in Stata 12 getestet. Abgeschnittene Regression wird verwendet, um abhängige Variablen zu modellieren, für die einige der Beobachtungen werden aufgrund des Wertes der abhängigen Variablen nicht in die Analyse einbezogen. Bitte beachten Sie: Der Zweck dieser Seite ist es, zu zeigen, wie man verschiedene Datenanalysebefehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen oder potenziellen Folgeuntersuchungen. Beispiele für verkürzte Regression Beispiel 1. Eine Studie von Schülern in einem speziellen GATE (begabte und talentierte Bildung) Programm wünscht, die Leistung als Funktion der Sprachkenntnisse und der Art des Programms, in dem der Student derzeit eingeschrieben ist, zu modellieren. Ein wichtiges Anliegen ist, dass die Schüler eine Mindestleistung von 40 haben müssen, um das spezielle Programm zu betreten. So wird die Probe mit einer Erzählung von 40 abgeschnitten. Beispiel 2. Ein Forscher hat Daten für eine Probe von Amerikanern, deren Einkommen über der Armutsgrenze liegt. Daher wird der untere Teil der Einkommensverteilung abgeschnitten. Wenn der Forscher eine Probe von Amerikanern hatte, deren Einkommen bei oder unterhalb der Armutsgrenze lag, dann würde der obere Teil der Einkommensverteilung abgeschnitten werden. Mit anderen Worten, die Trunkierung ist ein Ergebnis der Stichprobe nur ein Teil der Verteilung der Ergebnisvariablen. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben eine hypothetische Datendatei, truncreg. dta. Mit 178 Beobachtungen. Die Ergebnisvariable heißt achiv. Und die Sprache Test Score Variable heißt Langscore. Die Variable Prog ist eine kategorische Prädiktorvariable mit drei Ebenen, die die Art des Programms angibt, in dem die Schüler eingeschrieben wurden. Schauen wir uns die Daten an. Es ist immer eine gute Idee, mit beschreibenden Statistiken zu beginnen. Analysemethoden, die Sie vielleicht betrachten, ist eine Liste einiger Analysemethoden, die Sie möglicherweise angetroffen haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus dem Gefallen gefallen sind oder Einschränkungen haben. OLS Regression - Sie können diese Daten mit OLS Regression analysieren. OLS-Regression wird die Schätzungen der Koeffizienten nicht anpassen, um die Wirkung der Trunkierung der Probe bei 40 zu berücksichtigen, und die Koeffizienten können stark vorgespannt sein. Dies kann als Modellspezifikationsfehler konzipiert werden (Heckman, 1979). Abgeschnittene Regression - Abgestürzte Regression adressiert die Bias, die bei der Verwendung von OLS-Regression mit abgeschnittenen Daten eingeführt wird. Beachten Sie, dass bei abgeschnittener Regression die Varianz der Ergebnisvariablen gegenüber der nicht abgeschnittenen Verteilung reduziert wird. Auch wenn der untere Teil der Verteilung abgeschnitten ist, dann ist der Mittelwert der abgeschnittenen Variablen größer als der Mittelwert aus der nicht abgeschnittenen Variablen, wenn die Trunkierung von oben ist, wird der Mittelwert der abgeschnittenen Variablen kleiner als die nicht markierte Variable. Diese Arten von Modellen können auch als Heckman-Auswahlmodelle konzipiert werden, die verwendet werden, um die Auswahl der Selektionsvorspannung zu korrigieren. Zensierte Regression - Manchmal sind die Begriffe der Trunkierung und Zensur verwirrt. Mit zensierten Daten haben wir alle Beobachtungen, aber wir kennen nicht die wahren Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen wegen des Wertes der Ergebnisvariablen nicht in die Analyse einbezogen. Es wäre unangemessen, die Daten in unserem Beispiel mit einem zensierten Regressionsmodell zu analysieren. Abgestürzte Regression Im Folgenden verwenden wir den Befehl truncreg, um ein abgeschnittenes Regressionsmodell zu schätzen. Das i. Bevor prog anzeigt, dass es sich um eine Faktorvariable (d. H. Kategorische Variable) handelt und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Die Option ll () im Befehl truncreg gibt den Wert an, an dem die linke Trunkierung stattfindet. Es gibt auch eine ul () - Option, um den Wert der richtigen Trunkierung anzugeben, der in diesem Beispiel nicht benötigt wurde. Die Ausgabe beginnt mit einer Notiz, die angibt, dass Null-Beobachtungen abgeschnitten wurden. Dies liegt daran, dass unsere Stichprobe keine Daten mit Werten von weniger als 40 für die Leistung enthielt. Auf die Note folgt das Iterationsprotokoll, das die Werte der Log-Likelihoods mit einem Modell abgibt, das keine Prädiktoren hat. Der letzte Wert im Protokoll ist der endgültige Wert der Log-Wahrscheinlichkeit und wird unten wiederholt. Die Header-Informationen werden als nächstes bereitgestellt. Auf der linken Seite sind die unteren und oberen Grenzen der Trunkierung und eine Wiederholung der endgültigen Log-Wahrscheinlichkeit. Auf der rechten Seite wird die Anzahl der beobachteten Beobachtungen (178) zusammen mit dem Wald-Chi-Quadrat mit drei Freiheitsgraden gegeben. Der Wald-Chi-Platz ist das, was du bekommen würdest, wenn du den Testbefehl nach der Schätzung des Modells benutzt hast, um zu testen, dass alle Koeffizienten null sind. Schließlich gibt es einen p-Wert für den Chi-Quadrat-Test. Insgesamt ist dieses Modell statistisch signifikant. In der Tabelle der Koeffizienten haben wir die verkürzten Regressionskoeffizienten, den Standardfehler der Koeffizienten, die Wald z-Tests (Koeffizienten) und den p-Wert, der jedem z-Test zugeordnet ist. Standardmäßig erhalten wir auch ein 95-Konfidenzintervall für die Koeffizienten. Mit der level () Option können Sie ein anderes Konfidenzintervall anfordern. Das Nebenstatistik-Sigma entspricht dem Standardfehler der Schätzung in der OLS-Regression. Der Wert von 8,76 kann mit der Standardabweichung der Leistung verglichen werden, die 8,96 betrug. Das zeigt eine bescheidene Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von Sigma sowie ein 95 Konfidenzintervall für diesen Wert. Das abgeschnittene Regressionsmodell, das die Leistung von Sprachwerten und Programmtypen voraussagte, war statistisch signifikant (chi-square 54.76, df 3, pWenn Sie verkürzte Regressionsmodelle vergleichen möchten, können Sie den Befehl estat ic ausgeben, um die Log-Wahrscheinlichkeit, AIC und BIC zu erhalten Die Truncreg-Ausgabe enthält weder einen R2 noch einen Pseudo-R 2. Sie können eine grobe Schätzung des Assoziationsgrades berechnen, indem sie mit dem vorhergesagten Wert korrelieren und das Ergebnis quadrieren. Der berechnete Wert von 0,31 ist eine grobe Schätzung von Die R2, die Sie in einer OLS-Regression finden würden. Die quadrierte Korrelation zwischen den beobachteten und vorhergesagten akademischen Eignungswerten beträgt etwa 0,31, was darauf hindeutet, dass diese Prädiktoren über 30 der Variabilität der Ergebnisvariablen entfielen. Die Betrachtung des Statas truncreg Befehls ist entworfen Um zu arbeiten, wenn die Trunkierung auf der Outcome-Variable im Modell ist. Es ist möglich, Proben, die auf einem oder mehreren Prädiktoren abgeschnitten sind, zu haben. Zum Beispiel ist die Modellierung College GPA als Funktion der High School GPA (HSGPA) und SAT Scores beinhaltet Eine Probe, die auf der Grundlage der Prädiktoren abgeschnitten wird, dh nur Schüler mit höheren HSGPA - und SAT-Scores werden in das College aufgenommen. Sie müssen vorsichtig sein, welcher Wert als Trunkierungswert verwendet wird, da er die Schätzung der Koeffizienten und Standardfehler beeinflusst. Im obigen Beispiel, wenn wir ll (39) anstelle von ll (40) verwendet hätten. Die Ergebnisse hätten etwas anders gewesen Es spielt keine Rolle, dass es keine Werte von 40 in unserer Probe gab. Referenzen Greene, W. H. (2003). Ökonometrische Analyse, Fünfte Auflage. Oberer Saddle River, NJ: Prentice Hall. Heckman, J. J. (1979). Beispielauswahl Bias als Spezifikationsfehler. Ökonometrie Band 47, Nr. 1, Seiten 153 - 161. Lange, J. S. (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Tausend Eichen, CA: Salbei Publikationen. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Annotated Output Trunkierte Regression Diese Seite zeigt ein Beispiel für abgeschnittene Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Ein verkürztes Regressionsmodell prognostiziert eine Ergebnisvariable, die auf eine verkürzte Probe ihrer Verteilung beschränkt ist. Zum Beispiel, wenn wir das Alter der lizenzierten Autofahrer von Fahrgewohnheiten vorherzusagen wünschen, wird unsere Ergebnisvariable bei 16 (das gesetzliche Fahralter in den USA) abgeschnitten. Während die Bevölkerung der Altersgruppen sich unter 16 erstreckt, ist unsere Stichprobe der Bevölkerung nicht. Es ist wichtig, den Unterschied zwischen abgeschnittenen und zensierten Daten zu beachten. Im Falle von zensierten Daten gibt es Einschränkungen für die Messskala, die uns daran hindern, den wahren Wert der abhängigen Variablen zu kennen, trotz einer gewissen Messung davon. Betrachten Sie den Tachometer im Auto. Der Geschwindigkeitsmesser kann Geschwindigkeiten bis zu 120 Meilen pro Stunde messen, aber alle Geschwindigkeiten gleich oder größer als 120 mph werden als 120 mph gelesen. Wenn also der Tachometer die Geschwindigkeit misst, um 120 Meilen pro Stunde zu sein, könnte das Auto 120 Meilen pro Stunde oder eine größere Geschwindigkeit fahren - wir haben keine Möglichkeit zu wissen. Censored data schlagen Grenzen für die Messskala der Outcome-Variable vor, während abgeschnittene Daten eine Einschränkung der Ergebnisvariablen in der interessanten Stichprobe vorschlagen. In diesem Beispiel werden wir das Studium der Studierenden in einem speziellen GATE (begabten und talentierten Bildungsprogramm) untersuchen. Wir möchten die Leistung (achiv) als Funktion von Geschlecht, Sprachkenntnissen und Mathematik (weiblich, langscore und mathscore im Datensatz) modellieren. Ein großes Anliegen ist, dass die Schüler eine Mindestleistung von 40 Jahren benötigen, um das spezielle Programm zu betreten. So wird die Probe bei einer Leistungsbewertung von 39 abgeschnitten. Zuerst können wir die Daten untersuchen. Jetzt können wir in Stata ein verkürztes Regressionsmodell mit dem Befehl truncreg erzeugen. Wir listen zuerst die Ergebnisvariable auf, dann die Prädiktoren und die untere und obere Grenze. Unsere Daten sind nur links-abgeschnitten, so dass wir nur eine untere Grenze angeben, ll (40). Abgeschnittene Regressionsausgabe a. (Anmerkung: 0 verkürzt) - Dies zeigt an, wie viele Beobachtungen im Modell Variable Werte unterhalb der unteren Grenze oder oberhalb der oberen Grenze im Funktionsaufruf angegeben haben. In diesem Beispiel ist es die Anzahl der Beobachtungen, in denen achiv lt 40. Der minimale Wert von achiv, der in der Datenzusammenfassung aufgeführt wurde, war 41, so dass es null Beobachtungen trunkierte. B. Vollständiges Modell - Das ist die Iterationsgeschichte des verkürzten Regressionsmodells. Es listet die Log-Wahrscheinlichkeiten bei jeder Iteration auf. Die abgeschnittene Regression verwendet die maximale Wahrscheinlichkeitsschätzung, die eine iterative Prozedur ist. Die erste Iteration (genannt Iteration 0) ist die log-Wahrscheinlichkeit des quotnullquot - oder quotemptyquot-Modells, das ein Modell ohne Prädiktoren ist. Bei der nächsten Iteration (genannt Iteration 1) sind die angegebenen Prädiktoren im Modell enthalten. In diesem Beispiel sind die Prädiktoren weiblich, langscore und mathscore. Bei jeder Iteration erhöht sich die Protokollwahrscheinlichkeit, weil das Ziel darin besteht, die Protokollwahrscheinlichkeit zu maximieren. Wenn der Unterschied zwischen aufeinanderfolgenden Iterationen sehr klein ist, soll das Modell quittiert haben und die Iteration stoppt. Weitere Informationen zu diesem Prozess für binäre Ergebnisse finden Sie unter Regressionsmodelle für kategorische und begrenzte abhängige Variablen von J. Scott Long (Seite 52-61). C. Niedriger - Dies zeigt die für die Ergebnisvariable angegebene untere Grenze an. In diesem Beispiel ist die untere Grenze 40. d. Upper - Dies zeigt die obere Grenze für die Ergebnisvariable an. In diesem Beispiel haben wir keine Obergrenze angeben, so dass es als unendlich angenommen wird. E. Log-Likelihood - Dies ist die log-Wahrscheinlichkeit des eingebauten Modells. Es wird in der Likelihood Ratio Chi-Square-Test verwendet, ob alle Prädiktoren Regressionskoeffizienten im Modell gleichzeitig Null sind. F. Anzahl der obs - Dies ist die Anzahl der Beobachtungen im Datensatz, in denen die Ergebnis - und Prädiktorvariablen alle nicht fehlende Werte haben. G. Wald chi2 (3) - Dies ist die Wald-Chi-Quadrat-Statistik. Es wird verwendet, um die Hypothese zu testen, dass mindestens einer der Prädiktor-Regressionskoeffizienten nicht gleich Null ist. Die Zahl in den Klammern zeigt die Freiheitsgrade der Chi-Quadrat-Verteilung an, die verwendet wird, um die Wald-Chi-Quadrat-Statistik zu testen und wird durch die Anzahl der Prädiktoren im Modell (3) definiert. H. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, eine Wald-Test-Statistik so extrem wie oder mehr zu erhalten, als die beobachtete Statistik unter der Null-Hypothese die Null-Hypothese ist, dass alle Regressionskoeffizienten über beide Modelle gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik (89.85) oder ein weiteres Extrem zu erhalten, wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einem bestimmten Alpha-Level verglichen, unsere Bereitschaft, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem Test, lt0.0001, würde uns zu dem Schluss führen, dass mindestens einer der Regressionskoeffizienten im Modell nicht gleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, der verwendet wird, um die Nullhypothese zu testen, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3) definiert. ich. Achiv - Dies ist die Ergebnisvariable, die vom Modell vorhergesagt wird. J Coef - Das sind die Regressionskoeffizienten. Sie werden in der gleichen Weise interpretiert wie OLS-Regressionskoeffizienten: Für eine Ein-Einheit-Zunahme in der Prädiktorvariable ändert sich der erwartete Wert der Ergebnisvariablen durch den Regressionskoeffizienten, da die anderen Prädiktorvariablen im Modell konstant gehalten werden. Weiblich - Die erwartete Leistung Punktzahl für eine Studentin ist 2.290933 Einheiten niedriger als die erwartete Leistung Punktzahl für einen männlichen Schüler während alle anderen Variablen im Modell konstant halten. Mit anderen Worten, wenn zwei Schüler, eine weibliche und eine männliche, identische Sprache und Mathematik Scores, die vorhergesagte Leistung Punktzahl des Mannes wäre 2.290933 Einheiten höher als die vorhergesagte Leistung Punktzahl der Studentin. Langscore - Dies ist die geschätzte Regressionsschätzung für eine einheitliche Erhöhung der Langscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Student ihre Langsamkeit um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5.064698 Einheiten erhöhen, während die anderen Variablen im Modell konstant halten. So haben die Schüler mit höheren Sprachkenntnissen höhere vorhergesagte Erfolgszahlen als Schüler mit niedrigeren Sprachwerten, halten die anderen Variablen konstant. Mathscore - Dies ist die geschätzte Regressionsschätzung für eine Einheitszunahme in mathscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Student ihren Mathscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5.004054 Einheiten erhöhen, während die anderen Variablen im Modell konstant halten. So werden die Schüler mit höheren Mathematik-Scores haben höhere vorhergesagte Leistung Punkte als Studenten mit niedrigeren Mathe-Scores, halten die anderen Variablen konstant. Cons - Dies ist die Regressionsabschätzung, wenn alle Variablen im Modell bei Null ausgewertet werden. Für einen männlichen Schüler (die Variable weiblich ausgewertet bei Null) mit Langscore und Mathscore von Null, ist die vorhergesagte Leistung Punkt -0.2940047. Beachten Sie, dass die Auswertung von Langscore und Mathscore bei Null außerhalb des Bereichs der plausiblen Testergebnisse liegt. K. Std. Err. - Dies sind die Standardfehler der einzelnen Regressionskoeffizienten. Sie werden sowohl bei der Berechnung der z-Teststatistik als auch der Konfidenzintervall des Regressionskoeffizienten, superscript n, verwendet. L. Z - Die Teststatistik z ist das Verhältnis der Coef. Zum std. Err. Des jeweiligen Prädiktors. Der z-Wert folgt einer Standardnormalverteilung, die verwendet wird, um eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. M. Pgtz - Dies ist die Wahrscheinlichkeit, dass die z-Teststatistik (oder eine extreme Teststatistik) unter der Nullhypothese beobachtet wird, dass ein bestimmter Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell liegt. Für einen gegebenen Alpha-Level bestimmt Pgtz, ob die Nullhypothese abgelehnt werden kann oder nicht. Wenn Pgtz kleiner als alpha ist, dann kann die Nullhypothese abgelehnt werden und die Parameterschätzung wird als statistisch signifikant auf diesem Alpha-Niveau betrachtet. Weiblich - Die z-Teststatistik für die Prädiktorin ist (-2.2909331.490333) -1.54 mit einem zugehörigen p-Wert von 0.124. Wenn wir unseren Alpha-Level auf 0,05 setzen, würden wir die Null-Hypothese nicht ablehnen und folgern, dass der Regressionskoeffizient für weiblich nicht statistisch anders als null gegeben wurde, da langsamer und mathscore im Modell sind. Langscore - Die z-Test-Statistik für die Prädiktor-Langscore ist (5.0646981.037769) 4.88 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unseren Alpha-Level auf 0,05 setzen, würden wir die Null-Hypothese ablehnen und schließen, dass der Regressionskoeffizient für Langscore statistisch anders als Null war, da weiblich und mathscore im Modell liegen. Mathscore - Die z-Teststatistik für den Prädiktor-Mathscore ist (5.0040540.9555717) 5.24 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unseren Alpha-Level auf 0,05 setzen, würden wir die Nullhypothese ablehnen und schließen, dass der Regressionskoeffizient für mathscore statistisch anders als null gegeben wurde, da weiblich und langscore im Modell sind. Nachteile - Die z-Test-Statistik für den Intercept, cons. Ist (-0,29400476,204858) -0,05 mit einem zugehörigen p-Wert von 0,962. Wenn wir unseren Alpha-Level auf 0,05 setzen, würden wir die Null-Hypothese nicht ablehnen und zu dem Schluss kommen, dass Nachteile nicht statistisch anders als null gegeben wurden. Langscore und mathscore sind im modell und werden bei null ausgewertet. N. 95 Konf. Intervall - Dies ist das Konfidenzintervall (CI) für einen individuellen Koeffizienten, da die anderen Prädiktoren im Modell sind. Für einen gegebenen Prädiktor mit einem Niveau von 95 Vertrauen, wed sagen, dass wir 95 zuversichtlich sind, dass der quottruequot Koeffizient zwischen der unteren und oberen Grenze des Intervalls liegt. Sie wird als Coef berechnet. (Z 9452) (Std. Err.), Wobei z 9452 ein kritischer Wert auf die Standardnormalverteilung ist. Der CI ist äquivalent zu der z-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient null ist, wenn die anderen Prädiktoren im Modell liegen. Ein Vorteil eines CI ist, dass es illustrativ ist, dass es einen Bereich bietet, in dem der quottruequot-Parameter liegen kann. O. Sigma - Dies ist der geschätzte Standardfehler der Regression. In diesem Beispiel ist der Wert, 7.739053, vergleichbar mit dem Wurzel-Mittelquadratfehler, der bei einer OLS-Regression erhalten würde. Wenn wir eine OLS-Regression mit dem gleichen Ergebnis und Prädiktoren liefen, wäre unsere RMSE 6.8549. Dies ist ein Hinweis darauf, wie stark das Ergebnis von dem vorhergesagten Wert abhängt. Sigma nähert sich dieser Menge für abgeschnittene Regression. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment