In einem anderen Thread ging es kürzlich (mal wieder) um den "Jakobschen Vorverstärkertest", der bekanntermaßen mit 5 Teilnehmern auskommen musste.
Da die Hauptidee hinter dem Ganzen darin bestand, die Teilnehmer erst gar nicht bemerken zu lassen, das sie an einem (irgendwie besonderen) Test teilnahmen, bestand nur die Möglichkeit, jeden Teilnehmer die beiden Geräte einmal - über einen von ihm zu bestimmenden Zeitraum - miteinander vergleichen zu lassen, und er danach ein Präferenzurteil abgeben konnte, wenn er denn eine Präferenz entwickelt hatte.
Ergo gab es nur 5 Durchgänge, was David kommentierte mit "warum nicht gleich nur zwei?" (sinngemäß) und damit ausdrückend, das sAn 5 Durchgänge viel zu wenig seien, es sowieso mind. 20 sein müßten.
Die Erläuterung zu der Frage, warum "fünf tatsächlich besser als zwei ist" lautete:
sowie zur Erläuterung, weshalb die Verwendung von 20 Durchgängen mit verlangter Trefferzahl von 16 (sog. David- Kriterium :) ), nicht unproblematisch ist:
woraufhin die (für mich etwas überraschende) Antwort Davids lautete:
was offenkundig nicht mit dem von mir geschriebenen übereinstimmt und vollkommen "unterschlägt" , das die Unterschiede in den Wahrscheinlichkeiten liegen, mit denen die beiden Fehlerarten verknüpft sind.
Das wirft die Frage auf, ob in Vergessenheit geraten sein könnte, worum es bei den beiden Fehlerarten geht.
Sensoriktests sind Hypothesentests, d.h. es werden zwei Hypothesen miteinander verglichen, die eine nennt man Nullhypothese (bezeichnet mit H0), die andere Alternativhypothese (bezeichnet mit H1).
In unserem Fall lautet die Formulierung der Nullhypothese, dass die Resultate auch durch reines Raten erzielt werden könnten, und somit
H0: p=0.5
ist.
Die Alternativhypothese lautet, dass die Resultate nicht durch Zufall erzielt wurden, also
H1: p<>0.5
ist.
Noch konkreter geht man häufig davon aus, dass p>0.5 sein wird.
Man benötigt nun allerdings noch ein vorab zu bestimmendes Kriterium, mit dessen Hilfe man entscheidet, ob man eher glauben will, das die Testresultate ausreichend "unzufällig" waren.
Denn zunächst besteht immer eine gewisse Wahrscheinlichkeit, ein bestimmtes Ergebnis auch durch Raten zu erzielen, selbst wenn eine 100%ige Trefferquote erzielt wurde.
Diese Wahl des Entscheidungskriteriums ist zunächst einigermaßen subjektiv; da Menschen keine Maschinen sind, wird man eine gewisse Ratewahrscheinlichkeit quasi als Restrisiko in Kauf nehmen (müssen), aber in welcher Höhe, ist ein subjektive Entscheidung.
Üblich sind 5% sogenannte Irrtumswahrscheinlichkeit (gleichbedeutend mit einem Signifikanzlevel von SL=0.05).
Liegt bei einem Testresultat die Wahrscheinlichkeit, es durch reinen Zufall (reines Raten) zu erzielen bei <= 5% , dann lehnt man die Nullhypothese ab.
Liegt hingegen die Ratewahrscheinlichkeit bei >5% , dann lehnt man die Nullhypothese nicht ab.
Somit gibt es aber bei der Auswertung zwei Fehlermöglichkeiten:
1.) Man lehnt die Nullhypothese ab, obwohl sie eigentlich richtig ist
2.) Man lehnt die Nullhypothese _nicht_ ab, obwohl sie eigentlich falsch ist
Die erste Möglichkeit wird als Fehler 1. Art bezeichnet (oder auch als Alpha-Fehler).
Die zweite Möglichkeit wird als Fehler 2. Art bezeichnet (oder auch als Beta-Fehler).
Bis zu einem gewissen Grad hat man sich durch die vorab definierte Irrtumswahrscheinlichkeit (den Signifikanzlevel) gegen Fehler 1. Art abgesichert, aber was ist mit dem Fehler 2. Art?
Für diesen haben wir bislang noch keine Vorkehrungen getroffen, wir haben diesen bislang noch nicht berücksichtigt.
Da die Hauptidee hinter dem Ganzen darin bestand, die Teilnehmer erst gar nicht bemerken zu lassen, das sie an einem (irgendwie besonderen) Test teilnahmen, bestand nur die Möglichkeit, jeden Teilnehmer die beiden Geräte einmal - über einen von ihm zu bestimmenden Zeitraum - miteinander vergleichen zu lassen, und er danach ein Präferenzurteil abgeben konnte, wenn er denn eine Präferenz entwickelt hatte.
Ergo gab es nur 5 Durchgänge, was David kommentierte mit "warum nicht gleich nur zwei?" (sinngemäß) und damit ausdrückend, das sAn 5 Durchgänge viel zu wenig seien, es sowieso mind. 20 sein müßten.
Die Erläuterung zu der Frage, warum "fünf tatsächlich besser als zwei ist" lautete:
Warum nicht "gleich nur zwei" ? Weil die Wahrscheinlichkeit per Zufall zwei Treffer in einem Bernoulli-Experiment zu erzielen halt 0,5 x 0,5 = 0,25 ist, d.h. mit einer Wahrscheinlichkeit von 25% erreicht man das Ergebnis per Zufall.
Bei 5 Versuchen liegt die Wahrscheinlichkeit 5 Treffer per Zufall zu erzielen hingegen bei ~3,1% , "kleiner" Unterschied, nicht wahr?
Bei 5 Versuchen liegt die Wahrscheinlichkeit 5 Treffer per Zufall zu erzielen hingegen bei ~3,1% , "kleiner" Unterschied, nicht wahr?
Die Wahrscheinlichkeit bei deinem Kriterium per Zufall 16 Treffer aus 20 Versuchen zu erzielen, lieg übrigens bei ~0,6%, d.h. die von dir akzeptierte Irrtumswahrscheinlichkeit (meint die Nullhypothese zu verwerfen, obwohl sie eigentlich richtig ist) liegt bei nur ~0,6%.
Wenn du nun aus Fairnessgründen die andere Fehlerwahrscheinlichkeit (meint die Nullhypothese beizubehalten, obwohl sie eigentlich falsch ist) ebenfalls gleich gering halten willst, dann brauchst du 61 Durchgänge, du machst aber nur 20. Voraussetzung der Rechnung ist ein Erkennungsvermögen von 80%, d.h. bereits ziemlich große Unterschieden bzw. recht gute Detektionsfähigkeit. Liegt sie niedriger, dann steigt der notwendige faire Durchgangsumfang weiter an.
Machst du aber nur 20 Durchgänge, dann liegt die tatsächliche Teststärke nur bei ~63%, d.h. das Risiko, das ein eigentlich vorhandener, wahrnehmbarer Unterschied bei dir durchrutscht, liegt bei ~37% und das ist noch deutlich höher als die Irrtumswahrscheinlichkeit bei nur 2 Durchgängen..... ;)
Wenn du nun aus Fairnessgründen die andere Fehlerwahrscheinlichkeit (meint die Nullhypothese beizubehalten, obwohl sie eigentlich falsch ist) ebenfalls gleich gering halten willst, dann brauchst du 61 Durchgänge, du machst aber nur 20. Voraussetzung der Rechnung ist ein Erkennungsvermögen von 80%, d.h. bereits ziemlich große Unterschieden bzw. recht gute Detektionsfähigkeit. Liegt sie niedriger, dann steigt der notwendige faire Durchgangsumfang weiter an.
Machst du aber nur 20 Durchgänge, dann liegt die tatsächliche Teststärke nur bei ~63%, d.h. das Risiko, das ein eigentlich vorhandener, wahrnehmbarer Unterschied bei dir durchrutscht, liegt bei ~37% und das ist noch deutlich höher als die Irrtumswahrscheinlichkeit bei nur 2 Durchgängen..... ;)
OK, ich nehme zur Kenntnis, dass 20 Proben weniger aussagen als 2 Proben und gebe somit einfach auf, denn ich muss nicht bei jedem Unsinn mitmachen.:X
Das wirft die Frage auf, ob in Vergessenheit geraten sein könnte, worum es bei den beiden Fehlerarten geht.
Sensoriktests sind Hypothesentests, d.h. es werden zwei Hypothesen miteinander verglichen, die eine nennt man Nullhypothese (bezeichnet mit H0), die andere Alternativhypothese (bezeichnet mit H1).
In unserem Fall lautet die Formulierung der Nullhypothese, dass die Resultate auch durch reines Raten erzielt werden könnten, und somit
H0: p=0.5
ist.
Die Alternativhypothese lautet, dass die Resultate nicht durch Zufall erzielt wurden, also
H1: p<>0.5
ist.
Noch konkreter geht man häufig davon aus, dass p>0.5 sein wird.
Man benötigt nun allerdings noch ein vorab zu bestimmendes Kriterium, mit dessen Hilfe man entscheidet, ob man eher glauben will, das die Testresultate ausreichend "unzufällig" waren.
Denn zunächst besteht immer eine gewisse Wahrscheinlichkeit, ein bestimmtes Ergebnis auch durch Raten zu erzielen, selbst wenn eine 100%ige Trefferquote erzielt wurde.
Diese Wahl des Entscheidungskriteriums ist zunächst einigermaßen subjektiv; da Menschen keine Maschinen sind, wird man eine gewisse Ratewahrscheinlichkeit quasi als Restrisiko in Kauf nehmen (müssen), aber in welcher Höhe, ist ein subjektive Entscheidung.
Üblich sind 5% sogenannte Irrtumswahrscheinlichkeit (gleichbedeutend mit einem Signifikanzlevel von SL=0.05).
Liegt bei einem Testresultat die Wahrscheinlichkeit, es durch reinen Zufall (reines Raten) zu erzielen bei <= 5% , dann lehnt man die Nullhypothese ab.
Liegt hingegen die Ratewahrscheinlichkeit bei >5% , dann lehnt man die Nullhypothese nicht ab.
Somit gibt es aber bei der Auswertung zwei Fehlermöglichkeiten:
1.) Man lehnt die Nullhypothese ab, obwohl sie eigentlich richtig ist
2.) Man lehnt die Nullhypothese _nicht_ ab, obwohl sie eigentlich falsch ist
Die erste Möglichkeit wird als Fehler 1. Art bezeichnet (oder auch als Alpha-Fehler).
Die zweite Möglichkeit wird als Fehler 2. Art bezeichnet (oder auch als Beta-Fehler).
Bis zu einem gewissen Grad hat man sich durch die vorab definierte Irrtumswahrscheinlichkeit (den Signifikanzlevel) gegen Fehler 1. Art abgesichert, aber was ist mit dem Fehler 2. Art?
Für diesen haben wir bislang noch keine Vorkehrungen getroffen, wir haben diesen bislang noch nicht berücksichtigt.
Kommentar