HiFi Forum  

Zurück   HiFi Forum > SACHTHEMEN > Verblindete Vergleiche

Verblindete Vergleiche Alles rund um diese Härtetests

Antwort
 
Themen-Optionen Ansicht
Alt 06.12.2016, 20:20   #1
Jakob
Erfahrener Benutzer
 
Registriert seit: 17.08.2010
Beiträge: 754
Jakob befindet sich auf einem aufstrebenden Ast
Standard Fragen und Erläuterungen zur statistischen Seite

In einem anderen Thread ging es kürzlich (mal wieder) um den "Jakobschen Vorverstärkertest", der bekanntermaßen mit 5 Teilnehmern auskommen musste.
Da die Hauptidee hinter dem Ganzen darin bestand, die Teilnehmer erst gar nicht bemerken zu lassen, das sie an einem (irgendwie besonderen) Test teilnahmen, bestand nur die Möglichkeit, jeden Teilnehmer die beiden Geräte einmal - über einen von ihm zu bestimmenden Zeitraum - miteinander vergleichen zu lassen, und er danach ein Präferenzurteil abgeben konnte, wenn er denn eine Präferenz entwickelt hatte.

Ergo gab es nur 5 Durchgänge, was David kommentierte mit "warum nicht gleich nur zwei?" (sinngemäß) und damit ausdrückend, das sAn 5 Durchgänge viel zu wenig seien, es sowieso mind. 20 sein müßten.

Die Erläuterung zu der Frage, warum "fünf tatsächlich besser als zwei ist" lautete:
Zitat:
Warum nicht "gleich nur zwei" ? Weil die Wahrscheinlichkeit per Zufall zwei Treffer in einem Bernoulli-Experiment zu erzielen halt 0,5 x 0,5 = 0,25 ist, d.h. mit einer Wahrscheinlichkeit von 25% erreicht man das Ergebnis per Zufall.
Bei 5 Versuchen liegt die Wahrscheinlichkeit 5 Treffer per Zufall zu erzielen hingegen bei ~3,1% , "kleiner" Unterschied, nicht wahr?
sowie zur Erläuterung, weshalb die Verwendung von 20 Durchgängen mit verlangter Trefferzahl von 16 (sog. David- Kriterium :) ), nicht unproblematisch ist:
Zitat:
Die Wahrscheinlichkeit bei deinem Kriterium per Zufall 16 Treffer aus 20 Versuchen zu erzielen, lieg übrigens bei ~0,6%, d.h. die von dir akzeptierte Irrtumswahrscheinlichkeit (meint die Nullhypothese zu verwerfen, obwohl sie eigentlich richtig ist) liegt bei nur ~0,6%.
Wenn du nun aus Fairnessgründen die andere Fehlerwahrscheinlichkeit (meint die Nullhypothese beizubehalten, obwohl sie eigentlich falsch ist) ebenfalls gleich gering halten willst, dann brauchst du 61 Durchgänge, du machst aber nur 20. Voraussetzung der Rechnung ist ein Erkennungsvermögen von 80%, d.h. bereits ziemlich große Unterschieden bzw. recht gute Detektionsfähigkeit. Liegt sie niedriger, dann steigt der notwendige faire Durchgangsumfang weiter an.

Machst du aber nur 20 Durchgänge, dann liegt die tatsächliche Teststärke nur bei ~63%, d.h. das Risiko, das ein eigentlich vorhandener, wahrnehmbarer Unterschied bei dir durchrutscht, liegt bei ~37% und das ist noch deutlich höher als die Irrtumswahrscheinlichkeit bei nur 2 Durchgängen.....
woraufhin die (für mich etwas überraschende) Antwort Davids lautete:

Zitat:
OK, ich nehme zur Kenntnis, dass 20 Proben weniger aussagen als 2 Proben und gebe somit einfach auf, denn ich muss nicht bei jedem Unsinn mitmachen.
was offenkundig nicht mit dem von mir geschriebenen übereinstimmt und vollkommen "unterschlägt" , das die Unterschiede in den Wahrscheinlichkeiten liegen, mit denen die beiden Fehlerarten verknüpft sind.

Das wirft die Frage auf, ob in Vergessenheit geraten sein könnte, worum es bei den beiden Fehlerarten geht.
Sensoriktests sind Hypothesentests, d.h. es werden zwei Hypothesen miteinander verglichen, die eine nennt man Nullhypothese (bezeichnet mit H0), die andere Alternativhypothese (bezeichnet mit H1).

In unserem Fall lautet die Formulierung der Nullhypothese, dass die Resultate auch durch reines Raten erzielt werden könnten, und somit
H0: p=0.5
ist.
Die Alternativhypothese lautet, dass die Resultate nicht durch Zufall erzielt wurden, also
H1: p<>0.5
ist.
Noch konkreter geht man häufig davon aus, dass p>0.5 sein wird.

Man benötigt nun allerdings noch ein vorab zu bestimmendes Kriterium, mit dessen Hilfe man entscheidet, ob man eher glauben will, das die Testresultate ausreichend "unzufällig" waren.
Denn zunächst besteht immer eine gewisse Wahrscheinlichkeit, ein bestimmtes Ergebnis auch durch Raten zu erzielen, selbst wenn eine 100%ige Trefferquote erzielt wurde.

Diese Wahl des Entscheidungskriteriums ist zunächst einigermaßen subjektiv; da Menschen keine Maschinen sind, wird man eine gewisse Ratewahrscheinlichkeit quasi als Restrisiko in Kauf nehmen (müssen), aber in welcher Höhe, ist ein subjektive Entscheidung.
Üblich sind 5% sogenannte Irrtumswahrscheinlichkeit (gleichbedeutend mit einem Signifikanzlevel von SL=0.05).

Liegt bei einem Testresultat die Wahrscheinlichkeit, es durch reinen Zufall (reines Raten) zu erzielen bei <= 5% , dann lehnt man die Nullhypothese ab.
Liegt hingegen die Ratewahrscheinlichkeit bei >5% , dann lehnt man die Nullhypothese nicht ab.
Somit gibt es aber bei der Auswertung zwei Fehlermöglichkeiten:
1.) Man lehnt die Nullhypothese ab, obwohl sie eigentlich richtig ist
2.) Man lehnt die Nullhypothese _nicht_ ab, obwohl sie eigentlich falsch ist

Die erste Möglichkeit wird als Fehler 1. Art bezeichnet (oder auch als Alpha-Fehler).
Die zweite Möglichkeit wird als Fehler 2. Art bezeichnet (oder auch als Beta-Fehler).

Bis zu einem gewissen Grad hat man sich durch die vorab definierte Irrtumswahrscheinlichkeit (den Signifikanzlevel) gegen Fehler 1. Art abgesichert, aber was ist mit dem Fehler 2. Art?
Für diesen haben wir bislang noch keine Vorkehrungen getroffen, wir haben diesen bislang noch nicht berücksichtigt.
__________________
Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)

Geändert von Jakob (06.12.2016 um 20:52 Uhr).
Jakob ist offline   Mit Zitat antworten
Alt 07.12.2016, 08:15   #2
David
Admin und Forumsbetreiber
 
Benutzerbild von David
 
Registriert seit: 15.03.2006
Ort: Wien/Umgebung
Beiträge: 32.163
David hat die Renommee-Anzeige deaktiviert
Standard AW: Fragen und Erläuterungen zur statistischen Seite

Hallo @Jakob!
Mir war klar, dass du meine Aussage nicht so stehen lassen willst, aber es war überfällig, Holgers Thread zu schließen.

Ich will jetzt auch gar nicht auf deine "Berechnungen" eingehen, die ich nicht einmal ganz verstehe. Kurzum: ich kann's gar nicht.

Offenkundig wird hier allerdings wieder einmal, wie unterschiedlich wir beide in dieser Hinsicht "ticken". Das kann man seit jeher in den Foren verfolgen.

Für mich gibt es bei solchen Dingen immer nur den kurzen und geradlinigen Weg - für dich dagegen immer nur den "überkomplizierten", der "über 15 Ecken herum" führt und bei dem immer alles möglich ist, auch wenn es noch so "an den Haaren herbeigezogen" ist. Du relativierst nie, du gehörst auch zu denen die (bildlich gesprochen) die Y-Achse dehnen bis auch ein "Fliegenfurz" zu einem Donnergroll wird und damit versuchst du zu punkten. Bei Laien mag das funktionieren, bei den nach "technisch Beweisen hechelnden" Goldohren auch, aber ich und vermutlich auch die meisten Realos hier kann man mit so etwas nicht überzeugen.

Für mich ist 1+1 zwei komma null und für dich zwei komma....wer weiß, es könnte auch anders als Null sein.
Jeder Versuch, zu erklären, warum es auch anders sein könnte, kann nur im Chaos enden. Allerdings - im Notfall Holger fragen, der wird das sicher auf philosophische Art "erklären" können, das aber letztlich nur dazu führt, dass man - wie immer - gordische Knoten in die eigenen Hirnwindungen bekommt.

Tut leid, kann sein dass ich dazu zu primitiv bin, aber so kann und will ich nicht diskutieren.

Für mich zählen nur Fakten und sonst nichts. Und wenn etwas schon gefühlt "unendlich oft" untermauert wurde, so wie verblindete Vergleiche mit Dingen die sich gleich messen (außer man wendet wieder eine irrwitzige Dehnung der Y-Achse an), dann gibt es für mich kein "es könnte auch anders sein".
----------------------------------------

Wie schon geschrieben, halte ich einen Präferenztest, so wie du ihn gemacht hast - aber nur dann wenn er wirklich "sauber" durchgeführt wird, wovon ich bei dir ausgehe - für gut und interessant. Nur sind 5 Proben aus meiner Sicht viel zu wenig, wie auch schon geschrieben.

Wenn du darüber mit mir diskutieren willst, dann bitte immer nur "geradlinig", zu meiner "primitiven Art" passend, denn sonst -

__________________
Gruß
David


Erst wenn man begriffen hat, dass Raumakustik, Lautsprecheraufstellung und Hörplatzwahl wichtiger sind als die Anlage selbst, hat man die Audiowiedergabe verstanden.
Auch Gäste können Beiträge verfassen, die ich aber nur freischalte, wenn sie den Forumsregeln entsprechen. Zensur (nur in Bezug auf Respektlosigkeiten) behalte ich mir vor.
Auch Personen, die noch wenig Wissen auf diesem Gebiet haben, oder solche, die Rat und Hinweise von Erfahrenen suchen, sind hier richtig.
Meine Auffassung von seriösen Vergleichstests: Klick mich - Die bisherigen Testergebnisse: Klick mich - Private Anlage: Klick mich
Grundsätzlich: Behauptungen die mir bedenklich erscheinen, glaube ich erst, wenn sie mir in Form eines verblindeten Vergleichs bewiesen werden konnten. Das gilt für das was ich selbst zu hören glaube ebenso.
Eine Bitte an Alle: nicht ganze (noch dazu große) Beiträge zitieren und darunter einen kurzen Kommentar schreiben! Besser (beispielsweise): "Volle Zustimmung zu Beitrag 37".
David ist offline   Mit Zitat antworten
Alt 07.12.2016, 15:26   #3
Jakob
Erfahrener Benutzer
 
Registriert seit: 17.08.2010
Beiträge: 754
Jakob befindet sich auf einem aufstrebenden Ast
Standard AW: Fragen und Erläuterungen zur statistischen Seite

Um auf den Fehler 2. Art (Nullhypothese wird _nicht_ zurückgewiesen, obwohl sie falsch ist) zurückzukommen- wir können die Wahrscheinlichkeit für sein Auftreten zunächst nicht berechnen, da wir (vorab) nicht wissen, wo der tatsächliche Wert für p liegt.

Für die Berechnung des Fehlers 1. Art (Nullhypothese wird zurückgewiesen, obwohl sie eigentlich richtig ist) haben wir die Nullhypothese (H0: p=0.5) herangezogen und waren somit imstande die noch akzeptable Ratewahrscheinlichkeit zu berechnen.
Analog benötigt man Annahmen für den tatsächlichen Wert von p , um die Wahrscheinlichkeit für Fehler 2. Art zu berechnen.

Im ersten Beitrag hatte ich entsprechend den Wert von p = 0.8 für die Berechnung angenommen, d.h. es handelt sich bereits um einen recht großen Unterschied zwischen der Behauptung der Nullhypothese (H0: p = 0.5) und der Behauptung, dass für p tatsächlich gelte p = 0.8.

Zusätzlich zu der Annahme für den tatsächlichen Wert von p benötigen wir noch eine Zielvorgabe für die Wahrscheinlichkeit für einen Fehler 2. Art.

Zur Erinnerung- bei dem Fehler 1. Art haben wir die noch akzeptierte Ratewahrscheinlichkeit mit 5% (=0.05) angesetzt, im wissenschaftlichen Bereich möchte man die Wahrscheinlichkeit für Fehler 2. Art zumindest auf 20% begrenzen, allerdings kann man in unseren Fällen ebenso die Auffassung vertreten, dass die akzeptierten Wahrscheinlichkeiten für beide Fehlerarten gleich groß sein sollten.
Das heißt, wenn man die Grenze für die Ratewahrscheinlichkeit (also Fehler 1. Art) bei 5% ansetzt, sollte die Wahrscheinlichkeit für das Auftreten von Fehlern 2. Art ebenfalls bei (höchstens) 5% liegen.

Mit Hilfe dieser Annahmen kann man dann (wie im zitierten Beispiel des ersten Beitrages gemacht) die notwendigen Versuchszahlen ermitteln, die man mindestens benötigt, um die Bedingungen zu erfüllen.

Davids Kriterium von notwendigen 16 Treffern bei 20 Versuchen dient als Berechnungsbeispiel:
H0: p = 0.5
H1: p > 0.5 (-> also einseitiger Test)

die tatsächliche Ratewahrscheinlichkeit (also Wahrscheinlichkeit für Alpha-Fehler/Fehler 1. Art) ist P(X >= 16 l H0) = 0.006; gerundet auf die dritte Nachkommastelle

Anhand dieser Berechnung, sowie der Annahme, das das tatsächliche p nicht bei 0.5 sondern bei p = 0.8 liegt, kann man nun berechnen, wie hoch die Wahrscheinlichkeit für das Auftreten von Beta-Fehlern/Fehlern 2. Art ist, sie liegt bei 0.37 oder 37% gerundet auf die zweite Nachkommastelle, d.h.

p(Alpha) = 0.006
p(Beta) = 0.37

und das ist schon ein ziemlich deutliches Missverhältnis.
Versucht man hingegen, die beiden Fehlerwahrscheinlichkeiten gleich groß ausfallen zu lassen, dann kann man die dafür (bei sonst gleichen Annahmen) notwendige Durchgangsanzahl berechnen; das führt zu

N = 61
die notwendige Trefferzahl liegt bei 41 und die tatsächlichen Wahrscheinlichkeiten für beide Fehlerarten liegen bei:
p(Alpha) = 0.005 (gerundet auf die dritte Nachkommastelle)
und
p(Beta) = 0.006 (gerundet auf die dritte Nachkommastelle)

das heißt, die Zielvorgabe der annähernden Ausgeglichenheit wird in diesem Fall erreicht.
__________________
Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)
Jakob ist offline   Mit Zitat antworten
Alt 13.12.2016, 14:10   #4
Jakob
Erfahrener Benutzer
 
Registriert seit: 17.08.2010
Beiträge: 754
Jakob befindet sich auf einem aufstrebenden Ast
Standard AW: Fragen und Erläuterungen zur statistischen Seite

Zitat:
Zitat von David Beitrag anzeigen
<snip>
Ich will jetzt auch gar nicht auf deine "Berechnungen" eingehen, die ich nicht einmal ganz verstehe. Kurzum: ich kann's gar nicht.
Ja, ich weiss; allerdings wird das bei deinen diversen Beiträgen nicht "so ganz" deutlich, denn du schreibst ja nicht, "hab eigentlich keine richtige Ahnung wieso und warum, aber glaube, dass 20 Versuche nötig sind" sondern du schreibst "5 Versuche sind viel zu wenig, mindestens 20 müssen es sein" (sinngemäß) und bei diesen kategorischen Behauptungen wird es dann schwierig.

Zitat:
Für mich gibt es bei solchen Dingen immer nur den kurzen und geradlinigen Weg - für dich dagegen immer nur den "überkomplizierten", der "über 15 Ecken herum" führt und bei dem immer alles möglich ist, auch wenn es noch so "an den Haaren herbeigezogen" ist. Du relativierst nie, du gehörst auch zu denen die (bildlich gesprochen) die Y-Achse dehnen bis auch ein "Fliegenfurz" zu einem Donnergroll wird und damit versuchst du zu punkten. Bei Laien mag das funktionieren, bei den nach "technisch Beweisen hechelnden" Goldohren auch, aber ich und vermutlich auch die meisten Realos hier kann man mit so etwas nicht überzeugen.
Mag zwar so scheinen, aber der Unterschied liegt eher darin, dass du zunächst irgendeine "Glaubensmeinung" vertrittst, die dann nachträglich möglichst durch Fakten irgendwie belegt werden soll, was iaR auch zu mehrfach auftretenden Zirkelschlüssen führt.

Ansonsten gilt, es ist vollkommen egal, was ich selbst glaube, was ich selbst für plausibel halte oder nicht- sobald ich einen Test mache, muss dieser so ausgeführt werden, dass er den untersuchten Effekt (und nur diesen, nicht etwa meine eigenen Glaubensgrundsätze) untersucht. Irgendetwas auszuschliessen, weil mit deiner "Glaubenslage" nicht vereinbar, ist an der Stelle gefährlich. Siehe deine Frage "was soll denn eine Positivkontrolle bringen, wenn der Unterschied sowieso nicht hörbar ist" .

Zitat:
Für mich ist 1+1 zwei komma null und für dich zwei komma....wer weiß, es könnte auch anders als Null sein.
Oder aber, für dich muss auch 2,x in jedem Fall 2,0 sein, egal obs stimmt.... :)

Deine Empfehlung eines Kabelversuchs (selbst nach entsprechender Erläuterung, weshalb deine Variante nicht der Realität entspricht) zeigt dies relativ deutlich.

Zitat:
Für mich zählen nur Fakten und sonst nichts.
Das von mir bislang vorgerechnete ist ein Fakt, aus dem gleichen Grund übrigens, aus dem auch gilt, das 1 + 1 = 2 ist, aber wenn es (auch nur ein bissschen) komplizierter wird, zählen die Fakten offensichtlich für dich nicht mehr. (Was mE selbstverständlich mit der "Glaubenslage" zusammenhängt)


Zitat:
Und wenn etwas schon gefühlt "unendlich oft" untermauert wurde, ....
Da sind wir am nächsten Punkt angelangt; um zu "untermauern" , warum fünf Durchgänge nicht ausreichen, greifst du zum Würfel und (Donnerwetter) bemerkst, das man bei dauernder Wiederholung zwischendurch auch längere Serien erzielen kann (s.d.a. die ergoogelten Permanenzen).
Der gleiche David aber, der gerade noch die Würfelei anführte, findet es aber gar nicht mehr erstaunlich, dass er bei "hunderten" von "Blindtests" nie positive Ergebnisse fand (bei umstrittenen Effekten), obwohl es sich dabei doch auch nur um Würfelei gehandelt haben kann.
Das passt auch/selbst auf der gewünschten "primitiven" Ebene nicht zusammen, nicht wahr?


Zitat:
so wie verblindete Vergleiche mit Dingen die sich gleich messen (außer man wendet wieder eine irrwitzige Dehnung der Y-Achse an), dann gibt es für mich kein "es könnte auch anders sein".
Wie gesagt, entweder man testet und dann muss man es richtig machen (und die persönliche "Glaubenslage" außer Acht lassen) oder man findet, es gäbe nichts zu hören und sollte dann die Position beziehen, "ich glaube nicht, dass es wahrnehmbar ist, würde mich aber durch anderslautende Testresultate überzeugen lassen"


Zitat:
Wie schon geschrieben, halte ich einen Präferenztest, so wie du ihn gemacht hast - aber nur dann wenn er wirklich "sauber" durchgeführt wird, wovon ich bei dir ausgehe - für gut und interessant. Nur sind 5 Proben aus meiner Sicht viel zu wenig, wie auch schon geschrieben.
Es braucht halt neben dem "Glauben" auch vernünftige Argumente für diese Behauptung; Schauki "bequemte" sich ja inzwischen zu der Begründung, es sei ein Problem, da nur ein Versuch über "Wohl oder Wehe" entscheide, allerdings fehlt auch da bislang die nähere Erläuterung, weshalb dies (oder in welchen Fällen) dies ein Problem darstelle....


Nachtrag: dass die Wahrscheinlichkeit für das Auftreten _beider_ Fehlerarten einigermaßen ausgeglichen sein sollte, müsste mE auch nachvollziehbar sein, selbst wenn man die Berechnungen im Detail nicht ohne weiteres nachvollziehen kann....
__________________
Gewerblicher Teilnehmer. Entwicklung, Herstellung und Vertrieb von Audiotechnik. (u.a.)
Jakob ist offline   Mit Zitat antworten
Alt 13.12.2016, 15:23   #5
schauki
Erfahrener Benutzer
 
Registriert seit: 28.02.2010
Beiträge: 6.444
schauki befindet sich auf einem aufstrebenden Ast
Standard AW: Fragen und Erläuterungen zur statistischen Seite

Zitat:
Zitat von Jakob Beitrag anzeigen
....
Es braucht halt neben dem "Glauben" auch vernünftige Argumente für diese Behauptung; Schauki "bequemte" sich ja inzwischen zu der Begründung, es sei ein Problem, da nur ein Versuch über "Wohl oder Wehe" entscheide, allerdings fehlt auch da bislang die nähere Erläuterung, weshalb dies (oder in welchen Fällen) dies ein Problem darstelle.... ...
Der wadenbeißerische Tonfall, zeigt dass hier doch sehr viel "Glaube" da ist, und auch bei anderen vorausgesetzt wird, denn das Hauptproblem an deinem Test ist, dass man dir glauben muss.

Man/ich kann deine Aussagen nicht nachprüfen. Es kann sein, dass du den Test erfunden hast, das Ergebnis erfunden,....

Und jetzt die Frage: Wieso sollte man dir denn glauben?
Die Antwort müsste man jetzt auch glauben,...


Ich habe schon 10.000 BTs gemacht die ähnlich deinem Amp Test waren, aber da kam keine statistische Signifikanz raus. Also mal 2 "richtig", mal 3, mal 4, auch mal 5 (da wars dann aber wohl der 3% Zufall).
Das musst du mir jetzt einfach mal glauben!

Übrigens bei deinem Test war ich auch ein Hörer und ich habe mich damals vertan dir das falsche Ergebnis genannt. Somit ist von deinem 5/5 nur noch ein 4/5 übrig.
Und jetzt nicht behaupten ich wäre gar nicht dabei gewesen, das kann ja jeder sagen.


Ich habe nichts gegen anonymes posten. Das darf/soll jeder für sich entscheiden.
Es kommt aber irgendwann der Punkt an dem man eben "glauben" muss. Und der ist hier bei solchen Behauptungen erreicht die man selbst nicht prüfen kann.
Und da spielt die Glaubwürdigkeit dann eine Rolle.
Und deine Glaubwürdigkeit ist bei mir nahezu auf Null.
Daher verstehe ich auch nicht deine Bemühungen hier irgendwas auszudiskutieren, dass einzig und allein funktionieren würde, wenn man das was du behauptest für "wahr" hält.

mfg

Geändert von schauki (13.12.2016 um 15:39 Uhr).
schauki ist offline   Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 
Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Gehe zu



Alle Zeitangaben in WEZ +2. Es ist jetzt 00:54 Uhr.


Powered by vBulletin® Version 3.7.1 (Deutsch)
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.
Powered by vBCMS® 1.2.2 ©2002 - 2017 vbdesigns.de