Ankündigung

Einklappen
Keine Ankündigung bisher.

Wann ist ein Test aussagekräftig und somit seriös?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

    Wann ist ein Test aussagekräftig und somit seriös?

    Hallo

    Auf wiederholten Wunsch mache ich einen eigenen Thread auf.


    Ich mache es kurz.

    Ich werde nicht wiederkäuen was man alles tun könnte, um einen Test besser zu machen.

    Statt dessen beantworte ich die Frage:

    Wann liefert ein Vergleichstest aussagekräftige Ergebnisse?


    Kurz:



    Für eine Bewertung der Ergebnisse müssen folgende Fragen beantwortet werden:



    Richtigkeit/Spezifität

    1. Wie viele / wie wenige falsch-positive Ergebnisse hat ein Test produziert?

    2. Wie viele / wie wenige falsch-negative Ergebnisse hat ein Test produziert?


    Genauigkeit/Präzision

    Mit welcher Sicherheit kann man sagen, dass die Treffer (also richtig-positiv und richtig-negativ) keine Zufallstreffer sind?



    Für eine klare Aussage muss das alles aus den Ergebnisse und Daten ersichtlich und ausgewertet worden sein, die der Test ausspuckt.


    Gibt es diese Daten nicht, kann man keine klare und seriöse Aussage machen.



    Zusammengefasst:
    Ein guter Test liefert gute Daten



    :S

    LG
    Babak




    --------------------------------------------------------------------------------------

    P.S:
    In diesem Thread wünsche ich rein sachliche Auseinandersetzung mit dem Thema.
    Persönliche und persönlich gemeinte Beiträge sind unerwünscht, und ich werde David bitten, sie zu entfernen.
    Zuletzt geändert von Babak; 13.02.2013, 18:23.
    Grüße
    :S

    Babak

    ------------------------------
    "Alles was wir hören ist eine Meinung, nicht ein Faktum.

    Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


    Marcus Aurelius

    #2
    Noch ein Zusatz:

    So kann man JEDEN TEST auf seine Qualität prüfen.

    Vollkommen egal wie er durchgeführt worden ist.
    Grüße
    :S

    Babak

    ------------------------------
    "Alles was wir hören ist eine Meinung, nicht ein Faktum.

    Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


    Marcus Aurelius

    Kommentar


      #3
      Was ist das Ziel Deines threads?

      Ein ausagekraeftiger, serioeser Blindtest der sich sozusagen mit allen Wassern gewaschen hat?

      Oder...?

      Kommentar


        #4
        OK, nehmen wir den aktuellen Verstärkertest als Beispiel

        2 Testversuche mit jeweils 9 Richtigen von 10 Versuchen.

        Die 2 Testversuche sind nicht mit identischen Parametern der Verstärker durchgeführt wurden.

        Statistisch ist 9/10 noch raten.
        (siehe Expertise von Kammerklang u.A. dort drüben)

        M.E. wurden Deine Forderungen erfüllt.

        Fazit kann aber trotzdem nur sein:

        Der Proband hat bei diesen 2 Verstärkern,
        - unter diesen Umständen
        - mit dieser Testmusik
        - mit dieser Lautstärke
        - etc.....

        .....keinen sicheren Unterschied erhören können.

        Was nun ?

        Kommentar


          #5
          Hallo

          Nein gar nicht.

          Streitthema ist ja immer wieder, welcher Testansatz "besser" ist.
          • Langzeit-Tests gegen Kurzzeit-Tests
          • Sehend oder verdeckt
          • Umstecken oder Umschaltbox
          • Pegel ausgeglichen oder nicht
          • Musik oder Testsignale
          • Einzel oder Gruppe
          • Holzohr oder Goldohr
          • Lautsprecher oder Kopfhörer

          Und weiß der Kuckuck was noch

          Doch ob jetzt diese Absätze wirklich etwas besser machen, konnte bisher keiner schlüssig zeigen.


          Da bleibt es bei persönlichen Überzeugungen, dass es jeder richtiger macht als der andere.
          Und es kommt unweigerlich zu Streit.


          Hier geht es um die Effektivität des Tests.
          Wie wirksam sind die Maßnahmen wirklich?


          Das wird ja wo anders genauso gemacht:
          Erst messen
          Dann Verbesserungsmaßnahmen umsetzen
          Am Ende nochmal messen um zu sehen, ob es gewirkt hat und besser geworden ist.


          Tut man das nicht, kann man nicht sagen, ob und wie gut es geworden ist.


          Wenn man etwas erreichen will, muss man doch auch irgendwie bestimmten können, wie gut man unterwegs ist, ob man das Ziel erreicht oder es verfehlt.





          Wer ist schon gerne im Blindflug unterwegs?






          Das ist nur eine Hilfestellung, damit jeder bewerten kann, wie gut ein Audio Vergleichstest ist, dessen Ergebnisse er vor sich hat.



          Da kann sich jeder selber ein Bild machen, was nun welcher Test wirklich bewiesen hat.
          Egal ob er einen bestimmten Testansatz aufbaut oder mit Ergebnissen von Tests konfrontiert wird.




          Das ist ganz sachlich, da es rein auf Daten und Fakten aufbaut.




          Somit sollte es deutlich weniger Befindlichkeiten geben.



          LG
          Babak
          Grüße
          :S

          Babak

          ------------------------------
          "Alles was wir hören ist eine Meinung, nicht ein Faktum.

          Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


          Marcus Aurelius

          Kommentar


            #6
            Endlich werden hier Nägel mit Köpfen gemacht.
            Und bitte alle unsachlichen Beiträge sofort löschen bzw. deren Verursacher aus dem Thread aussperren!

            Gruss

            Gerd

            Kommentar


              #7
              Hallo,

              nun könnte man den thread eigentlich schon schließen, denn ein wenig mehr hätte ich mir von einem neuen Thread über das Thema schon erwartet.

              Mich persönlich interessiert zwar irgendwie schon, wie man NACH einem Test überprüfen kann, ob der was getaugt hat oder nur für die Tonne taugt.

              Die eigentlich für mich - und sicher auch einige Andere - wichtigere Frage ist aber, wie genau muss ein Test aufgesetzt werden, damit er anschließend die Kriterien besteht.

              Wenn mal eine konkrete Verfahrensanweisung von dir auf den Tisch gelegt wird, kann man evtl. ernsthaft darüber nachdenken, ob, wann und wo man so einen Test durchführen könnte.

              So, wie du das gesamte Thema hier aufziehst, gehe ich ganz stark davon aus, daß dir garnicht daran gelegen ist, daß irgendjemand mal einen wasserdichten Test organisieren könnte.
              Dann würde dir ja die Spielwiese abhanden kommen, anschließend den Test genüsslich auseinanderzupflücken zu können.

              Sollte ich mich aber - die Hoffnung stirbt zuletzt - diesbezüglich täuschen, dann gibt es nur eine sinnvolle Lösung und Beendigung des Themas:
              Du legst konkret ein für die hier in dem Umfeld zu testenden Phaenomene eine 100 % konkrete "to do"-Liste auf den Tisch.
              Nebenbeibemerkt hättest du in der Zeit, die du hier mit der Erklärung der Untauglichkeit der bisherigen Test verbracht hast, leicht mehrmals so eine konkrete Verfahrensanweisung niederschreiben können und gut wäre gewesen.

              Ich will dir mal ein Beispiel aus meinems pecial-Interestgebiet geben, wie dein Verhalten rüberkommt:

              Jemand fragt mich, wie er für einen bestimmten Treiber ein Bassreflexgehäuse abstimmen soll.
              Ich sage ihm dann: Du nimmst ein passendes Gehäusevolumen und ein passendes Bassreflexrohr mit passendem Durchmesser und passender Länge.
              Wenn er mit diesen Angaben dann die Abstimmung vermurkst, erkläre ich im nachträglich, daß er eigentlich alles falsch gemacht hat, vermeide dabei aber tunlichst, dabei konkret zu sagen, wie er die Fehler hätte vermeiden können.
              Irgendwie erinnert mich das an die Methode Babak.

              Ich hätte aber auch antworten können:
              Für den Treiber x benötigst du für aktiv Gehäusevolumen x, und Bassreflexrohrdurchmesser y und Länge z
              Und für Passivbox Gehäusevolumen a, Bassreflexrohrdurchmesser b und Länge c.

              Gruß
              Peter Krips

              Kommentar


                #8
                Zitat von P.Krips Beitrag anzeigen

                Mich persönlich interessiert zwar irgendwie schon, wie man NACH einem Test überprüfen kann, ob der was getaugt hat oder nur für die Tonne taugt.
                Auf diese Weise anfangen haette ja doch schon was.......find ich....


                OT
                Wenn ich ueber die Emotionen in Deinem Beitrag nachdenke schwant mir uebles fuer diesen Thread......
                end OT

                Kommentar


                  #9
                  Hallo Peter,

                  Schade, sachlich beim Thema bist Du nicht geblieben.


                  Ein Testansatz kann nicht gleich beim ersten Wurf perfekt funktionieren. Der muss entwickelt und bei jeder Runde verbessert werden, bis er richtige Ergebnisse liefern kann.

                  Genau dazu braucht es eine Beurteilungs-Methode.
                  Und um diese geht es hier



                  Oder woher will man wissen, ob die Testmethode passt oder nicht?


                  Vielleicht liefert ja der bereits vorhandene Tests Ergebnisse, die gut genug sind.
                  Wer weiß?
                  Dann spart man sich eine Menge Tüftelei und kann gleich ans Testen gehen.


                  Daher macht es keinen Sinn, gleich mit einer Anleitung für einen Test anzutanzen.
                  Der Teufel liegt im Detail der Umsetzung, und das kann man nur Schritt für Schritt ausmerzen.

                  Es ist ein iterativer Prozess von Planen - Umsetzen - Verifizieren - Verbessern und zurück zur neuen Planung.

                  Nur einmal Planen , einmal Umsetzen und Schon passt es - das wird es nicht geben.
                  Und das geht auch nicht am Papier, sondern lauft am praktischen Beispiel.

                  Zum Planen gab es schon Beiträge
                  Ebenso zu möglichen Verbesserungen.
                  Durchgeführt wurde auch schon eine ganze Reihe


                  Hier geht es um den Verifizierung-Schritt:
                  Wann weiß man, wie gut der Test ist?


                  Ich gebe gerne Inputs bei der Gestaltung oder Verbesserung eines Tests.
                  Dazu muss mal bekannt sein, welche Fragestellung womit beantwortet werden sollte und wie gut/wie schlecht dieser Ansatz war.

                  Für letzteres ist dieser Thread gedacht.



                  :S
                  LG
                  Babak



                  PS:
                  Willst Du für Deine Selbstbau-Gruppe einen Test aufsetzen, mach doch einen Thread auf, und ich gebe Dir gerne Inputs zu Deinen Ansätzen.
                  Ich bin mir sicher, Leute wie Jakob und andere mit fundiertem Wissen werden auch nicht mit Inputs geizen.
                  Zuletzt geändert von Babak; 13.02.2013, 22:34.
                  Grüße
                  :S

                  Babak

                  ------------------------------
                  "Alles was wir hören ist eine Meinung, nicht ein Faktum.

                  Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


                  Marcus Aurelius

                  Kommentar


                    #10
                    So, wie du das gesamte Thema hier aufziehst, gehe ich ganz stark davon aus, daß dir garnicht daran gelegen ist, daß irgendjemand mal einen wasserdichten Test organisieren könnte.
                    Dann würde dir ja die Spielwiese abhanden kommen, anschließend den Test genüsslich auseinanderzupflücken zu können.
                    Ich würde mir wünschen, wenn in diesem Thread mal auf derlei Dinge verzichtet werden könnte. Ich habe den TO jetzt lange genug genervt mit der Bitte, mal einen eigenen Thread zu eröffnen und jetzt hat er es tatsächlich getan (dafür meinen wirklich vom Herzen kommenden Dank, Babak) - somit sollten wir ihm zumindest die Chance geben, diesen Thread in seinem Sinne zu entwickeln.

                    Fragen stellen oder Gegenthesen/-theorien aufstellen, diskutieren was die Sinnhaftigkeit betrifft ... all das soll hier jetzt auch Platz haben dürfen.

                    Also seid bitte fair und schüttet nicht gleich wieder Öl ins abklingende Feuer!

                    Danke Euch!

                    Herby

                    Kommentar


                      #11
                      Zitat von Babak Beitrag anzeigen
                      Ich gebe gerne Inputs bei der Gestaltung oder Verbesserung eines Tests.
                      Dazu muss mal bekannt sein, welche Fragestellung womit beantwortet werden sollte und wie gut/wie schlecht dieser Ansatz war.
                      Ok, Babak - spielen wir das mal in Deinem Sinne durch.

                      Das Problem, welches ich persönlich im Moment habe: mir fehlt die Fantasie nach der der Fragestellung. Denn vermutlich wird diese Fragestellung zu allgemein gehalten sein: "Gibt es hörbare Unterschiede zwischen verschiedenen Hifi-Bausteinen gleicher Art (wobei gleiche Art eben bedeutet: Verstärker oder CDP oder Kabel usw)?" Und als Zusatzfrage wäre dann: "Falls es Unterschiede gibt, kann man diese Quantifizieren?"

                      Oder Du hilfst (mir) auf die Sprünge, wie solche Fragen beispielshaft gestellt werden könnten?

                      Herby

                      Kommentar


                        #12
                        So wie ich Babak verstehe, geht es lediglich um die Schilderung eines Tests: Wie ist der Aufbau, wie die Durchführung (Set) und wie das Ergebnis und ist es valide+reliabel.
                        Dann setzt der iterative Prozess ein: Veränderung/Verbesserung des Aufbaus, Veränderung/Verbesserung der Durchführung und Prüfen des Ergebnisses und der Ergebnisqualität.
                        Ggf. wiederholt man das Verfahren und zwar solange, bis das Ergebnis eine zufriedenstellende Qualität hat. Dafür kann man sich der Statistik und deren Werkzeuge bedienen: Konfidenzintervall, Standardabweichung, Varianz etc.
                        Beste Grüße,
                        Mike

                        ____________________
                        Hier steht keine Signatur...

                        Kommentar


                          #13
                          Hallo,
                          o.k. meine Antwort oben ist wohl etwas harsch angekommen, war aber nicht so gemeint.

                          Ich habe nur ein gelindes Problem damit, daß wir das Pferd so (siehe mein Beispiel oben) von hinten aufzäumen.
                          Irgendwie macht es für mich keinen Sinn, die Kriterien für die nachträgliche Auswertung eines Tests zu beleuchten, wenn noch nicht klar ist, das hat ja Herby angesprochen, was wie getestet werden soll.
                          Richtet sich die Beurteilung der Validität eines Test nicht auch danach, wie die Fragestellung des Tests ist ?

                          Ich dachte eigentlich, es wäre klar, um welche Art Tests es hier in diesem Umkreis geht, da auch wieder der Verweis auf Herby. Klangunterschiede zwischen zwei Komponenten, Punkt.

                          Und wieso sollen wir hier wieder zurück zu Los gehen, die Diskussion währt ja immerhin schon einige Jahre.

                          Wenn die allem Anschein nach Kundigen nicht mal ein Testverfahren nach all den Jahren auf den Tisch legen konnten, das die obigen Kriterien erfüllt, befürchte ich konkret, daß Einge hier ins Grab sinken, ohne mitbekommen zu haben, wie so ein Test konkret abzulaufen hat.

                          Ich möchte nur vermeiden, weitere x Jahre über das Thema zu diskutieren und dann immer noch keine "Bedienungsanleitung" für so einen Test gesehen zu haben.

                          Was ist so schwer daran, hier zu schreiben:

                          Wenn man den Test
                          - so
                          - so
                          - so
                          (aber dann keine ungeklärten Punkte mehr wie die 7-10 im Nachbarthread)

                          aufbaut, dann erfüllt er die Kriterien

                          - weil
                          - weil
                          - weil


                          und wir könnten in ein paar Tagen mit dem Thema durch sein.
                          .... Und dann eventuell mal "richtige" Tests angehen..


                          Gruß
                          Peter Krips

                          Kommentar


                            #14
                            Hallo

                            Zitat von Mike Beitrag anzeigen
                            So wie ich Babak verstehe, geht es lediglich um die Schilderung eines Tests: Wie ist der Aufbau, wie die Durchführung (Set) und wie das Ergebnis und ist es valide+reliabel.
                            In diesem speziellen Thread geht es nur um den fett hervorgehobenen Teil

                            Und der ist unabhängig von Aufbau und Durchführung.

                            Grundsätzlich müssen dafür immer Prositiv- und Negativkontrollen mitlaufen und gezeigt werden, dass die ergebnisse nicht zufallstreffer sind.

                            Zu letzeremen gehört eben, dass es zu 95% kein Zufall ist, wenn von 20 Vergleichen 15 richtig erkannt werden.



                            Die Fragestellung gehört nicht zu diesem Thema.
                            Dazu sag ich nur (ohne zu wissenschaftlich zu werden), dass es grundsätzlich nicht möglich ist, eindeutig zu beweisen, dass etwas nicht existiert.

                            Man muss den empirischen Nachweis so aufbauen, dass man versucht, zu beweisen, dass etwas existiert.

                            LG
                            Babak
                            Grüße
                            :S

                            Babak

                            ------------------------------
                            "Alles was wir hören ist eine Meinung, nicht ein Faktum.

                            Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


                            Marcus Aurelius

                            Kommentar


                              #15
                              Hallo

                              die Ermittlung der Validität ist an sich für alle Vergleichstests gleich.

                              Man braucht 3 Sets an Ergebnissen:
                              1. Die zu detektierenden Unterschiede (A vs. B)
                              2. Die Negativkontrollen
                              3. Die Positivkontrollen


                              Damit der Test valide ist, müssen die beiden mitlaufenden Kontrollen korrekt sein:

                              Sprich:
                              Die Positivkontrolle wurde mit einer statistischen Signifikanz erkannt.
                              Die bei der Negativkontrolle wurde auch statistisch relevant nichts erkannt.

                              Ist die Positivkontrolle nicht erkannt worden, so existiert ein Faktor, der die Wahrnehmung von Unterschieden erschwert.
                              Da ist auch anzunehmen, dass ein möglicher Unterschied zwischen den Komponenten nicht gehört wird, owbohl er da ist.

                              Ist bei der Negtivkontrolle etwas gehört worden, ist nciht sicher, ob ein wahrgenommener Unterschied von den unterschiedlichen Komponenten kommt oder von einem Faktor, der zu einer Wahrnehmung führt, obwohl nichts da ist.

                              Erst wenn beide Kontrollen OK sind, kann man sich die Daten zu den tatsächlichen Unterschieden ansehen.
                              Da ist die Frage, ob mit eine rstatistischen Signifikanz der Unterschied auch wahrgenommen worden ist.


                              Diese statistischen Signifikanzen zu 1., 2. und 3. sind dieselben wie beim ABX-Test.

                              Ohne in die Statistik einzugehen, hier ein Link zu einer Faustregel:


                              Das sind die notwendigen Korrekten Zuordnungen für eine 95% Sicherheit, dass die Wahrnehmung nicht zufällig ist

                              Anzahl der Versuche
                              10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
                              09 09 10 10 11 12 12 13 13 14 15 15 16 16 17 18
                              Mindestens korrekt


                              Also:
                              Bei 10 Unterschieden oder Kontrollen, müssen die Angaben des Probanden mindestens 9x passen.
                              Bei 15 Unterschieden oder Kontrollen sind es mindesten 12 korrekte Angaben
                              Bei 20 sind es mindestens 15 korrekte Angaben



                              Es gilt eben neben dem Testaufbau (wie gestalte ich die Wechsel), die Negativ- und Positiv-Kontrollen einzubauen.

                              Etwas mehr Arbeit muss in die Positivkontrollen fließen.


                              Denn selbst wenn kein Unterschied wahrgenommen wird, kann man nur sagen, dass in diesem Setting diese Probanden mit 95%iger Sicherheit (5% Fehlerrate/Restrisiko) keine Unterschiede wahrnehmen konnten, die gleich groß oder größer als die Positivkontrollen waren.

                              Man kann nie 100%ige Aussagen machen.

                              LG
                              Babak
                              Grüße
                              :S

                              Babak

                              ------------------------------
                              "Alles was wir hören ist eine Meinung, nicht ein Faktum.

                              Alles was wir sehen ist eine Perspektive, nicht die Wahrheit!"


                              Marcus Aurelius

                              Kommentar

                              Lädt...
                              X
                              👍