Informations

Que sait-on de la façon dont les stimuli visuels/les idées préconçues influencent la perception auditive ?

Que sait-on de la façon dont les stimuli visuels/les idées préconçues influencent la perception auditive ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Cette question m'est venue à l'esprit alors que je marchais dans la rue aujourd'hui. J'ai vu deux femmes à la mode dans la rue devant moi. L'un d'eux a pointé du doigt quelque chose en dehors de mon champ de vision et a dit "Oh regarde, la boutique de Katy!" Quand je me suis retourné pour regarder, je n'ai vu aucune boutique, mais j'ai vu une succursale de la banque HSBC, ce qui m'a fait comprendre que la femme avait dû dire "Oh regarde, HSBC!"

Maintenant, peut-être que je me trompe, mais je ne peux pas imaginer que j'aurais entendu "Katy's Boutique" si j'avais vu deux hommes plutôt que deux femmes. Il semble que mes idées préconçues m'ont amené à interpréter différemment les mêmes stimuli.

Des études ont-elles été faites à ce sujet ? Dans quelle mesure l'effet est-il connu et pouvons-nous en dire quelque chose de quantitatif ?


3. Résultats

La réduction la plus importante des scores de douleur par rapport à la condition de contrôle a pu être observée après la séance d'entraînement à 10 Hz dans les groupes auditif et visuel, suivie de la condition à 8 Hz puis à 12 Hz. Aucun changement ou corrélation significatif n'a été observé dans les scores du questionnaire.

3.1 Évaluations de la douleur – groupe d'entraînement auditif

En tenant compte des cotes de douleur de base en tant que covariable et de la fréquence de stimulation, de l'ordre d'entraînement et de l'ordre de visite en tant que facteurs, le modèle linéaire mixte a calculé que les cotes de douleur succédant aux conditions d'entraînement à 8, 10 et 12 Hz étaient toutes significativement différentes de les trois conditions de contrôle (t(31) = 4.90, p < 0,001 t(31) = 5.61, p < 0,001 t(31) = 4.85, p < 0,001, respectivement). Les scores moyens ajustés de la douleur après l'entraînement étaient respectivement de 0,51 (SE 0,10), 0,58 (SE 0,10) et 0,5 (SE 0,10) points inférieurs au témoin sur l'échelle d'évaluation numérique (Fig. 2). Aucune différence significative n'a été détectée entre les trois conditions d'entraînement auditif lors du réajustement du modèle avec une correction de Bonferroni (Tableau 1).

(UNE)
Évaluations absolues moyennes de la douleur - état auditif
État Référence Contrôler 8 Hz 10 Hz 12 Hz
Valeurs absolues 6.74 6.62 6.08 6.05 6.08
(B)
Cotes de douleur ajustées - état auditif versus contrôle
État Différences ajustées Erreur standard t Taille de l'effet Importance (bilatérale)
8 Hz 0.51 0.10 4.90 0.76 p < 0.001
10 Hz 0.58 0.10 5.61 0.80 p < 0.001
12 Hz 0.51 0.10 4.85 0.77 p < 0.001

3.2 Évaluations de la douleur – groupe d'entraînement visuel

Le modèle linéaire mixte a établi que, compte tenu des covariables et des facteurs, les cotes de douleur dans les conditions d'entraînement (8, 10 et 12 Hz) étaient toutes significativement différentes du contrôle (t(31) = 2.28, p < 0.01 t(31) = 5.32, p < 0,001 t(31) = 2.59, p < 0,01, respectivement). Les évaluations de la douleur corrigées par le modèle des conditions à 8, 10 et 12 Hz étaient en moyenne de 0,6, 1,1 et 0,3 points plus faibles sur l'échelle d'évaluation de la douleur que le témoin, respectivement. De plus, lors du réaménagement du modèle, les évaluations de la douleur étaient significativement différentes dans la condition 10 Hz par rapport à la condition 8 Hz (t(31) = 2.22 p < 0,01) et 12 Hz (t(31) = 4.04, p < 0,001) condition. Les conditions 8 et 12 Hz ne différaient pas l'une de l'autre (p = 0,287) (Fig. 3 Tableau 2).

(UNE)
Évaluations absolues moyennes de la douleur - état visuel
État Référence Contrôler 8 Hz 10 Hz 12 Hz
Valeurs absolues 6.68 6.52 5.94 5.52 6.17
(B)
Cotes de douleur ajustées - état visuel versus contrôle
État Différences ajustées Erreur standard t Taille de l'effet Importance (bilatérale)
8 Hz 0.60 0.20 2.28 0.59 p < 0.01
10 Hz 1.12 0.18 5.32 1.01 p < 0,001
12 Hz 0.35 0.09 2.59 0.70 p < 0.01

3.3 Résultats du questionnaire

Un modèle linéaire mixte a été appliqué aux scores KSS, POMS et STAI-State de la condition 8, 10 et 12 Hz en les comparant aux scores de contrôle. Le modèle n'a révélé aucun changement de score significatif par rapport à la condition de contrôle dans les groupes visuel et auditif. Les questionnaires pré-expérimentaux n'ont montré aucune corrélation significative avec le changement dans les évaluations de la douleur par rapport à la ligne de base dans les trois conditions, dans les deux groupes.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Étude 2

Dans cette étude, nous avons tenté de réduire la variabilité des SOA entre les stimuli auditifs et visuels entre les navigateurs et les systèmes, en utilisant une approche différente. Dans l'étude 1, le code que nous avons écrit demandait simplement que les stimuli auditifs et visuels soient présentés simultanément, sans surveiller le moment où les stimuli étaient réellement présentés. Comme nous en avons discuté ci-dessus, des recherches antérieures suggéraient qu'il pouvait y avoir un décalage non négligeable entre l'exécution d'une commande pour présenter un stimulus audio et le début du stimulus, de sorte que la conclusion globale d'un décalage substantiel entre les débuts visuels et auditifs n'était peut-être pas surprenant.

Dans l'étude 2, nous avons utilisé JavaScript ou Flash pour lancer la lecture d'un son, puis utilisé un écouteur d'événement, une procédure qui s'exécute lorsqu'elle est déclenchée par un événement tel qu'un clic de souris ou une actualisation de l'écran, pour vérifier si le son est réellement signalé comme étant en cours de lecture. . Dès qu'il a été détecté comme jouant, le stimulus visuel a été présenté. Cela donne moins de contrôle sur le point précis auquel un stimulus commence à jouer, mais cela peut réduire l'asynchronie intermodale. Le design est donné dans le pseudo-code suivant :

Commencer un nouvel essai avec un écran noir

Lire un mp3 à onde sinusoïdale d'une durée de 1 000 ms

Surveiller si un son est joué

Si un son est joué, rendre le carré blanc visible

Surveiller si un son est complet

Si le son est complet, rendez le carré blanc invisible

En JavaScript, la commande pour rendre le carré visible était liée à l'événement "play" pour l'onde sinusoïdale. Dans Flash, un écouteur d'événements inter-image surveillait la position de la tête de lecture dans un canal audio. Lorsque la position de la tête de lecture était supérieure à 0, c'est-à-dire lorsque le son était en cours de lecture, le carré était rendu visible.

Résultats

Les résultats peuvent être vus dans le tableau 2, et la distribution cumulative des SOA peut être vue dans la figure 2.

Distribution de fréquence cumulative des SOA dans l'étude 2 sur trois navigateurs, deux implémentations et deux systèmes informatiques. Le panneau de gauche affiche les performances de JavaScript et le panneau de droite les performances de Flash. Les lignes pleines montrent les performances sur le PC de bureau et les lignes pointillées montrent les performances sur l'ordinateur portable

Durée auditive

Comme précédemment, la cohérence des durées de présentation auditive était très bonne. Les résultats sont très similaires à ceux trouvés dans l'étude 1.

Durée visuelle

La liaison du début et du décalage du stimulus visuel au début et au décalage audio a conduit à une variabilité substantielle des durées visuelles. Celles-ci comprenaient des durées de présentation légèrement inférieures aux 1 000 ms souhaitées avec Flash et des durées excessives très importantes sous JavaScript.

SOA entre le début auditif et visuel

Les SOA ici n'étaient pas meilleurs que ceux de l'étude 1, et la variabilité entre les combinaisons système-navigateur était plus élevée.

Discussion

Dans cette étude, nous avons utilisé des auditeurs d'événements pour lier le début du stimulus visuel à la présentation du stimulus auditif. L'objectif était de contourner le problème bien connu des décalages non mesurables entre l'exécution de la commande et le début réel d'un stimulus auditif. Cela n'a pas fonctionné.

Cet échec n'est peut-être pas surprenant : une quantité substantielle de traitement du son est dévolue à la carte son d'un ordinateur, et le code basé sur un navigateur a un accès limité aux informations liées au système. En tant que tel, il semble que ce que nous avons surveillé n'était pas le début exact du stimulus auditif, mais soit un proxy dans l'environnement JavaScript ou Flash, qui n'était peut-être pas lié au comportement réel de la carte son, ou, du moins dans certains cas, un rapport de la carte son qui était sujet à un retard et à une variabilité dans le timing de sa présentation à l'environnement d'exécution du code JavaScript ou Flash.

Il semble également clair, notamment en JavaScript, que l'événement déclenché par le son achèvement s'est produit quelque temps après la fin du son, ce qui signifie que le stimulus visuel est resté sur l'écran beaucoup plus longtemps qu'il ne le devrait. Dans l'ensemble, cette approche ne semble donc pas meilleure, et peut-être pire, que celle de l'étude 1.


La relation entre regarder/écouter et émotions humaines

(a) Réponses pupillaires lors de la présentation d'images émotionnellement excitantes (b) Réponses pupillaires lors de la présentation de sons émotionnellement excitants Crédit : Toyohashi University Of Technology.

Des chercheurs de l'Université de technologie de Toyohashi rapportent que la relation entre les états attentionnels en réponse aux images et aux sons et les émotions qu'ils suscitent peut être différente dans la perception visuelle et la perception auditive. Ce résultat suggère que la perception visuelle suscite des émotions dans tous les états attentionnels, tandis que la perception auditive ne suscite des émotions que lorsque l'attention est portée sur les sons, montrant ainsi les différences dans les relations entre les états attentionnels et les émotions en réponse aux stimuli visuels et auditifs.

Ce résultat a été obtenu en mesurant les réactions pupillaires liées aux émotions humaines. Il suggère que la perception visuelle suscite des émotions dans tous les états attentionnels, tandis que la perception auditive ne suscite des émotions que lorsque l'attention est portée sur les sons, montrant ainsi les différences dans les relations entre les états attentionnels et les émotions en réponse aux stimuli visuels et auditifs.

Dans la vie quotidienne, les émotions sont souvent suscitées par les informations que nous recevons de la perception visuelle et auditive. En tant que tel, de nombreuses études jusqu'à présent ont étudié le traitement émotionnel humain à l'aide de stimuli émotionnels tels que des images et des sons. Cependant, il n'était pas clair si un tel traitement émotionnel différait entre la perception visuelle et auditive.

L'équipe de recherche a demandé aux participants de l'expérience d'effectuer quatre tâches pour les alerter sur divers états d'attention lorsqu'ils étaient présentés avec des images et des sons émotionnellement excitants afin d'étudier comment les réponses émotionnelles différaient entre la perception visuelle et auditive. Ils ont également comparé les réponses pupillaires obtenues par les mesures des mouvements oculaires en tant qu'indicateur physiologique des réponses émotionnelles. En conséquence, la perception visuelle (images) a suscité des émotions lors de l'exécution de toutes les tâches, alors que la perception auditive (sons) ne le faisait que lors de l'exécution de tâches où l'attention était portée aux sons. Ces résultats suggèrent qu'il existe des différences dans la relation entre les états attentionnels et les réponses émotionnelles aux stimuli visuels et auditifs.

"Traditionnellement, les questionnaires subjectifs ont été la méthode la plus courante pour évaluer les états émotionnels. Cependant, dans cette étude, nous voulions extraire les états émotionnels pendant qu'une sorte de tâche était effectuée. Nous nous sommes donc concentrés sur la réponse pupillaire, qui reçoit beaucoup de l'attention comme l'un des signaux biologiques qui reflètent les états cognitifs. Bien que de nombreuses études aient rapporté des états attentionnels pendant l'excitation émotionnelle en raison de la perception visuelle et auditive, il n'y a eu aucune étude précédente comparant ces états à travers les sens, et c'est la première tentative, " dit l'auteur principal Satoshi Nakakoga, doctorant.

Le professeur Tetsuto Minami, chef de l'équipe de recherche, a déclaré : « Il y a plus d'opportunités d'entrer en contact avec divers médias visuels via les smartphones et autres appareils et d'évoquer des émotions à travers ces informations visuelles et auditives. Nous continuerons à enquêter sur la perception sensorielle qui suscite des émotions, y compris les effets des émotions suscitées sur le comportement humain."

Sur la base des résultats de cette recherche, l'équipe suggère la possibilité d'une nouvelle méthode de régulation des émotions dans laquelle les réponses émotionnelles suscitées par un certain sens sont favorisées ou supprimées par des stimuli provenant d'un autre sens. À terme, ils espèrent mettre en place cette nouvelle méthode de régulation des émotions pour traiter les troubles psychiatriques tels que la panique et les troubles de l'humeur.


Réponse de l'auteur

Révisions essentielles :

1) Veuillez répondre au besoin de classification des réponses aux différents sons vocaux utilisés dans l'étude. Une telle classification renforcerait la conclusion que l'intégration multisensorielle a réellement lieu dans pSTG.

Nous abordons maintenant l'analyse de la classification en détail (voir la réponse à l'examinateur 1, commentaire #1, ci-dessous, pour le texte complet).

Les examinateurs aimeraient également voir plus de détails sur les stimuli utilisés dans l'étude.

Nous avons édité la section Matériaux et méthodes pour fournir plus de détails et avons rendu les stimuli disponibles gratuitement sur https://doi.org/10.5061/dryad.v815n58

2) Veuillez préciser que les hypothèses utilisées dans le modèle déterminent ses résultats (voir commentaires examinateur 1).

Nous sommes entièrement d'accord et avons supprimé le modèle conceptuel du manuscrit et complètement modifié notre description du modèle neuronal (voir la réponse au relecteur 1, commentaire #2, ci-dessous, pour plus de détails).

3) Veuillez aborder le rôle de l'attention dans votre discussion des résultats (voir les commentaires de l'examinateur 2).

Nous intégrons maintenant une discussion sur l'attention (voir la réponse à l'examinateur 2, commentaire n° 1, ci-dessous, pour plus de détails).

4) Dans la discussion, veuillez aborder les limitations potentielles associées à l'utilisation d'un ensemble limité de stimuli et à l'utilisation d'un discours exclusivement clair dans l'étude.

Nous avons effectué de nouvelles expériences avec un ensemble de stimuli plus large (voir le critique 2, commentaire #1) et avons ajouté du matériel sur l'utilisation d'un discours clair (voir le critique 2, commentaire #2 pour le texte complet).

Veuillez également commenter les effets multisensoriels précoces et ultérieurs et citer l'article de Peelle et Sommers, 2015.

Nous commentons maintenant les effets multisensoriels précoces par rapport aux effets multisensoriels ultérieurs et citons l'article de Peelle et Sommers, 2015 (voir le critique 2, commentaire n° 3 pour le texte complet).

Réviseur n°1 :

[…] 1) L'affirmation principale de l'article est que l'information visuelle contribue à la prédiction multisensorielle, et que cela se produit dans pSTG. Les auteurs notent dans la discussion qu'ils n'ont fait aucune classification des sons de la parole, mais il semble que ce soit l'analyse qui serait nécessaire pour vraiment démontrer que l'intégration multisensorielle se produit réellement dans pSTG (le modèle neuronal qui est présenté ne parler de la classification, mais seulement des changements d'amplitude du signal). Par exemple, si l'information visuelle contenue dans la bouche des mots principaux permet l'exclusion de 80 % des phonèmes, cela devrait alors se refléter dans la précision de la classification, n'est-ce pas ? Par exemple, comparer la classification des phonèmes pour l'audio uniquement (vérité terrain) à la fenêtre de temps pour les mots principaux de la bouche avant le début de l'information auditive.

Pour être clair - je pense que l'article apporte déjà une contribution importante - c'est juste que le statut probant de l'affirmation selon laquelle l'intégration multisensorielle se produit dans pSTG suggérerait un test plus direct, ou au moins une discussion sur les prédictions spécifiques faites pour un analyse de classification par la théorie. (Je pense que si les données de classification pouvaient être incluses, ce serait mieux, mais je ne vois pas cela comme une condition sine qua non pour la publication).

Nous sommes d'accord avec l'examinateur 1 que l'analyse de classification serait un test important pour le modèle neuronal présenté dans l'article. Nos données existantes ne permettent pas une analyse de classification, nous présentons donc maintenant ce que l'examinateur 1 suggère comme une alternative raisonnable, à savoir "une discussion sur les prédictions spécifiques faites pour une analyse de classification par la théorie". De la discussion :

« Alors que le modèle neuronal fournit une explication sur la façon dont l'amélioration et la suppression pourraient conduire à une meilleure perception de la parole bruyante, nous n'avons pas directement testé cette explication : seule la parole claire a été présentée dans les expériences d'enregistrement neuronal, et puisque la parole claire a été comprise presque parfaitement , il n'a pas été possible de corréler les réponses neuronales avec la perception. […] Avec de grandes électrodes d'enregistrement, le degré de suppression mesuré à travers les populations devrait être en corrélation avec le SNR pSTG (une suppression plus importante entraînant un SNR plus important) et la précision de la perception.

2) Le résultat du modèle neuronal semble être entièrement déterminé par les hypothèses utilisées dans la construction du modèle - il convient simplement de préciser qu'il s'agit d'une démonstration de principe des hypothèses (pour le distinguer d'un modèle où les premiers principes qui ne faire explicitement des hypothèses sur les augmentations ou les diminutions du signal en fonction de la modalité « donne lieu » aux phénomènes observés).

Nous sommes tout à fait d'accord. Nous avons entièrement supprimé le « modèle conceptuel » du manuscrit, supprimé la référence au modèle neuronal du titre du manuscrit et précisé dans la discussion que le modèle neuronal est un modèle explicatif post-hoc (plutôt qu'un modèle dérivé du premier des principes). Cela dit, le modèle neuronal fait un certain nombre de prédictions intéressantes qui ne manqueront pas de stimuler d'autres expériences, nous pensons donc qu'il s'agit d'une partie précieuse du manuscrit.

Réviseur #2 :

[…] 1) Ma principale préoccupation avec le travail serait que l'expérience impliquait l'utilisation d'un ensemble très limité de stimuli - deux mots d'orientation et deux mots d'orientation. En fin de compte, les résultats sont convaincants, mais je me demande dans quelle mesure nous pouvons être sûrs que ces résultats se généraliseraient à un ensemble plus large de stimuli, y compris la parole naturelle. Par exemple, je me suis demandé quels effets la répétition de ces stimuli pourrait avoir sur la façon dont les sujets prêtent attention ou interagissent avec les stimuli. Je veux dire, je peux imaginer que dès que le sujet voit la bouche diriger le stimulus, il sait quel mot audio va venir ensuite, puis il accorde un peu moins d'attention, ce qui entraîne des réponses plus petites. Ils ne reçoivent pas autant d'avertissement pour les stimuli vocaux principaux, donc ils ne baissent pas leur attention. J'aurais pensé que cela pourrait valoir la peine d'être discuté et suggérerais également que les auteurs sont très clairs sur leurs stimuli dans le corps principal du manuscrit.

Nous sommes entièrement d'accord avec cette critique concernant notre ensemble de stimuli limité. Comme suggéré par l'examinateur, en plus de décrire les stimuli dans Matériaux et méthodes, nous écrivons maintenant dans le corps principal du manuscrit (section Résultats) :

"Dans la première expérience perceptive, 40 participants ont reçu 16 stimuli de mots consistant en quatre exemples de stimuli (deux mots principaux et deux mots principaux) dans chacun des quatre formats (clair auditif, bruyant auditif, clair audiovisuel, bruyant audio-visuel)."

« Contrairement aux études perceptives, où une parole claire et bruyante était présentée, dans les expériences neuronales, seule une parole claire était présentée afin de maximiser la taille de la réponse neurale. Les exemples de stimulus consistaient en les deux mots principaux et le deux mots vocaux utilisés dans la première expérience perceptive présentée dans des formats auditifs uniquement, visuels uniquement et audiovisuels (douze stimuli au total)."

Pour aider à résoudre ce problème, nous avons effectué une nouvelle expérience en utilisant des stimuli supplémentaires :

"Dans la deuxième expérience de perception, 46 participants ont reçu 40 stimuli de mots différents de ceux utilisés dans la première expérience de perception, consistant en 10 exemples de stimulus (cinq mots principaux et cinq mots principaux) présentés dans chacun des quatre formats ."

Les résultats de cette nouvelle expérience reproduisent et étendent nos découvertes à un ensemble de stimulus beaucoup plus large :

« Pour ces mots dominants, le fait de voir le visage du locuteur a augmenté de 53 % l'intelligibilité de la parole auditive bruyante… le type de mot était significatif (p < 10 -16 ) stimulé par l'avantage plus important de la parole visuelle pour les mots dominants."

Le fait que nos résultats se reproduisent dans un échantillon différent et plus grand est une confirmation importante. Cependant, il est vrai que nous ne pouvons pas exclure une explication alternative. Nous incluons maintenant une nouvelle section dans la discussion :

« Le rôle de l'attention temporelle

Le modèle neuronal simple suppose que l'avance visuelle de la parole offre la possibilité de déterminer les phonèmes auditifs compatibles et d'exclure les phonèmes auditifs incompatibles avant la disponibilité des informations auditives de la voix. […] Dans les expériences d'enregistrement neuronal, il n'y avait que quatre exemples de stimulus, de sorte que les participants auraient pu apprendre le moment relatif du discours auditif et visuel pour chaque stimulus individuel, entraînant des différences de réponse neuronale dues à l'attention temporelle.

2) Une autre limitation - que les auteurs reconnaissent - était l'utilisation d'un discours juste clair dans les expériences d'électrophysiologie. Je suppose que cela pourrait valoir la peine de mentionner cela un peu plus dans la discussion pour deux raisons : ), et ii) cela jette un léger doute sur l'idée que ce que nous voyons est véritablement multisensoriel - je veux dire que le V n'est pas très utile sur le plan comportemental pour une parole claire. Cela dit, j'apprécie que le résultat de la figure 4B fournisse la preuve d'un effet multisensoriel.

Nous convenons que c'est un point très important. Nous avons ajouté une nouvelle figure 5E et fournissons des informations supplémentaires à ce sujet dans la discussion :

"Le modèle post hocneural fournit une explication qualitative de la diminution de la réponse neuronale aux mots avec une longueur d'avance visuelle. […] Ce processus est illustré schématiquement pour les "da" auditifs bruyants et les "da" audiovisuels bruyants sur la figure 5E."

Dans une autre section de la discussion :

« Alors que le modèle neuronal fournit une explication sur la façon dont l'amélioration et la suppression pourraient conduire à une meilleure perception de la parole bruyante, nous n'avons pas directement testé cette explication : seule une parole claire a été présentée dans les expériences d'enregistrement neuronal, et puisque la parole claire a été comprise presque parfaitement , il n'a pas été possible de corréler les réponses neuronales avec la perception. […] La prédiction du modèle est que le SNR dans le pSTG devrait être plus élevé pour les mots audiovisuels bruyants que pour les mots uniquement auditifs bruyants, et plus une longueur d'avance que des mots de premier plan sans un."

3) J'ai pensé qu'il pourrait être utile de mentionner la revue Peelle et Sommers, 2015 et peut-être de spéculer sur la question de savoir si les résultats que nous voyons ici pourraient refléter des effets multisensoriels précoces par rapport aux effets multisensoriels ultérieurs - ou si vous pensez que c'est un cadre utile du tout ?

Nous citons la critique de Peele et Somers et écrivons maintenant dans la discussion :

« Dans une étude antérieure, nous avons démontré que la parole audiovisuelle améliore sélectivement l'activité dans les régions du cortex visuel précoce représentant la bouche du locuteur (Ozker et al., 2018b). […] Étant donné que le cortex dans le gyrus et le sulcus temporaux supérieurs reçoit des entrées des stades antérieurs des hiérarchies de traitement auditif et visuel, il semble probable que les informations sur les mouvements visuels de la bouche arrivent dans pSTG à partir de régions plus postérieures du cortex temporal latéral (Bernstein et al., 2008 Zhu et Beauchamp, 2017), tandis que les informations sur le contenu phonémique auditif arrivent dans pSTG à partir des zones de la ceinture postérieure du cortex auditif (Leaver et Rauschecker, 2016).


La charge perceptive influence la perception de l'espace auditif dans la séquelle ventriloque

Une période d'exposition à des trains de stimuli auditifs et visuels simultanés mais spatialement décalés peut induire un changement temporaire dans la perception de la localisation sonore. Ce phénomène, connu sous le nom de « séquelle ventriloque », reflète un réalignement des représentations spatiales auditives et visuelles telles qu'elles se rapprochent de l'alignement perceptif malgré leur discordance spatiale physique. De tels changements dynamiques des représentations sensorielles sont susceptibles de sous-tendre la capacité du cerveau à s'adapter à la discordance intersensorielle produite par les erreurs sensorielles (en particulier dans la localisation du son) et la variabilité de la transduction sensorielle. On ignore actuellement si ces changements plastiques induits par l'adaptation à des entrées spatialement disparates se produisent automatiquement ou s'ils dépendent de l'attention sélective aux stimuli visuels ou auditifs. Ici, nous démontrons que des séquelles spatiales auditives robustes peuvent être induites même en présence d'un stimulus visuel concurrent. Surtout, nous avons constaté que lorsque l'attention est dirigée vers les stimuli concurrents, le schéma des séquelles est modifié. Ces résultats indiquent que l'attention peut moduler la séquelle ventriloque.


Que sait-on de la façon dont les stimuli visuels/les idées préconçues influencent la perception auditive ? - Psychologie

Seuils
Selon Schmeidler et la grande majorité des psychologues étudiant les phénomènes subliminaux, un seuil est le point auquel un stimulus est perçu 50% du temps. Par exemple, si mon seuil ural devait être testé, on me jouerait de nombreux sons à des volumes variables. Pour signaler que j'avais entendu le son - je percevais le stimulus - je levais la main ou j'appuyais sur un bouton, tout ce que les recherches m'avaient demandé de faire quand j'entendais un son. En contrôlant et en suivant la fréquence du son émis, les chercheurs sont capables de trouver le volume auquel j'entends un son - perçoivent le stimulus - la moitié du temps. Ce point est mon seuil auditif. Une définition fonctionnelle du seuil est primordiale. Il agit comme la base scientifique de la recherche dans ce domaine, un socle sur lequel toutes les données sont définies. Pour certains, c'est là que commencent les problèmes de la recherche subliminale. xxxx (suivez ce lien pour discuter de ces problèmes)

Perception visuelle subliminale

Une série de riens devient quelque chose
Lorsqu'une personne reçoit une image flash, le cerveau maintient un type d'"empreinte ou d'"image d'après" du stimulus. C'est-à-dire que, malgré le stimulus tel qu'il a été montré puis supprimé, pendant une courte période, cette image est toujours vue par le cerveau. Au premier flash, le sujet peut se souvenir de la forme du début d'un mot. Le flash suivant (très rapproché) le cerveau crée une empreinte du milieu du mot. En continuant ainsi, un sujet peut reconstituer ces empreintes - ces 'séries de riens - et former/reconnaître le mot dans son ensemble. (Schmeidler 127)

Comment fonctionne le masquage visuel
Le masquage de la perception visuelle est généralement la suppression de "l'empreinte" persistante sur le cerveau du sujet créée par le stimulus cible. Une image absurde (une série de lettres qui n'épelent rien, un motif de ligne, etc.) est flashée immédiatement après l'image cible. Cela laisse l'empreinte de l'image non-sens persistante par opposition à celle de l'image cible. (Epley 7)


Perception auditive subliminale

Ne volez pas !!
De nombreux grands magasins utilisent des messages subliminaux pour décourager le vol. Ils utilisent des messages audio masqués dans la "musique du magasin" (de nombreux magasins diffusent de la musique via leur système d'interphone). Les messages audio masqués sont généralement compressés ou accélérés à un degré qui les rend inintelligibles, même s'ils sont supraliminaux. Le message est alors masqué par la diffusion, dans ce cas, de musique. Cette musique est le canal principal - c'est le plus facile à percevoir. Le message caché devient le canal secondaire. (Moore) Cette tactique n'est peut-être pas futile, "de nombreux résultats indiquent non seulement une analyse du contenu du canal secondaire au niveau des mots individuels, mais une courte persistance de la mémoire pour ce contenu" (Greenwald 5). Perçu ou non, la controverse persiste quant à savoir si cela influencera ou non son comportement.

Difficultés de recherche

Problèmes avec les seuils
Pour commencer, les psychologues ont essentiellement massé la théorie des seuils pour que la perception subliminale puisse « exister sous une forme qui puisse être étudiée ». Dans les années 1800, Herbart et Fechner ont utilisé le terme limen comme distinction entre conscient et inconscient. Une grande partie des recherches menées au cours des années 1950 et suivantes est basée sur une division distincte du « seuil » en deux parties : le seuil sensoriel et le seuil perceptif : les stimuli qui sont « perceptibles par le corps, mais pas conscients » et les stimuli qui sont « rendu conscients », respectivement. C'est le seuil perceptif qui est utilisé dans le domaine de la recherche sur la perception subliminale (Erdelyi 3). Ainsi, ce que les chercheurs étudient, ce sont des stimuli qui sont au-dessus du seuil sensoriel, mais en dessous du seuil perceptif (le point auquel un sujet peut percevoir un stimulus 50 % du temps). Cela suscite un débat car cela contourne tout le concept d'une dichotomie entre conscient et inconscient, le concept exact de subliminal.

On sait déjà dans d'autres domaines de recherche que nous recevons des informations dans notre cerveau inférieur qui ne parviennent jamais au cortex. Le cortex est l'endroit où les choses sont "prises conscientes". C'est là que la perception sensorielle entre en jeu. On estime que pour chaque million de stimuli qui passent le seuil sensoriel, un stimulus passe le seuil perceptif (Norr 161). C'est ainsi que s'expliquent les subtilités du comportement humain. Les humains en font tout simplement trop pour être conscients de tout cela. Comme le souligne McConnell, « Nous sommes une masse ambulante de seuils ».

Chaque personne a son propre ensemble unique de seuils. Mesurer le seuil de chaque sujet avant de mener les expériences est à la fois chronophage et redondant, mais tient compte de ces particularités. Cependant, non seulement les seuils varient d'une personne à l'autre, mais ils varient également de jour en jour au sein d'un même individu. Donc ce que je ne peux pas entendre aujourd'hui, je peux l'entendre demain et vice versa (McConnell, Moore). Sans seuil statique, ni fondement statistique, les recherches menées sur la perception subliminale aujourd'hui deviennent invalides demain.

Erdelyi (3) soulève un point intrigant. Il affirme que ces problèmes de seuils ne sont pas des obstacles méthodologiques, mais plutôt des défauts conceptuels. Cela rappelle à la communauté qu'en effet cette recherche n'est pas vraiment "subliminale".

Attention
L'attention joue un rôle sur la recherche de la perception subliminale. Il est capable de fausser les résultats parce que le sujet est chargé d'écouter un son ou de rechercher une vue. En essayant de déterminer si une personne peut être influencée de manière subliminale dans la vie de tous les jours, la personne ne cherchera pas ou n'écoutera pas activement les stimuli/messages supposés. Pour contrer cela, les plans d'étude doivent garder le sujet inconscient des stimuli cibles. (Cohen 55 Shiffrin)


Remarques finales

Comme il ressort de ce qui précède, nous avons beaucoup appris sur la façon dont les processus auditifs comportementaux, neuronaux et perceptuels peuvent être influencés par la vision, et plus généralement sur l'ubiquité et l'utilité des interactions multisensorielles pour façonner nos actions et nos perceptions. Le thème général de ce travail est que, dans des circonstances naturalistes, nous sommes presque continuellement confrontés à des informations provenant de plusieurs sens et que le cerveau utilise à la fois des informations redondantes et complémentaires afin de générer des avantages comportementaux adaptatifs et de créer une réalité perceptive cohérente. Compte tenu de cela, il n'est pas très surprenant que le cerveau combine et intègre des informations à travers les sens, et que cette convergence et l'intégration qui en résulte se produisent à un certain nombre d'étapes de traitement, y compris celles que l'on croyait autrefois dédiées à la fonction unisensorielle (c'est-à-dire, auditive seule).

Bien que l'on ait beaucoup appris sur les influences visuelles sur les processus auditifs, un certain nombre de questions et de domaines de recherche future restent sans réponse. Les progrès des méthodes neurophysiologiques ont permis d'enregistrer à partir de grands ensembles neuronaux dans plusieurs zones cérébrales simultanément dans des modèles animaux, et fourniront sans aucun doute des informations essentielles sur l'encodage sensoriel et le transfert d'informations. Such approaches make feasible the ability to see the transformations of information that characterize moving up scales of analysis and computation (e.g., from individual neurons to local circuits). In addition, they enable these transforms to be captured as one moves from node to node within the processing hierarchy and as information moves from sensory representation to decision. Such a capacity will also allow greater insight into the dialogue between “bottom up” and “top down” processes that ultimately shape these computations. As alluded to previously, application of machine learning to carry out sophisticated pattern analyses on both neurophysiological and imaging datasets has already provided significant insight into the nature of neural representations, most notably when these representations are sparse and highly distributed. Continued efforts in this area should significantly add to our knowledge of how auditory representations are influenced by vision. In keeping with the computational theme, the continued development of biologically plausible models such as those that attempt to instantiate Bayesian causal inference processes will also shed great light on these questions. Finally, and as should be clear from the final sections, ongoing efforts need to better elucidate how audiovisual function is altered in clinical contexts, and how such alterations relate to core domains of dysfunction. For, with such knowledge in hand, we can begin to build and apply remediation approaches that are founded in improving sensory function (and multisensory integration), and that have the potential for having cascading effects into higher-order cognitive and executive function domains.


VOIR l'article

  • 1 Pain and Perception Lab, IIMPACT in Health, The University of South Australia, Adelaide, SA, Australia
  • 2 Neuroscience Research Australia, Randwick, NSW, Australia
  • 3 Crossmodal Research Laboratory, Department of Experimental Psychology, University of Oxford, Oxford, United Kingdom

The sounds that result from our movement and that mark the outcome of our actions typically convey useful information concerning the state of our body and its movement, as well as providing pertinent information about the stimuli with which we are interacting. Here we review the rapidly growing literature investigating the influence of non-veridical auditory cues (i.e., inaccurate in terms of their context, timing, and/or spectral distribution) on multisensory body and action perception, and on motor behavior. Inaccurate auditory cues provide a unique opportunity to study cross-modal processes: the ability to detect the impact of each sense when they provide a slightly different message is greater. Additionally, given that similar cross-modal processes likely occur regardless of the accuracy or inaccuracy of sensory input, studying incongruent interactions are likely to also help us predict interactions between congruent inputs. The available research convincingly demonstrates that perceptions of the body, of movement, and of surface contact features (e.g., roughness) are influenced by the addition of non-veridical auditory cues. Moreover, auditory cues impact both motor behavior and emotional valence, the latter showing that sounds that are highly incongruent with the performed movement induce feelings of unpleasantness (perhaps associated with lower processing fluency). Such findings are relevant to the design of auditory cues associated with product interaction, and the use of auditory cues in sport performance and therapeutic situations given the impact on motor behavior.


Author response

Essential revisions:

1) Please address the need for classification of responses to different speech sounds used in the study. Such classification would strengthen the conclusion that multisensory integration actually takes place in pSTG.

We now address classification analysis in detail (see response to reviewer 1, comment #1, below, for complete text).

The reviewers would also like to see more details of the stimuli used in the study.

We have edited the Materials and methods section to provide more detail and made the stimuli freely available at https://doi.org/10.5061/dryad.v815n58

2) Please clarify that the assumptions used in the model determine its results (see comments reviewer 1).

We agree completely and have deleted the conceptual model from the manuscript and completely changed our description of the neural model (see response to reviewer 1, comment #2, below, for complete details).

3) Please address the role of attention in your discussion of the results (see comments from reviewer 2).

We now incorporate a discussion of attention (see response to reviewer 2, comment #1, below, for complete details).

4) In the Discussion, please address potential limitations associated with the use of a limited set of stimuli and the use of exclusively clear speech in the study.

We have performed new experiments with a larger stimulus set (see reviewer 2, comment #1) and have added material about the use of clear speech (see reviewer 2, comment #2 for complete text).

Also, please comment on early vs. later multisensory effects and cite the Peelle and Sommers, 2015 paper.

We now comment on early vs. later multisensory effects and cite the Peelle and Sommers, 2015 paper (see reviewer 2, comment #3 for complete text).

Reviewer #1:

[…] 1) The core claim of the paper is that visual information contributes to multisensory prediction, and that this occurs in pSTG. The authors note in the Discussion that they did not do any classification of the speech sounds, but it seems that is the analysis that would be required to really demonstrate that the multisensory integration is actually happening in pSTG (the neural model that is presented does not speak to classification, but just to changes in signal amplitude). For instance, if the visual information in mouth leading words allows for exclusion of 80% of phonemes, then this should be reflected in classification accuracy correct? E.g., comparing classification of phonemes for audio only (ground truth) to the window of time for mouth leading words prior to onset of auditory information.

To be clear – I think that the paper makes an important contribution already – it’s just that the evidentiary status of the claim that multisensory integration is occurring in pSTG would suggest a more direct test, or at least some discussion about the specific predictions made for a classification analysis by the theory. (I do think if the classification data could be included it would be better, but I don't see this as a condition sin qua non for publication).

We agree with reviewer 1 that classification analysis would be an important test for the neural model presented in the paper. Our existing data does not allow for a classification analysis, so we now present what reviewer 1 suggests as a reasonable alternative, namely "discussion about the specific predictions made for a classification analysis by the theory". From the Discussion:

“While the neural model provides an explanation for how enhancement and suppression could lead to improved perception of noisy speech, we did not directly test this explanation: only clear speech was presented in the neural recording experiments, and since the clear speech was understood nearly perfectly, it was not possible to correlate neural responses with perception. […] With large recording electrodes, the degree of suppression measured across populations should correlate with pSTG SNR (greater suppression resulting in greater SNR) and perceptual accuracy.”

2) The outcome of the neural model seems to be entirely driven by the assumptions used in constructing the model-this should just be clarified that it is a demonstration of principle of the assumptions (to distinguish this from a model where first principles that do not explicitly make assumptions about increases or decreases in signal as a function of modality 'gives rise' to the observed phenomena).

We agree completely. We have deleted the "conceptual model" entirely from the manuscript, removed the reference to the neural model from the title of the manuscript and made clear in the Discussionthat the neural model is a post-hoc explanatory model (rather than one derived from first-principles). That said, the neural model makes a number of interesting predictions that are sure to spur further experiments so we feel it is a valuable part of the manuscript.

Reviewer #2:

[…] 1) My main concern with the work would be that the experiment involved the use of only a very limited set of stimuli – two mouth-leading and two voice-leading words. Ultimately the results are compelling, but I wonder about how confident we can be that these results would generalize to a broader set of stimuli, including natural speech. For example, I wondered about what effects repeating these stimuli might have on how the subjects are paying attention or otherwise engaging with the stimuli. I mean I can imagine that as soon as the subject sees the mouth leading stimulus, they know what audio word is going to come next and then they pay a bit less attention resulting in smaller responses. They don't get as much forewarning for the voice leading stimuli, so they don't drop their attention. I would have thought that might be worth discussing and would also suggest that the authors are very clear about their stimuli in the main body of the manuscript.

We fully agree with this critique about our limited stimulus set. As suggested by the reviewer, in addition to describing the stimuli in Materials and methodswe now write in the main body of the manuscript (Results section):

"In the first perceptual experiment, 40 participants were presented with 16 word stimuli consisting of four stimulus exemplars (two mouth-leading words and two voice-leading words) in each of the four formats (clear auditory, noisy auditory, clear audiovisual, noisy audiovisual)."

"In contrast to the perceptual studies, where both clear and noisy speech was presented, in the neural experiments only clear speech was presented in order to maximize the size of the neural response. The stimulus exemplars consisted of the two mouth-leading words and the two voice-leading words used in the first perceptual experiment presented in auditory-only, visual-only, and audiovisual formats (twelve total stimuli)."

To help address this concern, we have performed a new experiment using additional stimuli:

"In the second perceptual experiment, 46 participants were presented with 40 word stimuli different than those used in the first perceptual experiment, consisting of 10 stimulus exemplars (five mouth-leading words and five mouth-leading words) presented in each of the four formats."

The results of this new experiment reproduce and extend our findings to a much larger stimulus set:

"For these mouth-leading words, viewing the face of the talker increased the intelligibility of noisy auditory speech by 53%…For voice-leading words, viewing the face of the talker provided only a 37% accuracy increase…The interaction between format and word type was significant (p < 10 -16 ) driven by the larger benefit of visual speech for mouth-leading words."

The fact that our findings replicate in a different and larger sample is an important confirmation. However, it is true that we cannot rule out alternative explanation. We now include a new section in the Discussion:

“The Role of Temporal Attention

The simple neural model assumes that the visual speech head start provides an opportunity to rule in compatible auditory phonemes and rule out incompatible auditory phonemes in advance of the availability of auditory information from the voice. […] In the neural recording experiments, there were only four stimulus exemplars, so participants could have learned the relative timing of the auditory and visual speech for each individual stimulus, resulting in neural response differences due to temporal attention.”

2) Another limitation – that the authors acknowledge – was the use of just clear speech in the electrophysiology experiments. I guess it might be worth mentioning that a bit more in the Discussion for two reasons: i) it might be worth highlighting that one might expect to see larger suppressive multisensory effects in (somewhat) noisy speech (in the section on model predictions for example), and ii) it casts a slight doubt on the idea that what we are seeing is genuinely multisensory – I mean the V is not very behaviorally very helpful for clear speech. That said, I do appreciate the result in Figure 4B provides evidence for a multisensory effect.

We agree that this is a very important point. We have added a new Figure 5E and provide additional material about this in the Discussion:

"The post hocneural model provides a qualitative explanation for the decreasedneural response to words with a visual head start. […] This process is illustrated schematically for noisy auditory "da" and noisy audiovisual "da" in Figure 5E."

In a different section of the Discussion:

"While the neural model provides an explanation for how enhancement and suppression could lead to improved perception of noisy speech, we did not directly test this explanation: only clear speech was presented in the neural recording experiments, and since the clear speech was understood nearly perfectly, it was not possible to correlate neural responses with perception. […] The model prediction is that the SNR in the pSTG should be greater for noisy audiovisual words than for noisy auditory-only words, and greater for mouth-leading words with a visual head start than voice-leading words without one."

3) I thought it might be worth mentioning the Peelle and Sommers, 2015 review and perhaps speculating about whether the results we are seeing here might reflect early vs. later multisensory effects – or whether you think that's a useful framework at all?

We cite the Peele and Somers review and now write in the Discussion:

“In an earlier study, we demonstrated that audiovisual speech selectively enhances activity in regions of early visual cortex representing the mouth of the talker (Ozker et al., 2018b). […] Since cortex in superior temporal gyrus and sulcus receives inputs from earlier stages of the auditory and visual processing hierarchies, it seems probable that information about visual mouth movements arrives in pSTG from more posterior regions of lateral temporal cortex (Bernstein et al., 2008 Zhu and Beauchamp, 2017), while information about auditory phonemic content arrives in pSTG from posterior belt areas of auditory cortex (Leaver and Rauschecker, 2016).”


3. Résultats

The largest reduction in pain ratings from the control condition could be observed after the 10-Hz entrainment session in both the auditory and visual groups, followed by the 8 Hz then the 12-Hz condition. There were no significant changes or correlations observed in the questionnaire scores.

3.1 Pain ratings – auditory entrainment group

Taking into account baseline pain ratings as a covariate and the stimulation frequency, order of entrainment, and visit order as factors, the mixed linear model calculated that pain ratings succeeding the 8-, 10- and 12-Hz entrainment conditions were all significantly different from all three control conditions (t(31) = 4.90, p < 0,001 t(31) = 5.61, p < 0,001 t(31) = 4.85, p < 0,001, respectivement). Adjusted mean pain ratings following entrainment were, respectively, 0.51(SE 0.10), 0.58 (SE 0.10) and 0.5 (SE 0.10) points lower than the control on the numeric ratings scale (Fig. 2). No significant difference was detected between the three auditory entrainment conditions when refitting the model with a Bonferroni correction (Table 1).

(UNE)
Average absolute pain ratings – auditory condition
Condition Référence Contrôler 8 Hz 10 Hz 12 Hz
Absolute values 6.74 6.62 6.08 6.05 6.08
(B)
Adjusted pain ratings – auditory condition versus control
Condition Adjusted differences Standard error t Effect size Significance (two-tailed)
8 Hz 0.51 0.10 4.90 0.76 p < 0.001
10 Hz 0.58 0.10 5.61 0.80 p < 0.001
12 Hz 0.51 0.10 4.85 0.77 p < 0.001

3.2 Pain ratings – visual entrainment group

The mixed linear model established that, accounting for covariates and factors, the pain ratings in the entrainment conditions (8, 10 and 12 Hz) were all significantly different from control (t(31) = 2.28, p < 0.01 t(31) = 5.32, p < 0,001 t(31) = 2.59, p < 0.01, respectively). The model-corrected pain ratings of the 8-, 10- and 12-Hz conditions were on average 0.6, 1.1 and 0.3 points lower on the pain rating scale than the control, respectively. Additionally, when refitting the model, pain ratings were significantly different in the 10-Hz condition compared to the 8-Hz (t(31) = 2.22 p < 0.01) and 12-Hz (t(31) = 4.04, p < 0.001) condition. The 8- and the 12-Hz conditions did not differ from each other (p = 0.287) (Fig. 3 Table 2).

(UNE)
Average absolute pain ratings – visual condition
Condition Référence Contrôler 8 Hz 10 Hz 12 Hz
Absolute values 6.68 6.52 5.94 5.52 6.17
(B)
Adjusted pain ratings – visual condition versus control
Condition Adjusted differences Standard error t Effect size Significance (two-tailed)
8 Hz 0.60 0.20 2.28 0.59 p < 0.01
10 Hz 1.12 0.18 5.32 1.01 p < 0,001
12 Hz 0.35 0.09 2.59 0.70 p < 0.01

3.3 Questionnaire results

A mixed linear model was applied to the KSS, POMS and STAI-State scores of the 8, 10, and 12-Hz condition comparing them to the control scores. The model revealed no significant score changes compared to the control condition in both the visual and auditory groups. The pre-experimental questionnaires showed no significant correlation to the change in pain ratings from baseline across all three conditions, in both groups.


Étude 2

In this study, we attempted to reduce the variability in SOAs between auditory and visual stimuli across browsers and systems, by using a different approach. In Study 1, the code we wrote merely requested that the auditory and visual stimuli to be presented concurrently, without monitoring when the stimuli were actually presented. As we discussed above, previous research suggested that there can be a nontrivial lag between executing a command to present an audio stimulus and the stimulus’s onset, so the overall finding of a substantial lag between visual and auditory onsets was perhaps not surprising.

In Study 2, we used JavaScript or Flash start a sound playing, and then used an event listener, a procedure that runs when triggered by an event such as a mouse click or a screen refresh, to check whether the sound is actually reported as playing. As soon as it was detected as playing, the visual stimulus was presented. This gives less control over the precise point at which a stimulus starts playing, but it may reduce cross-modal asynchrony. The design is given in the following pseudocode:

Begin a new trial with a black screen

Play a sine wave mp3 lasting 1,000 ms

Monitor whether a sound is playing

If a sound is playing, make white square visible

Monitor whether a sound is complete

If the sound is complete, make white square invisible

In JavaScript, the command to make the square visible was bound to the “play” event for the sine wave. In Flash, an on-interframe Event Listener monitored the position of the playhead in a sound channel. When the playhead’s position was greater than 0—that is, when the sound was playing—the square was made visible.

Résultats

The results can be seen in Table 2, and the cumulative distribution of SOAs can be seen in Fig. 2.

Cumulative frequency distribution of SOAs in Study 2 across three browsers, two implementations and two computer systems. The left panel shows JavaScript performance, and the right panel shows Flash performance. Solid lines show performance on the desktop PC, and the dotted lines show performance on the laptop

Auditory duration

As before, the consistency of the auditory presentation durations was very good. The results are very similar to those found in Study 1.

Visual duration

The binding of the visual stimulus onset and offset to the audio onset and offset led to substantial variability in visual durations. These included presentation durations that were slightly below the desired 1,000 ms with Flash and some very large excessive durations under JavaScript.

SOA between auditory and visual onset

The SOAs here were no better than those in Study 1, and variability across system–browser combinations was higher.

Discussion

In this study, we used event listeners to bind the onset of the visual stimulus to the presentation of the auditory stimulus. The aim was to circumvent the well-known issue of unmeasurable lags between command execution and the actual onset of an auditory stimulus. It did not work.

This failure is perhaps not surprising: A substantial amount of sound processing is devolved to a computer’s sound card, and browser-based code has limited access to system-related information. As such, it appears that what we monitored was not the exact onset of the auditory stimulus, but either some proxy within the JavaScript or Flash environment, which may not have been related to the actual behavior of the soundcard, or, at least in some cases, a report from the soundcard that was subject to delay and variability in the timing of its presentation to the runtime environment of the JavaScript or Flash code.

It also seems clear, particularly in JavaScript, that the event triggered by sound completion occurred some time after the sound had finished, meaning that the visual stimulus stayed on the screen for substantially longer than it should. Overall, then, this approach appears to be no better, and may be worse, than that in Study 1.


The relationship between looking/listening and human emotions

(a) Pupillary responses during presentation of emotionally arousing pictures (b) Pupillary responses during presentation of emotionally arousing sounds Credit: Toyohashi University Of Technology.

Researchers at Toyohashi University of Technology report that the relationship between attentional states in response to pictures and sounds and the emotions elicited by them may be different in visual perception and auditory perception. This result suggests visual perception elicits emotions in all attentional states, whereas auditory perception elicits emotions only when attention is paid to sounds, thus showing the differences in the relationships between attentional states and emotions in response to visual and auditory stimuli.

This result was obtained by measuring pupillary reactions related to human emotions. It suggests that visual perception elicits emotions in all attentional states, whereas auditory perception elicits emotions only when attention is paid to sounds, thus showing the differences in the relationships between attentional states and emotions in response to visual and auditory stimuli.

In daily life, emotions are often elicited by the information we receive from visual and auditory perception. As such, many studies up until now have investigated human emotional processing using emotional stimuli such as pictures and sounds. However, it was not clear whether such emotional processing differed between visual and auditory perception.

The research team asked participants in the experiment to perform four tasks to alert them to various attentional states when they were presented with emotionally arousing pictures and sounds in order to investigate how emotional responses differed between visual and auditory perception. They also compared the pupillary responses obtained by eye movement measurements as a physiological indicator of emotional responses. As a result, visual perception (pictures) elicited emotions during the execution of all tasks, whereas auditory perception (sounds) did so only during the execution of tasks where attention was paid to the sounds. These results suggest that there are differences in the relationship between attentional states and emotional responses to visual and auditory stimuli.

"Traditionally, subjective questionnaires have been the most common method for assessing emotional states. However, in this study, we wanted to extract emotional states while some kind of task was being performed. We therefore focused on pupillary response, which is receiving a lot of attention as one of the biological signals that reflect cognitive states. Although many studies have reported about attentional states during emotional arousal owing to visual and auditory perception, there have been no previous studies comparing these states across senses, and this is the first attempt," says lead author Satoshi Nakakoga, Ph. D. student.

Professor Tetsuto Minami, the leader of the research team, said, "There are more opportunities to come into contact with various visual media via smartphones and other devices and to evoke emotions through that visual and auditory information. We will continue investigating about sensory perception that elicits emotions, including the effects of elicited emotions on human behavior."

Based on the results of this research, the team suggests the possibility of a new method of emotion regulation in which the emotional responses elicited by a certain sense are promoted or suppressed by stimuli input from another sense. Ultimately, they hope to establish this new method of emotion regulation to treat psychiatric disorders such as panic and mood disorders.


Remarques finales

As should be clear from the above, we have learned a great deal about how auditory behavioral, neural, and perceptual processes can be influenced by vision, and more generally about the ubiquity and utility of multisensory interactions in shaping our actions and perceptions. The general theme of this work is that under naturalistic circumstances we are almost continually challenged with information coming from multiple senses, and that the brain makes use of both redundant and complementary information in order to generate adaptive behavioral benefits and to create a coherent perceptual reality. Given this, it is not terribly surprising that the brain combines and integrates information across the senses, and that this convergence and consequent integration takes place at a number of processing stages, including those once thought dedicated to unisensory (i.e., auditory alone) function.

Although much has been learned about visual influences on auditory processes, a number of unanswered questions and areas of future inquiry remain. Advances in neurophysiological methods have allowed the opportunity to record from large neuronal ensembles across multiple brain areas simultaneously in animal models, and will undoubtedly provide critical insights into sensory encoding and information transfer. Such approaches make feasible the ability to see the transformations of information that characterize moving up scales of analysis and computation (e.g., from individual neurons to local circuits). In addition, they enable these transforms to be captured as one moves from node to node within the processing hierarchy and as information moves from sensory representation to decision. Such a capacity will also allow greater insight into the dialogue between “bottom up” and “top down” processes that ultimately shape these computations. As alluded to previously, application of machine learning to carry out sophisticated pattern analyses on both neurophysiological and imaging datasets has already provided significant insight into the nature of neural representations, most notably when these representations are sparse and highly distributed. Continued efforts in this area should significantly add to our knowledge of how auditory representations are influenced by vision. In keeping with the computational theme, the continued development of biologically plausible models such as those that attempt to instantiate Bayesian causal inference processes will also shed great light on these questions. Finally, and as should be clear from the final sections, ongoing efforts need to better elucidate how audiovisual function is altered in clinical contexts, and how such alterations relate to core domains of dysfunction. For, with such knowledge in hand, we can begin to build and apply remediation approaches that are founded in improving sensory function (and multisensory integration), and that have the potential for having cascading effects into higher-order cognitive and executive function domains.


VOIR l'article

  • 1 Pain and Perception Lab, IIMPACT in Health, The University of South Australia, Adelaide, SA, Australia
  • 2 Neuroscience Research Australia, Randwick, NSW, Australia
  • 3 Crossmodal Research Laboratory, Department of Experimental Psychology, University of Oxford, Oxford, United Kingdom

The sounds that result from our movement and that mark the outcome of our actions typically convey useful information concerning the state of our body and its movement, as well as providing pertinent information about the stimuli with which we are interacting. Here we review the rapidly growing literature investigating the influence of non-veridical auditory cues (i.e., inaccurate in terms of their context, timing, and/or spectral distribution) on multisensory body and action perception, and on motor behavior. Inaccurate auditory cues provide a unique opportunity to study cross-modal processes: the ability to detect the impact of each sense when they provide a slightly different message is greater. Additionally, given that similar cross-modal processes likely occur regardless of the accuracy or inaccuracy of sensory input, studying incongruent interactions are likely to also help us predict interactions between congruent inputs. The available research convincingly demonstrates that perceptions of the body, of movement, and of surface contact features (e.g., roughness) are influenced by the addition of non-veridical auditory cues. Moreover, auditory cues impact both motor behavior and emotional valence, the latter showing that sounds that are highly incongruent with the performed movement induce feelings of unpleasantness (perhaps associated with lower processing fluency). Such findings are relevant to the design of auditory cues associated with product interaction, and the use of auditory cues in sport performance and therapeutic situations given the impact on motor behavior.


Perceptual load influences auditory space perception in the ventriloquist aftereffect

A period of exposure to trains of simultaneous but spatially offset auditory and visual stimuli can induce a temporary shift in the perception of sound location. This phenomenon, known as the 'ventriloquist aftereffect', reflects a realignment of auditory and visual spatial representations such that they approach perceptual alignment despite their physical spatial discordance. Such dynamic changes to sensory representations are likely to underlie the brain's ability to accommodate inter-sensory discordance produced by sensory errors (particularly in sound localization) and variability in sensory transduction. It is currently unknown, however, whether these plastic changes induced by adaptation to spatially disparate inputs occurs automatically or whether they are dependent on selectively attending to the visual or auditory stimuli. Here, we demonstrate that robust auditory spatial aftereffects can be induced even in the presence of a competing visual stimulus. Importantly, we found that when attention is directed to the competing stimuli, the pattern of aftereffects is altered. These results indicate that attention can modulate the ventriloquist aftereffect.


What is known about how visual stimuli / preconceptions influence auditory perception? - Psychologie

Seuils
According to Schmeidler, and the vast majority of psychologists studying subliminal phenomena, a threshold is the point at which a stimulus is perceived 50% of the time. For example, if my a ural threshold were to be tested, I would be played numerous sounds in varying volumes. To signal that I heard the tone-I perceived the stimulus-I would raise my hand or press a button, whatever the researches had instructed me to do when I heard a sound. By controlling and tracking the frequency of the emitted sound, the researchers are able to find the volume at which I hear a sound-perceive the stimulus-half of the time. This point is my auditory threshold. A working definition of threshold is paramount. It acts as the scientific base for research in this area a foundation on which all data are defined. For some, this is where the problems with subliminal research begin. xxxx (follow this link for discussion of these issues)

Visual Subliminal Perception

A series of nothings become something
When a person is flashed an image, the brain maintains a type of "footprint or "after image" of the stimulus. That is, despite the stimulus as been shown and then taken away, for a short time that image is still seen by the brain. At first flash the subject may remember the shape of the beginning of a word. The next flash (very close together) the brain creates a footprint of the middle of the word. Continuing in such a way, a subject can piece together these footprints - these 'series of nothings - and form/recognize the word as a whole. (Schmeidler 127)

How visual masking works
The masking of visual perception is generally the taking away of the "footprint" lingering on the subject's brain created by the target stimulus. A nonsense image (a series of letters that spell nothing, a line pattern, etc.) is flashed immediately after the target image. This leaves the footprint of the nonsense image lingering around as opposed to that of the target image. (Epley 7)


Aural Subliminal Perception

Don't steal!!
Many department stores utilize subliminal messages to discourage theft. They use audio messages masked in the "store's music" (many stores play music over their intercom system). Masked audio messages are generally compressed or accelerated to a degree that renders them unintelligible, even if supraliminal. The message is then masked by the playing of, in this case, music. This music is the primary channel - it is the easiest to perceive. The hidden message becomes the secondary channel. (Moore) This tactic may not be futile, "numerous findings indicate not only analysis of secondary channel content at the level of individual words, but short persistence of memory for that content" (Greenwald 5). Perceived or not, there is still the controversy over whether or not it will influence one's behavior.

Difficulties with research

Troubles with thresholds
To begin with, psychologists have essentially massaged the theory of thresholds so that subliminal perception could "exist in a form that can be studied". In the1800's, Herbart and Fechner used the term limen as a distinction between conscious and unconscious. Much of the research conducted during the 1950's and on is based on a distinctive breaking of "threshold" into two parts: sensory threshold and perceptual threshold: stimuli that are "sensed by the body, but not conscious" and stimuli that are "made conscious", respectively. It is the perceptual threshold that is utilized in the realm of subliminal perception research (Erdelyi 3). Thus, what the researchers are studying are stimuli that are above the sensory threshold, but below the perceptual threshold (the point at which a subject can perceive a stimulus 50% of the time). This begs debate for it is sidestepping the entire concept of a dichotomy between conscious and unconscious, the exact concept of subliminal.

Already known from other areas of research is the fact that we do receive information in our lower brain that never makes it to the cortex. The cortex is where things are "made conscious". This is where sensory perception comes in to play. It is estimated that for every 1,000,000 stimuli that pass by the sensory threshold, one stimulus passes through the perceptual threshold (Norr 161). This is how the intricacies of human behavior are explained. Humans simply do too much to be conscious of it all. As McConnell points out, "We are a walking mass of thresholds."

Each person has their own unique set of thresholds. To measure the threshold of each subject prior to conducting the experiments is both time consuming and redundant, but does account for such idiosyncrasies. However, not only do thresholds vary from person to person, but they also vary day by day within one individual. So what I can't hear today I may hear tomorrow and vice versa (McConnell, Moore). With no static threshold, or statistical foundation, research conducted on subliminal perception today becomes invalid tomorrow.

Erdelyi (3) brings up an intriguing point. He asserts that these problems with thresholds are not methodological hindrances, but rather they are conceptual flaws. This reminds the community that indeed this research is not truly "subliminal".

Attention
Attention plays a role on the research of subliminal perception. It is capable of skewing results because the subject is instructed to listen for a sound or to look for a sight. When trying to ascertain if one can be influenced subliminally in day to day life, the person will not be actively looking or listening for the supposed stimuli/message. To counter this, study designs should keep the subject unaware of the target stimuli. (Cohen 55 Shiffrin)


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Voir la vidéo: Quest-ce quune émotion? Aperçu du laboratoire (Juin 2022).


Commentaires:

  1. Ayo

    Probablement. Probablement.

  2. Dijas

    et cela a l'analogique?

  3. Adham

    soudoyait la sincérité du poste

  4. Guyon

    la réponse compétente

  5. Suffield

    Merci d'avoir choisi l'aide à ce sujet.



Écrire un message