Voice-Assistant Conversation Corpus

Voice Assistant Conversatio Corpus (VACC)

Der Voice Assistant Conversatio Corpus (VACC) ist ein neuartiger Gesprächskorpus im Bereich der Mensch-Computer-Interaktion. Er wurde in Zusammenarbeit mit dem Lehrstuhl Kognitive Systeme und mit der Universitätsklinik für Psychosomatische Medizin und Psychotherapie erstellt.

Hauptziel des Datensatzes ist es Studien zur Mensch-Maschine-Interaktion zu ermöglichen. Dabei wurde versucht bestimmte Randbedingungen zu variieren:

Die Art des Dialoges (formal, informal)
Die Anzahl der Interaktionspartner (Mensch-Maschine vs. Mensch-Mensch-Maschine)

Die Interaktion erfolgt hierbei mit einem kommerziellen Sprachassistenzsystem (Amazon's ALEXA). Dem Probanden werden nacheinander zwei verschiedene Aufgaben gestellt. Zuerst sollen Übungstermine bestimmt werden, wobei der Kalender des Probanden nur über ALEXA erfragt werden kann. Anschließend sollen Quizfragen mithilfe von ALEXA gelöst werden.

Beide Aufgaben werden zusätzlich einmal alleine durchgeführt und einmal zusammen mit einem Interaktionspartner durchgeführt. Dieser interagiert jedoch nur mit dem Probanden und nicht mit ALEXA.

Ablauf

Abb. 1: Allgemeiner Experimentalablauf, Q1 und Q2 sind die vor oder
nach dem Experiment auszufüllenden Fragebögen.

1. Audioaufnahmen

vom Probanden,
vom Interaktionspartner und
von der Gesamtszene

2. Fragebögen

zu Sozio-Demografischen Informationen (vor dem Experiment)
Erfahrung mit technischen Systemen im Allgemeinen (vor dem Experiment)
Wahrnehmung dvon ALEXA und dem Interaktionspartner (nach dem Experiment)
Änderungen in der Stimme und Sprechverhalten während der Interaktion (nach dem Experiment)

Die Aufnahmen wurden am Institut für Informations- und Kommunikationstechnik statt und wurden in einer wohnraumähnlichen Umgebung durchgeführt. Das Ziel dieses Settings war es, den Teilnehmern eine natürliche Kommunikation zu ermöglichen.

Als Sprachassistenzsystem wurde ein Amazon ALEXA Echo Dot (2. Generation) verwendet. Entscheidungsgrundlage für dieses kommerzielles System war es, eine völlig freie Interaktion mit einem aktuell verfügbaren System zu ermöglichen.

Die Audioaufnahmen wurden mit zwei hoch-qualitativen Nackenbügelmikrofonen (Sennheiser HSP 2-EW-3) und einem Richtmikrofon (Sennheiser ME 66) durchgeführt. Die Aufnahmen wurden als WAV unkomprimiert abgespeichert mit 44.1kHz Abtastrate und 16 Bit Auflösung.

Probanden	27 Deutschsprechende Studenten
Geschlechterverteilung	13 Männer, 14 Frauen
Altersverteilung	MW 24 Jahre, STD 3,32 Jahre
	Min: 20, Max: 32 Jahre
Gesamtzeit der Aufnahmen	17 Stunden
Durchschnittliche Experimentdauer	31 Minuten
Annotation	Sprecheräußerungen, Art der Sprecheräußerungen, Transkripte, Lachen, Diskurspartikel
Erhobene Fragebögen	Bewertung der eigenen Interaktion und Sprachstils, Erfahrungen mit Sprachassistenten AttrakDiff (für ALEXA) Sozio-Demografische Angaben

Die Teilnehmer kamen aus verschiedensten Studiengängen der Bereiche Informatik, Ingenieurwissenschaften und Geisteswissenschaften. Somit ist dieser Datensatz nicht auf technophile Studierende beschränkt.

Was die Erfahrungen mit Sprachassistenten betrifft, so habe alle Teilnehmer angegeben Amazon ALEXA zu kennen. Auf die Frage nach den Erfahrungen mit ALEXA angesprochen, waren es nur sechs Teilnehmer, die angaben dass sie ALEXA schon mal verwendet haben. Fünf von ihnen haben ALEXA nur selten (zum Testen) benutzt. Ein Teilnehmer hat angegeben, dass er ALEXA regelmäßig benutzt - für das Abspielen von Musik.

In Bezug auf Erfahrungen mit anderer Sprachassistenten haben weitere zehn Teilnehmer Vorerfahrungen mit Apple SIRI, Google NOW und Microsoft CORTANA angegeben. Sieben von ihnen benutzten diese Sprachassistenten selten, nur um sie auszuprobieren. Nur drei benutzen diese regelmäßig, z.B. zur Programmierung eines Timers. Es lässt sich aso feststellen, dass 18 von insgesamt 27 Teilnehmern bereits Erfahrung mit Sprachassistenten haben.

Die neun Teilnehmer, die bisher keinen Sprachassistenten benutzt haben, gaben an dass sie keine Notwendigkeit von Sprachsteuerung sehen sowie Zweifel am Datenschutz haben.

Siegert, Ingo; Krüger Julia
HOW DO WE SPEAK WITH ALEXA – SUBJECTIVE AND OBJECTIVE ASSESSMENTS OF CHANGES IN SPEAKING STYLE BETWEEN HC AND HH CONVERSATIONS, In: Kognitive Systeme- Duisburg: DuEPublico, 2013, 1, insges. 11 S., 2018

Raveh, Eran; Steiner, Ingmar; Siegert, Ingo; Gessinger, Iona; Möbius, Bernd
Comparing phonetic changes in computer-directed and human-directed speech
In: Elektronische Sprachsignalverarbeitung 2019 - Dresden: TUDpress, S. 42-49 - (Studientexte zur Sprachkommunikation; 93) ; [Konferenz: 30. Konferenz Elektronische Sprachsignalverarbeitung 2019, Dresden, 6.-8. März 2019]

Akhtiamov, Oleg; Siegert, Ingo; Karpov, Alexey; Minker, Wolfgang
Cross-corpus data augmentation for acoustic addressee detection
In: 20th Annual Meeting of the Special Interest Group on Discourse and Dialogue - Stroudsburg, PA, USA: Association for Computational Linguistics (ACL), S. 274-283, 2019 ; [Tagung: 20th Annual Meeting of theSpecial Interest Group on Discourse and Dialogue,SIGDIAL 2019, Stockholm, Sweden, 11-13 September 2019]

Raveh, Eran; Siegert, Ingo; Steiner, Ingmar; Gessinger, Iona; Möbius, Bernd
Three is a crowd? - effects of a second human on vocal accommodation with a voice assistant
In: Interspeech 2019 - International Speech and Communication Association, S. 4005-4009