我一直在重新分析一项开创性的实验,使之成为广播之声:
在他的《声音与性格》一书中,佩尔教授解释了激发他做实验的原因。他回忆说,有一天,他在一间只有火光照亮的昏暗房间里,戴着耳机听广播。全神贯注于戏剧,他脑海中浮现出主人公的样子,他开始怀疑其他听众是否也这么做了。”
现在你说话,特雷弗·考克斯
在梨的实验中,广播听众听到九个人在读狄更斯的一段短文。他们听起来应该是阿加莎·克里斯蒂侦探小说中的人物,其中包括侦探警长F。R。威廉姆斯,玛德琳·瑞小姐和维克多·丹姆斯牧师。观众填了一份问卷广播时报,有些还提供“一般性评论”。我一直在用现代文本挖掘工具分析这632位的散文。(在之前的两个博客[1][2]中有关于这个实验的更多细节)。发现这些工具能(和不能)做什么是很有趣的,也能更多地了解观众对声音的看法。

调查问卷的主要部分为梨
聚类分析
自由文本分析的挑战之一是阅读时间,消化和分析所有的反应。聚类分析有助于加速任何详细的探索。这种方法根据在回答中吸引最相似单词的人来对说话者进行分组。
这个过程是首先确定用来描述说话者的最重要的单词。首先将文本清理干净,并将其分解为记号(单词)。通常这包括删除:数字,大多数标点符号,简短的单词和常见的单词,如“the”。所有内容都转换为小写。我还必须手工制定一些规则来应对英语在上个世纪的变化,例如改变“写字台”“写字台”。最后lemmatisation将同一单词的屈折形式组合在一起,例如?紧张”,?紧张”,' nervous'被分析为' nervous'这个词。
最后一个文件术语表(DTM)就形成了。这给出了每个扬声器的令牌出现的频率。下表为部分矩阵;完整的有71列,不适合在页面上很容易!
习惯 | 构建 | 好 | 男人。 | 公共 | |
Cpt汉弗莱 | 7 | 3. | 9 | 29 | 8 |
D-Sgt威廉姆斯 | 8 | 14 | 13 | 41 | 3. |
判断二者 | 8 | 9 | 13 | 48 | 11 |
罗宾逊小姐 | 9 | 4 | 10 | 1 | 6 |
Ree小姐 | 9 | 7 | 9 | 0 | 3. |
米小姐。梨 | 6 | 7 | 19 | 1 | 2 |
Grossmith先生 | 10 | 8 | 21 | 39 | 17 |
特纳先生 | 6 | 7 | 9 | 32 | 3. |
牧师。大坝 | 6 | 8 | 19 | 28 | 11 |
表1。文档术语矩阵的前5列,给出每个扬声器的每个令牌的频率
应用一个层次聚类算法然后将音箱分组,音箱的令牌频率遵循类似的模式。下图将结果显示为a系统树图。右边是扬声器,这些线表示它们是如何分成不同的组的。附在每个分支上的单词(如“男”,“女性”)是该组中相对于另一组使用的术语最常见的标记。

第一个分裂是根据性别分为两组。男性和女性。对于每一位演讲者,在回答中最常用的术语是描述这个人的性别。男性和女性声音的音高差异就是性别二形性的一个例子。一种用来表明你性别的特征。声音强烈地暗示了性别二型性,女性的声音通常比男性的高八度。因此,这种性别分化是意料之中的。
然后女性群体根据年龄分裂,Marjorie Pear小姐是实验中唯一发言的孩子。男性根据文章的阅读情况分成两组。正如使用情绪分析的博客,紧张是区分演讲者的一个重要因素。
使用聚类分析是直接和快速的使用,并允许发言者被分成小组与减少偏见,从实验者。然而,对于这个数据集,用聚类分析很难走得更远。此外,这是一种将每个响应表示为一个单词包的技术,因此具有局限性。在这种分析中,单词的顺序丢失了,这是很重要的,如。“这是好的”不等于“这样好吗”。这部分可以通过将标记看作多个单词来解决,“这很好”是一个标记,"is this-good"另一个地方。使用这样的语法方法仍然是有限的,因为这些方法从来没有完全捕捉到语言的语义和意义。
你对聚类分析怎么看?请让我知道
在我的书中有更多关于声音和个性的内容现在你说。你可能也对这个感兴趣之前的博客对数据做了详细的关键词分析。