标签档案:性别

收音机里的声音

我一直在重新分析一项开创性的实验,使之成为广播之声:

在他的《声音与性格》一书中,佩尔教授解释了激发他做实验的原因。他回忆说,有一天,他在一间只有火光照亮的昏暗房间里,戴着耳机听广播。全神贯注于这出戏,他脑海中浮现出主人公的样子,他开始怀疑其他听众是否也这样做了。”

现在你说话,特雷弗·考克斯

在梨的实验中,广播听众听到九个人在读狄更斯的一段短文。他们听起来应该是阿加莎·克里斯蒂·沃杜尼特笔下的人物——其中包括F警官。R。威廉姆斯玛德琳·瑞小姐和维克多·丹姆斯牧师。观众填了一份问卷广播时报,其中一些还提供了“一般性评论”。我一直在用现代文本挖掘工具分析这632位的散文。(在之前的两个博客[1][2]中有关于这个实验的更多细节)。发现这些工具能(和不能)做什么是很有趣的,同时也要了解观众对声音的看法。

调查问卷的主要部分为梨

聚类分析

自由文本分析的挑战之一是阅读时间,消化并分析所有的反应。聚类分析有助于加速任何详细的探索。这种方法根据那些在回答中吸引到最相似词的人对发言者进行分组。

这个过程是首先确定用来描述说话者的最重要的单词。首先,文本被清除并分解为标记(字)。通常这包括删除:数字,大多数标点符号,像“the”这样的短词和普通词。所有内容都转换为小写。我还不得不手工制定一些规则来处理上个世纪英语发生的变化,例如更换“写字台”“写字台”。终于lemmatisation在同一单词的屈折形式结合在一起时执行,例如“紧张”,“紧张”,“紧张”被分析为“紧张”这个词。

最后一个文档术语矩阵(DTM)就形成了。这给出了每个演讲者出现令牌的频率。下表为部分矩阵;完整的有71列,不适合在页面上很容易!

习惯于 建造 男人。 公众的
CPT汉弗莱 3. 9 29 8
D-Sgt威廉姆斯 8 14 十三 四十一 3.
判断二者 8 9 十三 48 11
罗宾逊小姐 9 6
Ree小姐 9 9 3.
米小姐。梨 6 19 2
格罗史密斯先生 8 二十一 39 17
透纳先生 6 9 32 3.
牧师。水坝 6 8 19 28 11

表1。文档术语矩阵的前5列,给出每个扬声器的每个令牌的频率

应用一个层次聚类算法然后将音箱分组,音箱的令牌频率遵循类似的模式。下图将结果显示为系统树图。右边是扬声器,这些线表明了它们是如何分成不同的组的。附在每个分支上的单词(如“男性”,“女性”)是该组中相对于另一组使用的术语最常见的标记。

第一个分裂是根据性别分为两组。男性和女性。对于每个扬声器,在回答中最常用的术语是描述这个人的性别。男性和女性声音的音高差异就是性别二形性的一个例子。一种用来表明你性别的特征。声音强烈地表明了性的二形性,女性的音高通常比男性高八度。因此,这种性别分化是意料之中的。

然后女性根据年龄分裂,玛乔里·皮尔小姐是实验中唯一一个会说话的孩子。男性根据文章的阅读情况分成两组。正如使用情绪分析的博客,紧张是区分演讲者的一个重要因素。

使用聚类分析是直接和快速的使用,并允许发言者被分成小组与减少偏见,从实验者。然而,对于这个数据集,用聚类分析很难走得更远。此外,这是一种将每个响应表示为一袋单词的技术,因此具有局限性。在这种分析中,单词的顺序丢失了,这很重要,如。“这是好的”不等于“这样好吗”。这部分可以通过将标记看作多个单词来解决,“这很好”是一个象征,而且“这个好吗”另一个。使用这样的语法方法仍然有限,因为这些方法从未完全捕获语言的语义和含义。

您对集群分析有什么看法?请让我知道

在我的书中有更多关于声音和个性的内容现在你说。你可能也对这个感兴趣之前的博客对数据进行了详细的关键字分析

广告