标签档案:集群

收音机里的声音

我一直在重新分析一项开创性的实验,使之成为广播之声:

在他的《声音与性格》一书中,佩尔教授解释了激发他做实验的原因。他回忆说,有一天,他在一间只有火光照亮的昏暗房间里,戴着耳机听广播。全神贯注于戏剧,他脑海中浮现出主人公的样子,他开始怀疑其他听众是否也这么做了。”

现在你说话,特雷弗·考克斯

在梨的实验中,广播听众听到九个人在读狄更斯的一段短文。他们听起来应该是阿加莎·克里斯蒂侦探小说中的人物,其中包括侦探警长F。R。威廉姆斯,玛德琳·瑞小姐和维克多·丹姆斯牧师。观众填了一份问卷广播时报,有些还提供“一般性评论”。我一直在用现代文本挖掘工具分析这632位的散文。(在之前的两个博客[1][2]中有关于这个实验的更多细节)。发现这些工具能(和不能)做什么是很有趣的,也能更多地了解观众对声音的看法。

调查问卷的主要部分为梨

聚类分析

自由文本分析的挑战之一是阅读时间,消化和分析所有的反应。聚类分析有助于加速任何详细的探索。这种方法根据在回答中吸引最相似单词的人来对说话者进行分组。

这个过程是首先确定用来描述说话者的最重要的单词。首先将文本清理干净,并将其分解为记号(单词)。通常这包括删除:数字,大多数标点符号,简短的单词和常见的单词,如“the”。所有内容都转换为小写。我还必须手工制定一些规则来应对英语在上个世纪的变化,例如改变“写字台”“写字台”。最后lemmatisation将同一单词的屈折形式组合在一起,例如“紧张”,“紧张”,' nervous'被分析为' nervous'这个词。

最后一个文件术语表(DTM)就形成了。这给出了每个扬声器的令牌出现的频率。下表为部分矩阵;完整的有71列,不适合在页面上很容易!

习惯 构建 男人。 公共
Cpt汉弗莱 7 3. 9 29 8
D-Sgt威廉姆斯 8 14 13 41 3.
判断二者 8 9 13 48 11
罗宾逊小姐 9 4 10 1 6
Ree小姐 9 7 9 0 3.
米小姐。梨 6 7 19 1 2
Grossmith先生 10 8 21 39 17
特纳先生 6 7 9 32 3.
牧师。大坝 6 8 19 28 11

表1。文档术语矩阵的前5列,给出每个扬声器的每个令牌的频率

应用一个层次聚类算法然后将音箱分组,音箱的令牌频率遵循类似的模式。下图将结果显示为a系统树图。右边是扬声器,这些线表示它们是如何分成不同的组的。附在每个分支上的单词(如“男”,“女性”)是该组中相对于另一组使用的术语最常见的标记。

第一个分裂是根据性别分为两组。男性和女性。对于每一位演讲者,在回答中最常用的术语是描述这个人的性别。男性和女性声音的音高差异就是性别二形性的一个例子。一种用来表明你性别的特征。声音强烈地暗示了性别二型性,女性的声音通常比男性的高八度。因此,这种性别分化是意料之中的。

然后女性群体根据年龄分裂,Marjorie Pear小姐是实验中唯一发言的孩子。男性根据文章的阅读情况分成两组。正如使用情绪分析的博客,紧张是区分演讲者的一个重要因素。

使用聚类分析是直接和快速的使用,并允许发言者被分成小组与减少偏见,从实验者。然而,对于这个数据集,用聚类分析很难走得更远。此外,这是一种将每个响应表示为一个单词包的技术,因此具有局限性。在这种分析中,单词的顺序丢失了,这是很重要的,如。“这是好的”不等于“这样好吗”。这部分可以通过将标记看作多个单词来解决,“这很好”是一个标记,"is this-good"另一个地方。使用这样的语法方法仍然是有限的,因为这些方法从来没有完全捕捉到语言的语义和意义。

你对聚类分析怎么看?请让我知道

在我的书中有更多关于声音和个性的内容现在你说。你可能也对这个感兴趣之前的博客对数据做了详细的关键词分析

广告