收音机里的声音

我重新分析了一个开创性的无线电语音实验:

“在他的书声与个性,[教授]梨解释什么启发了他的实验。他回忆了耳机听广播剧一天只从他的火焰发出的光芒照亮一间阴暗的房间。在剧中全神贯注,他在他心中唤起了主角可能是什么样子,他开始怀疑其他听众是否也一样“。

现在你说,特雷弗·考克斯

在皮尔的实验中,广播听众听到九个人在读狄更斯的短文。听起来他们应该是阿加莎·克里斯蒂的角色,包括F警长。右。威廉姆斯,马德琳·雷伊小姐和维克多·戴姆斯牧师。观众填写了一份问卷在广播时代,有些还提供了“一般性评论”。正是这632位散文,我一直在分析使用现代文本挖掘工具。(之前两篇博客[1][2]中有更多关于这个实验的细节。)发现这些工具能(和不能)做什么,以及更多地了解观众对声音的看法,都是一件很有趣的事情。

梨使用问卷的主要部分

聚类分析

自由文本分析的一个挑战是阅读、消化和分析所有答案所需的时间。聚类分析有助于加快任何详细的探索。这种方法根据在回答中吸引最相似单词的单词来对说话人进行分组。

这个过程是首先确定用来描述演讲者的最重要的词。首先,文本被清理并分成标记(单词)。通常这包括删除:数字、大多数标点符号、简短的单词和常见的单词,如“the”。所有内容也都转换为小写。我还不得不手工制定一些规则来应对上个世纪英语的变化,比如把“写字台”改成“写字台”。最后lemmatisation是指将同一单词的屈折变化形式组合在一起,例如“nervous”、“nervous”、“nervously”被分析为“nervous”。

最后一个文档词矩阵(DTM)形成。这给出了每个演讲者出现标记的频率。下表显示了矩阵的一部分;全文有七十一列,不容易放在这一页上!

使习惯 建立 男人 上市
CPT汉弗莱 7 3 9 29 8
d-军士威廉姆斯 8 14 13 41 3
法官麦克利 8 9 13 48 11
罗宾逊小姐 9 4 10 1 6
稀土元素小姐 9 7 9 0 3
M.小姐梨 6 7 19 1 2
格罗史密斯先生 10 8 21 39 17
特纳 6 7 9 32 3
启示录水坝 6 8 19 28 11

表1。文档项矩阵的前5列,给出每个演讲者的每个令牌的频率

应用层次聚类算法然后,将代币频率遵循类似模式的发言者分组。下图将结果显示为树状图是的。在右手边是扬声器,这些线表示它们如何分成不同的组。附加在每个分支上的单词(例如相对于用于另一组的术语而言,“男性”、“女性”)是该组中最常见的标记。

左边的第一组按性别分成两组,即男性和女性。对于每一位发言者,答复中使用的最常用术语描述了该人的性别。男性和女性声音音调的差异是性别差异的一个例子。一种用来表明你性别的特征。性别的二形性是强烈的信号,与男性声音相比,女性声音的音调通常高出八度。因此,可以预期,这将被分成性别群体。

然后,女性组根据年龄进行分组,实验中只有马乔丽·皮尔小姐会说话。男性组根据文章的阅读情况进行分组。如中所述上一篇博客使用情感分析紧张是说话者之间的一个重要区别。

使用聚类分析是直接和快速使用,并允许发言者被分成小组与减少偏见从实验者。然而,对于这个数据集,很难进一步进行聚类分析。此外,这是一种将每个响应表示为一包单词的技术,因此具有局限性。在这种分析中,单词的顺序丢失了,这一点很重要,例如。“这是好的”和“这是好的”不一样。这可以通过将令牌看作多个单词来部分解决,“this is good”是一个令牌,“is this good”是另一个令牌。使用这样的正克方法仍然是有限的,因为语义和语言的含义永远不会被这些方法完全捕获。

你怎么看待聚类分析是什么?让我知道以下

还有更多的声音和个性在我的书现在你在说是的。您可能也有兴趣在此早期博客,做了数据的详尽的关键字分析是的。

广告

发表评论

在您的详细信息填写以下或点击图标即可登录:

的Gravatar
WordPress.com标志

您正在使用您的WordPress.com帐户评论。登出/更改

谷歌照片

您正在使用您的谷歌帐户评论。登出/更改

微博图片

您正在使用你的Twitter帐户评论。登出/更改

Facebook的照片

您正在使用您的Facebook账户发表评论。登出/更改

连接到%s

这个网站使用AKISMET来减少垃圾邮件。了解您的意见如何处理数据是的。