机器学习的社会对话的研究数据集小的好处

Snehal Kundalkar(U /reddonQless
高级总监,工程

我还记得,当时我宁愿拨了一个人沟通,而不是输入SMS消息;圆robining通过T9键盘挤着上8个键从键-2至键-9是唯一的选择。

今天,我们有服务,如iMessage的,WhatsApp的,微信,还有更多,使数以百万计的人送,每天获得数十亿的消息。与电子邮件服务这些系统瞬时啮合。有紧迫感和周围的短信来回的快节奏的性质兴奋感。但话并不总是传达的意图,情感,身体语言,社会和文化的信号。它变得更加容易调戏上,而不是用语言表达文字注释,如果其他人在我们的面前站着。

这些类型的对话可以演变成突破平台内容政策的垃圾邮件或其他类别。这可能会导致讨论降解和犹豫的用户与平台搞的质量。

机器学习救援

那岂不是很好,如果有迹象表明自动识别社会互动的共同话题算法?188bet亚洲滚球与投注举例来说,如果一台计算机能识别周围的体育,音乐,垃圾邮件和骚扰的话题没有被明确告知了任188bet亚洲滚球与投注何这些都是。在内容审核方面,此类型的集群将有助于减少人工审核的时间来采取行动不需要的内容。

正如有人谁研究人工智能和数据挖掘在研究生层次,AI和ML的景观发生了变化显著。了解这样的机器学习背后的数学原理(ML)算法是当时唯一的出路。今天的工具已经成功地设法抽象的复杂性,使ML群众。

我赞同我的导师,我们的工程的前副总裁,尼克·考德威尔的情绪。他最近说:

“几乎任何人都可以学会的ML工程师,试图复制第五年我的职业生涯中与现代工具包5天”

本实验

请允许我带你通过实验我做过。我决定要分析社会对话和理解是什么样的“空谈”的表面之下。我从抽取13个(Subreddit)社区2708个聊天消息。金宝博188滚球备用这些是由用户或管理员作进一步审查报告的消息。

下面是两种最常见的ML范式,以帮助快速了解了解机器如何从原始数据中学习。

监督学习

在监督学习问题,我们利用包含关联正确的标签训练样本数据集。例如,如果我们有成千上万的标记为垃圾邮件或不是垃圾邮件,我们可以训练,可以进行分类以前看不到的电子邮件为垃圾邮件或不是模型。

监督学习了很多我们的日常活动,如正在使用,

  • 通过拍摄照片与你的智能手机应用中沉积支票存入您的银行帐户。
  • 通过辅助系统理解讲话。

监督学习的一大缺点是消耗时间和标签数据的预处理昂贵任务。

无监督学习

在无监督学习技术,我们处理不具有关联的标签数据。怎么会这样有用吗?简单!让我们在对新的数据块是否存在这样的共同之处的数据集和基础决定的电脑查找共性

无监督学习是用于分类(或群集)未标记的数据是特别有用的。

没有足够的数据?没问题!

有多少次你听到,“我们没有足够的数据,我们需要更多的”为了使显著决定?我想挑战这个共同的信念。事实证明,ML,其实是即使我们掌握的资料并不详尽非常有价值的。

由于聊天消息都没有标签,我想依靠无监督的学习方法。这些算法提供直觉一个需要解释的分类。我说的是被称为方法的集合主题建模

主题造型,顾名思义,是从文本的集合发现主题的过程。188bet亚洲滚球与投注每一个主题都在整个文本语料库重复字共发生模式。例如,在一个很好的主题模型,单词“总统”,“部长”和“政府”都应该占的话题政治因为他们往往在同一文本一起存在。

数据预处理

当在自然语言中提取文本的工作,它首先预处理数据是非常重要的。这是数据挖掘中一个非常普遍的过程。清洁的数据可以显著提高ML车型的性能,噪音减少和稀缺的数据集打交道时显得尤为重要。

下面是预处理步骤之一可能会发现有用的列表:

  • 符号化 - 分裂的聊天消息成句子,然后将句子翻译成单词。
  • 正火的情况下 - 转换成一个单一的情况。
  • 通过去除个人-PII数据(例如,电子邮件,URL,用户名)的数据匿名。
  • 删除停用词,如上。
  • 词干要么词形还原- reducing words to their root or lemma forms.

下面是我用于比较分析这两种模型:

隐含狄利克雷分布和非负矩阵分解

隐含狄利克雷分布(LDA)可以自动绘制两个分布概率方法 - 描述每个主题,并描述每个文本主题的词分布的分布。188bet亚洲滚球与投注对于应用程序中,人们直接与出现的话题互动,LDA权证强的考虑,因为通过LDA产生的话题更可解释人类相对于其他主题建模方法。188bet亚洲滚球与投注

非负矩阵分解(NMF)是另一种流行模型往往工作得非常好实践主题建模。NMF因数大文件字矩阵成两个较小的矩阵的乘积(其中行对应于文档和列对应于词语的我们的字典的矩阵)。第一矩阵表示发现主题(簇),而第二个矩阵代表相应文档中的每个主题的重量。188bet亚洲滚球与投注

主题数188bet亚洲滚球与投注

无论LDA和NMF希望“话题号”作为输入参数作为训练的一部分。188bet亚洲滚球与投注你可以用你的直觉,或者逐渐增加的数量和测试模型的性能。

评估的学习主题的质量的另一个方式是通过188bet亚洲滚球与投注一致性得分,其测量每个主题中最常出现的单词之间的语义相似度。我能够确定的主题为我的实验为9的最佳数目。188bet亚洲滚球与投注

培养模式是非常简单的。有很多可用的在线帮助。scikit学习有很好的例子关于如何执行使用LDA和NMF模型话题提取。

结果

在我的实验与来自不同subreddits提取〜2K聊天消息,LDA是更有前途相比,NMF。金宝博188滚球备用

NMF归类以上信息的一半到一个特定的主题。在另一方面,LDA能够在所有9个话题发布消息。188bet亚洲滚球与投注因此,我决定只进一步分析LDA模型。

在这个阶段的下一个目标是要解释结果,并采取在每个主题中最常见的词定睛一看,手工为其添加标签。请注意,我现在最多只标注9个话题,而在监督分类一个需要标签〜2K个文188bet亚洲滚球与投注字。

这是几个重要的原因。首先,它减少了数据的人工审核所需的时间。它还确定了更有可能的地区积极主动地需要人工审核,因此某些报告可以优先用于更迫切的审查。本着同样的精神,垃圾邮件可以主动检测并删除它降低了用户的体验之前。而更广泛地说,它开启了大门,更多地了解社区的规范和发展趋势,可以告知产品和功能的发展。

统计方差

机器学习工程师们知道,围绕高方差小的数据集牯的主要问题。虽然越来越数据有助于减少差异,额外的数据并不总是很容易得到。

这个实验的结果是在训练集和参数空间小的波动很敏感。因此,我不得不花一些时间来仔细选择模型参数。

最终意见

无监督学习模型可以是有价值的,即使你有一个相对较小的数据集。主题造型让我拿一把的消息,并从内容中提取共享共性。我能够检测几个特定的​​主题类别无需花费时间进行注释具有特定标签内容。这表明,某些ML范式可以减少内容的人工审查,用见解优先审核活动,并主动识别内容,阻碍了用户体验提供价值。

在加盟reddit的日益增长的工程师团队的兴金宝博188滚球备用趣吗?看看我们的招聘页面未平仓头寸的列表。