项目理念 |使用推文中的标签进行个性分析
介绍
该项目基于分析个人个性的概念,并根据用户/社区位置绘制推文的情绪。我们的应用程序将考虑个人的实际心态以及情况和主题,并据此评估他们的个性。
概念框架
我们的方法和想法是通过将标签与推文分开来实现的。主题标签为我们提供了用户发表意见的主题。主题标签分析的方式是收集一组包含主题标签术语的最近推文,并分析包含该术语的推文的极性是否人们对此持正面、负面或中立的看法。第二部分是分析剩余文本并找出推文的极性,无论是正面、负面还是中性。如果推文包含任何表情符号,则与文本一起使用非 bmp 映射计算表情符号的极性。用户可以使用他们的 Twitter 句柄以及任何特定主题轻松分析他们的个性。
数据结构和算法
主题标签推文的极性和用户推文的极性以及其他一些参数导致形成 8 个人格特征:
- 宜人性:如果推文的情绪等同于大多数人对该主题或主题标签的情绪,那么个性就属于这一类。特定用户的“宜人性”特征的最终得分分配为:具有上述组合的推文总数(推文的极性 = 多数的极性)/用户的推文总数。
- 社交鸟:根据用户最近发布的推文数量为个人分配此类别的分数。特定用户的“社交鸟”特征的最终得分分配为:最近的推文总数/用户的推文总数。
- 公众人物/非公众人物:如果用户的个人资料通过验证,则其得分为 1。否则,用户将为此特征分配 0 分。
- 乐观主义者:如果推文的情绪是积极的(+),而大多数人对该主题或主题标签的情绪是消极的(-),那么个性就属于这一类。特定用户的“乐观主义者”特征的最终得分分配为:具有极性的用户推文总数 = (+) / 具有极性 (-) 的多数推文总数。
- 悲观主义者:如果推文的情绪是负面的(-),而大多数人对该主题或主题标签的情绪是积极的(+),那么个性就属于这一类。特定用户的“悲观主义者”特征的最终得分分配为:具有极性的用户推文总数 = (-) / 具有极性 (+) 的多数推文总数。
- 观点持有者:如果推文的情绪是积极的 (+) 或消极的 (-),并且大多数人对该主题或主题标签的情绪是中性的,那么个性就属于这一类。特定用户的“视图持有者”特征的最终分数分配为:具有极性的用户推文总数 = (+) + 具有极性的用户推文总数 = (-) / 具有中性极性的多数推文总数.
- 旁观者:如果推文的情绪是中性的,并且大多数人对该主题或主题标签的情绪是积极的(+)或消极的(-),那么个性就属于这一类。特定用户的“观众”特征的最终得分分配为:具有中性极性的用户推文总数/具有极性的多数推文总数 = (+) + 具有极性的多数推文总数 = (-)。
- 语法纳粹:如果用户的推文在语法上是正确的,则得分为 1,否则为 0。仅考虑没有主题标签的推文。此外,人们在发推文时会使用消息术语,因此我们对 2 个错误放宽了。特定用户的“语法纳粹”特征的最终分数分配为:语法正确的推文总数/没有主题标签的推文总数。
上述每个类别的分数都是针对 Twitter 用户计算的。该算法将主题或主题标签的极性与推文的极性相结合,由于用户行为真实透明,势必会产生更好、更准确的结果。获取用户的前 50 条推文,并对应于每条推文创建一个线程。实现线程的并行执行以减少执行时间,这是我们项目的一个重要方面。
使用的工具:
1.Python
2.姜戈
3. Tweepy
4. 文本块
5. 姜饼人
应用:
1.目标受众从儿童到老年人,希望了解人们的个性,对任何话题的反应和评论。
2、本软件可以供所在办公室人事部门的人使用,分析应聘者的性格是否适合应聘者的性格。
3. 它对参与政治的人也很有用,因为它可以帮助他们跟踪人们对他们的决定和行动的看法。
4.可以为业务领域的人提供客户评论。