📜  项目理念 |基于教学风格的视频分类

📅  最后修改于: 2022-05-13 01:57:41.862000             🧑  作者: Mango

项目理念 |基于教学风格的视频分类

项目名称:基于教学风格的视频分类

问题陈述:
每个教授都有他/她独特的教学风格,根据他/她的教学风格,他/她分为三大类:语言、视觉和生动。该项目的主要目的是将 NPTEL 和 Coursera 视频分为这三个不同的类别。这将有助于建立一个强大的推荐系统,该系统将根据学习者的学习风格和视频中教授的教学风格向学习者推荐视频。

目标:我们的目标是将给定的视频分类为口头、视觉或生动的视频。

描述:给定一个视频,我们的原型将处理视频并提取文本和音频特征。基于视频的特征向量,将计算一个阈值,该阈值将决定相同的类别。

使用的数据集:为每个班级手动策划的视频,即视觉和口头。这些视频来自各种播放列表,即可汗学院、Coursera、Kudvenkant 教程、编程知识、Ravindrababu 教程、Techtud 和 Tushar Roy 编码变得简单。总共处理了 600 个视频。

项目详情:对人工分类的每个视频进行如下处理:

  • 视频到帧的转换和提取 .wav(音频)文件
  • 使用 Ocropus 对通过统一采样选择的帧执行特征提取
    提取特征:
    • 每张幻灯片的行数
    • 人物数量
    • 说话人存在的人脸检测
  • 使用 Praat 工具从 .wav 文件中提取的音频特征
    提取特征:
    • 音节总数
    • 发言时间
    • 衔接时间
    • 发声时间
    • 语速
  • Pafy 用于获取视频的 YouTube 元数据,例如观看次数、点赞次数、持续时间
    的视频等
  • 根据视频的特征集计算了一个值
  • 阈值是通过对所有视频训练集获得的值进行平均来确定的

准确性和测试:音频和文本特征的提取准确率为 80%。
该原型针对 1000 个奇怪的视频进行了测试,这些视频再次手动策划,属于两个类别的视频分布均等,获得的准确率为 75%。

未来范围:我们的主要重点是在数量和多样性方面扩展我们的数据集。为了提高准确性并设计更全面的阈值计算算法。实现这一目标的第一步是根据视频的持续时间以及统一采样来处理视频中的帧数。使用 YouTube 元数据在视频类别和平台上视频的流行度之间建立关联。

研究的文献:更大的目标是根据用户喜欢的教学风格为用户设计一个推荐引擎。研究推荐系统的现有文献。由于不存在基于教学风格的视频分类器,这是解决更大目标的第一步,因此提出了当前的视频分类原型。
参考:

  • 一篇关于工程教育教学和学习风格的高引用论文:http://www4.ncsu.edu/unity/lockers/users/f/felder/public/Papers/LS-1988.pdf
  • 我们学习的 Coursera 课程:https://www.coursera.org/specializations/recommender-systems
  • 关于 Ocropus:http://www.danvk.org/2015/01/09/extracting-text-from-an-image-using-ocropus.html/
  • YouTube 元数据库:http://pythonhosted.org/Pafy/
  • 普拉特代码:https://github.com/timmahrt/praatIO
  • 在图像中查找数字:http://www.pyimagesearch.com/2014/10/20/finding-shapes-images-using-python-opencv/

GitHub链接: https://github.com/acdha/image-mining

注意:这个项目想法是为 ProGeek Cup 2.0- GeeksforGeeks 的项目竞赛贡献的。