📜  项目理念 |音频到手语翻译

📅  最后修改于: 2022-05-13 01:57:41.664000             🧑  作者: Mango

项目理念 |音频到手语翻译

概述

手语是一种视觉语言,被聋人用作他们的母语。与声学传达的声音模式不同,手语使用肢体语言
和手动交流,以流畅地传达一个人的想法。它是通过同时结合手、手臂或手臂的形状、方向和运动来实现的。
身体和面部表情。可供说话有困难的人或听得见但不能说话的人使用,也可用于正常人与听力障碍者交流。就聋人而言,接触手语对于他们的社交、情感和语言发展非常重要。手语应被承认为聋人的第一语言,他们的教育可以
以国家手语以及国家书面或口头语言双语进行。
印度手语被聋人和听力障碍的人通过使用身体的不同部位显示符号来进行交流。世界各地都有
是不同的聋人社区,因此这些社区的语言会有所不同。美国使用的手语是美国手语
(美国手语);英国使用英国手语(BSL);印度手语 (ISL) 在印度用于表达思想和相互交流。 “印度手语(ISL)”使用手工交流和肢体语言(非手工交流)来传达思想、想法或感受。 ISL 标志可大致分类
分为三类:一只手、两只手和非手动标志。单手标志和双手标志也称为手动标志,签名者用他/她的手
制作传达信息的标志。非手动标志是通过改变身体姿势和面部表情产生的。该系统旨在帮助听力受损
印度人在将英文文本翻译成手语时与他人互动。

目标
1. 以印度手语为聋人提供信息访问和服务。
2. 开发一个可扩展的项目,该项目可以通过手动和非手动标志扩展以捕获整个 ISL 词汇。

技术规格
该项目基于使用语音到文本 api(Python模块或 google api)将接收到的音频信号转换为文本,然后使用自然语言处理的语义将文本分解为需要的更小的可理解片段。
机器学习作为一部分。预定义手语数据集作为输入,软件可以利用人工智能将转换后的音频显示为手语
语言。
AI(人工智能)——它是计算机系统的理论和发展,能够执行通常需要人类智能的任务,例如视觉感知、语音识别、决策和语言之间的翻译。
ML(机器学习)——机器学习是让计算机在没有明确编程的情况下采取行动的科学。输入以数据集的形式给出,系统通过这些数据集学习并尝试为用户提供最佳结果。
NLP(自然语言处理)——将计算技术应用于自然语言和语音的分析和合成。

使用平台:
通过Python实现的软件
桌面应用程序是使用Python编程语言实现的。 Python
包括诸如 pyaudio 之类的库,用于将语音转换为文本。
– 首选Python 2.7.x。
– Pycharm 社区版编译器。
– 操作系统 – Ubuntu (Linux)。
– 来自谷歌的 ISL/ASL 数据集。

方法
1. 使用Python PyAudio 模块在个人数字助理(PDA)上输入音频。
2. 使用 Google Speech API 将音频转换为文本。
3. 依赖解析器,用于分析句子的语法结构并建立单词之间的关系。
4. ISL 生成器:使用 ISL 语法规则对输入句子进行 ISL。
5. 使用签名头像生成手语。
未来范围
1. 由于聋人通常被剥夺与他人的正常交流,他们不得不依靠翻译或一些视觉交流。现在解释器不能一直可用,所以这个项目可以帮助消除对解释器的依赖。
2. 系统还可以扩展为包含面部表情和肢体语言的知识,以便对输入语音的上下文和语气有一个完整的理解。
3. 应用程序的移动和网络版本将扩大覆盖面。
4. 集成使用计算机视觉的手势识别系统,建立双向通信系统。