本网页已闲置超过3分钟,按键盘任意键或点击空白处,即可回到网页
最热资讯


亲,“电路城”已合并升级到更全、更大、更强的「新与非网」。点击查看「新与非网」
在这个项目中,我构建了启用语音的可教机器,该机器可以扫描书页或任何文本源中的文本并将其转换为上下文,用户可以提出与该上下文有关的问题,并且该机器可以仅使用上下文进行回答。我一直想制造一种易于部署且可以轻松针对给定上下文进行培训而无需任何互联网连接的边缘设备。
使用了三种机器学习模型:
1. Tesseract OCR(基于LSTM的模型)
Tesseract是一种OCR引擎,支持unicode,并具有开箱即用地识别100多种语言的能力。可以训练它识别其他语言。
2. DeepSpeech(TensorFlow Lite型号)
DeepSpeech是一个开源的语音转文本引擎,使用由机器学习技术训练的模型,该模型由Google的TensorFlow简化实施。
3. BERT
BERT是一种语言表示模型,代表变压器的双向编码器表示。预训练的BERT模型仅需增加一个输出层即可进行微调,以创建适用于各种任务(例如问题解答和语言推论)的最新模型,而无需进行大量针对特定任务的体系结构修改。
前两个模型在Raspberry Pi 4上运行,最后一个模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上运行。
Raspberry Pi 4连接到ReSpeaker 2-mics PI HAT,后者用于使用板载麦克风接收语音。使用CSI2连接器将Raspberry Pi摄像头模块连接到Raspberry Pi 4,该接口用于扫描书中的文本。ReSpeaker 2-mics PI HAT上有一个按钮,用于触发扫描过程的开始。按下按钮后,用户必须在5秒钟内向摄像机显示文本(书页或带有一些有意义的英语文本的文章,例如故事段落或Wikipedia条目)。使用Tesseract OCR应用程序捕获书籍页面图像并将其转换为文本。捕获的文本用作BERT模型的上下文,该模型用于回答问题。机器要求用户提出问题。用户提出问题,然后使用DeepSpeech应用程序将问题语音转换为文本。转换后的问题文本将被送入运行在英特尔神经计算棒2上的BERT模型中,该模型将根据置信度得分推断出答案。使用Festival应用程序将最佳答案文本转换为语音,该应用程序在连接到Raspberry Pi 4音频输出(3.5毫米插孔)的扬声器上播放。
树莓派4B性能实测,有史以来最好的树莓派
2019-06-26
一雪前耻,树莓派4是时候运行真正的Windows 10了?
2019-06-28
树莓派4B 1.2版本已经修复USB-C问题,树莓派4B是1.2版本对比1.1版本的区别
2020-03-04
树莓派4B,3B+和3B,如何配置WiFi和蓝牙
2019-07-09
树莓派4B的成功不在于它的性能
2019-06-28
树莓派4通过USB3.0实现SSD启动与在MicroSD卡中启动比较
2019-08-26
树莓派4B安装Windows 10
2019-09-06
树莓派4B:可能是最好的媒体播放器
2019-07-25
告别Raspbian,在树莓派4B安装Manjaro,还有比这更酷的系统吗?
2019-08-19
讨论