本网页已闲置超过3分钟,按键盘任意键或点击空白处,即可回到网页

使用Intel Neural Compute Stick 2示范的可教学机器
发布时间:2020-09-24
分享到:
使用Intel Neural Compute Stick 2示范的可教学机器
发布时间:2020-09-24
分享到:

在这个项目中,我构建了启用语音的可教机器,该机器可以扫描书页或任何文本源中的文本并将其转换为上下文,用户可以提出与该上下文有关的问题,并且该机器可以仅使用上下文进行回答。我一直想制造一种易于部署且可以轻松针对给定上下文进行培训而无需任何互联网连接的边缘设备。
使用了三种机器学习模型:
1. Tesseract OCR(基于LSTM的模型)
Tesseract是一种OCR引擎,支持unicode,并具有开箱即用地识别100多种语言的能力。可以训练它识别其他语言。
2. DeepSpeech(TensorFlow Lite型号)
DeepSpeech是一个开源的语音转文本引擎,使用由机器学习技术训练的模型,该模型由Google的TensorFlow简化实施。
3. BERT
BERT是一种语言表示模型,代表变压器的双向编码器表示。预训练的BERT模型仅需增加一个输出层即可进行微调,以创建适用于各种任务(例如问题解答和语言推论)的最新模型,而无需进行大量针对特定任务的体系结构修改。
前两个模型在Raspberry Pi 4上运行,最后一个模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上运行。
Raspberry Pi 4连接到ReSpeaker 2-mics PI HAT,后者用于使用板载麦克风接收语音。使用CSI2连接器将Raspberry Pi摄像头模块连接到Raspberry Pi 4,该接口用于扫描书中的文本。ReSpeaker 2-mics PI HAT上有一个按钮,用于触发扫描过程的开始。按下按钮后,用户必须在5秒钟内向摄像机显示文本(书页或带有一些有意义的英语文本的文章,例如故事段落或Wikipedia条目)。使用Tesseract OCR应用程序捕获书籍页面图像并将其转换为文本。捕获的文本用作BERT模型的上下文,该模型用于回答问题。机器要求用户提出问题。用户提出问题,然后使用DeepSpeech应用程序将问题语音转换为文本。转换后的问题文本将被送入运行在英特尔神经计算棒2上的BERT模型中,该模型将根据置信度得分推断出答案。使用Festival应用程序将最佳答案文本转换为语音,该应用程序在连接到Raspberry Pi 4音频输出(3.5毫米插孔)的扬声器上播放。

加入微信技术交流群

技术交流,职业进阶

关注电路设计技能公众号

了解最新技术方案

加入电路城 QQ 交流群

与技术大牛交朋友

讨论