?
重庆时时彩官网下载,时时彩官网投注平台,大乐透 选号,时时彩论坛100ssc 凤凰彩票

谷歌新进展:用DNN模型为YouTube视频添加环境音效

时间:2017-10-22 03:21来源:未知 作者:admin 点击:
我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比

  我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比如会被突如其来的骚动所惊吓,或被情景喜剧中的背景笑声所感染。

  影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起,他们就开始让视频自动生成字幕。如今,这一功能又有了升级版——雷锋网(公众号:雷锋网)了解到,谷歌于昨日(3月23日)宣布,将为YouTube视频中的自动字幕增加音效信息,使人们拥有更丰富的视听体验。

  研究人员在开发DNN模型时,遇到的第一个挑战是难以获得大量有标记的环境音信息。而他们的解决方法是,转向使用弱标记数据来生成足够多的数据集。不过,问题又来了:

  研究人员最后选择检测的三种环境音是“鼓掌”、“音乐”和“笑声”,因为在人们添加的字幕中,这三种被添加的次数最多,并且传达的语义信息也比较明确。

  除了选定环境音,研究人员也做了许多检测环境音的工作,包括开发基础与分析框架,探测声音事件,以及将其整合进自动字幕中,这些工作可使以后在音频中整合其它类型的声音(比如“铃声”、 “犬叫声”)变得更加容易。

  将视频传到YouTube上后,DNN会自动查看音频,并预测其是否包含人们感兴趣的声音事件(sound event)。由于多个音频可以同时出现,所以模型需要在每个时间段内对每个音频进行预测,直到预测完所有音频(如下图所示)。最后会得到一个密集流,dnn即表示词表中的声音以100帧/s的频率出现。

  同时,研究人员还使用了含有ON和OFF的改进维特比算法(Viterbi algorithm),让密集流预测变得更平滑。每个音效的预测断对应ON。

  但是,这样的分类系统可能会导致模型无法区分同一时段内发生的不同事件。这就需要模型在信息误报(false positives )和信息丢失这两点中寻找平衡。具体做法是:

  除此之外,研究人员还重点关注了声音监测系统的错误反馈。事实证明,音效信息错误会并不会使用户体验降低,原因可能是以下两点:

  研究人员最后表示,系统偶尔犯下小打小闹的错误影响不大,只要提供的信息大部分正确,还是会赢得用户的好评。谷歌新进展:用DNN模型为YouTube视频添加环境音效字幕

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------
?