一种新的在线视频搜索工具本周被推出,它通过自动抄录讲师直观教具中使用的词语,使视频讲座的内容搜索变得更容易。
寻找云:上图,一种新的视频搜索工具,称为TalkMiner,在搜索一段O'Reilly的网络广播中提到的“云安全”。该工具让用户通过探测讲座幻灯片中的特定词汇并索引这些词汇,可以搜索在线视频讲座。
TalkMiner是由加州富士施乐帕洛阿尔托实验室(FXPAL)的研究人员们创立的,用以帮助学生和专业人士们搜索日益扩大的在线视频讲座和报告会的档案。“它让你有很好的机会找到某些东西,它们在标题或简介中没有提及,而是深埋在视频当中,” FXPAL的主任拉里·罗伊(Larry Rowe)说。
视频讲座正在成为一个日益流行的学习工具,越来越多的大学在提供它们,罗伊说。但是,如果你是一名为期中考试试图复习部分演讲的学生,或是一位从在线TED演讲中寻找某些具体内容的专业人士,这个过程并不是很快。即使你知道一个讲座的给定日期,仍不能不通览全部内容来找到特定的内容,罗伊说。
TalkMiner通过快速浏览视频找到发言者的演示幻灯片,来克服这些问题。它分析每秒一帧的画面,寻找演示文稿幻灯片中的蛛丝马迹,如它的形状和静态特性;捕获幻灯片中的图像,并调整任何倾斜的角度;使用光学字符识别(OCR)技术,来检测幻灯片上的文字。然后,这些文字被索引进TalkMiner的搜索引擎,那里目前已有15,000个来自如斯坦福大学、加州大学伯克利分校和TED这样机构的视频。
“OCR和搜索索引都已经被人做过了,”罗伊说。新的东西是从视频中自动萃取幻灯片的内容。
“视频制作的质量往往很差,”罗伊说。“所以,你必须找到幻灯片,然后清洁它们。”那些幻灯片可以出现在图像中的任何地方,有时根本不在画面中。“如果他们有多个相机时,他们可能会在幻灯片的全屏图像和演讲人的画面之间不断切换”。
缺乏讲座录像的标准格式也于事无补。“这是一个非常无法控制的环境,”约翰·阿德科克(John Adcock)说,他也参与了这个项目。他说,挑战是使一个系统有效,无论讲座是如何录制的。
虽然TalkMiner目前的格式是针对特定应用的,但它会最终拓展到任何可用于OCR的情况范围中,阿德里安·乌尔格斯(Adrian Ulges)说,他是凯泽斯劳滕的德国人工智能研究中心的研究员,主攻多媒体分析和数据挖掘。谷歌街景可以使用TalkMiner获取有关特定地理区域的附加信息,如开放时间、特别优惠,他说,它也可以提高移动应用程序的准确性,如Word镜头,它用来翻译手机镜头观看过的文本。
“光学字符识别技术仍不是一个彻底被解决了的问题,即使有着相当不错的识别率,”乌尔格斯说。不同的光线条件、差的对比度、不同颜色的幻灯片、甚至不同的字体有可能对OCR造成麻烦。
但是,即使OCR没能辨认出任何文字,TalkMiner仍然可以应用于一个目的。阿德科克解释说,“非常多的TED演讲中,幻灯片都不带有文字”,但是,只是捕捉显示任何形象的静态图像,就足以创造一个可视化索引。
最初,研究人员们试图根据发言者真正说了什么,通过探测音频轨道的关键词来索引视频。但是,语音识别软件不够可靠,不足以使其准确,罗伊说。以目前的方式,用户不必专注于拷贝下幻灯片的内容,这样,他们就可以密切注意演讲者在说什么,他说。没错,在理论上,懒惰的学生可能会过分依赖TalkMiner,而错过重要的信息。“但我认为,这只是一种学习的工具,和所有其它工具一样,它也会被滥用。”
视频搜索更进一步
评论
11 views