加州大学圣地亚哥分校的研究人员开发了一种新的图片搜索方法,并声称这种方法就准确度和速度而言,都远远超过了现有的方法。该校电子和计算机系教授Nuno Vasconcelos说,这种方法改进了通常的用于训练计算机认识图像的机器学习方法,搜索引擎能自动以图像中的物体为图片命名,如“萝卜”、“伞”或“游泳者”。由于这种方法使用词语为图像标记,并对图片中的某些部分加以分类,它与人们通常在网络上进行的关键词搜索非常相像,Vasconcelos说。
目前在互联网上用关键词来搜索图片有点无的放矢,这是因为大部分基于图片的搜索使用的是数据编码,如文件名、日期,或关于图像的其它基本信息,而这些信息很可能是不完整的,或者对关键词搜索完全无效,或者根本就不存在。在过去的十年里,计算机科学家们一直在寻找能更好地识别和搜索图片的办法,但是使计算机超越数据编码并识别图片中的物体是一个很大的难题,到目前为止,大部分努力所取得的成功非常有限。
Vasconcelos说,虽然圣地亚哥分校的研究并没有完全解决问题,但它提高了方法的表现和效率,并且找出了以往人们解决这一问题的方法的某些局限。
圣地亚哥分校研究人员采用的方法是“基于内容”的,它可以根据颜色、纹理和线条等特征来描述图像中的物体。这些物体通过一系列的特征表现出来,然后与从其它图片中抽提出来的特征系列进行比较。这些特征系列是在统计意义上被描述的,计算机搜索的是统计上相符的图片。
“这一新的研究在这种方法的基础上加上了中间步骤”,致力于这一项目的Google研发工程师Redro Moreno解释说,这一新的步骤提供了描述图片中物体的“语义标签”或文字标签,而不是仅仅依赖于一组数字。
举个例子,想象我们提交一幅一条狗在草坪上的图像。图像中的物体被分析并和已知类别的物体比较,如狗,猫或鱼。然后计算机再进行一个统计分析,给出这一图像和这些类别的物体相符的机率。系统可能会给出图中主要物体是狗的可能性是60%,是猫或鱼的可能性是20%。这时,计算机就根据概率认定图像中有一条狗。这里的关键是用“语义空间”来表征图像,Moreno说: “这看起来大大地提高了搜索的效率。”
研究人员的系统之所以有这样的功能,是因为系统中输入了几千张包含有山脉、花朵、人物,水和老虎的图片,以及和这些物体相对应的语义标签。然后研究人员让系统识别含有尚无标签的物体的新图像,来测试系统的性能。与人类描述的场景相比较时,系统表现得不错:一只老虎在草丛中的图片促使系统找到了“猫”、“虎”、“植物”、“叶子”和“草”。而人为的标题是“猫”、“虎”、“森林”和“草”。当研究人员将他们系统的标签和别的基于内容的方法作比较时,他们的方法优于其它方法40%。换句话说,这种方法产生的与图像相符的词语要少一些。
在微软从事图像搜索的研究人员Larry Zitnick说,这项研究使得基于内容的搜索达到极限,并检验到计算机如何更好地工作。“他们正在做的是分析根据图像搜索物体所能达到的极至,而尽量地突破极限总是很好的。”他还猜测这种方法对大的图片组,如那些在互联网上的图片组是否同样有效。
Zitnick说圣地亚哥分校的结果对语图片中的简单物体非常有用。但它对于其它搜索,如区分美国的国会大厦和内布拉斯加州林肯的州议会大厦, 就无能为力了。“视觉问题是非常棘手的,我不认为任何一种方法能解决所有问题。” Zitnick说。
然而,“如果被嵌入到现有的搜索软件中,研究人员的方法可能有用。”Google从事图像搜索的软件工程师Chuck Rosenberg说。如果被嵌入桌面搜索,这种方法可以让人们根据图像的相似点搜索图像,但它不一定会帮助人们根据更模糊的概念如“幸福”来找到图像。Rosenberg说:“比如,我有可能想把一张一个幸福的家庭在傍晚散步的照片放入我正在制作的一张卡片,让计算机根据这一图片的内容真正找到那张图片,这超出了现在的技术所允许的范围。”
圣地亚哥分校的Vasconcelos猜想要让计算机识别更复杂的概念如图像中的欢乐需要至少五年时间,但这并不意味着现在的研究在那之前没有用,他说:“我们的期望应该是这一技术更像是一个帮手,而不是答案。”
摘自technologyreview.com,翻译:鱼敏坚
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。