分析百度对图片抓取的信息有哪些

  • 发布于:2019-06-12
  • 206 人围观

我们都知道,目前图片搜索的主要依据是图片的alt和title的定位文字,也就是说,我们在搜索图片的时候,只有当我们搜索的关键词与图片的定位文字相匹配,图片才会出现在检索结果中。除了图片的定位文字,百度还将会抓取图片的那些信息呢?我们来看下百度搜索的筛选项,借此来分析百度的图片抓取信息项。

1.图片格式;

这是在百度图片搜索首页点击-高级之后进入的高级搜索截图,通过这个界面我们可以直观的发现,除却关键词和图片限定网址之外,目前百度可以提供jpg、gif、bmp、png四种格式的图片检索,也就是说,百度在收录图片的时候,图片格式将作为一个信息点被抓去并建立索引。

2.图片的抓取时间;

举例来说,我们在百度搜索圣诞节,排在前面的图片基本上都有一个抓取时间的提示,这说明百度对于新抓取的图片会在搜索的死后默认把它们排在前面。其他长较早抓取的图片则以快照时间来标识。

3.图片的像素大小;

在图片搜索结果左侧,有一列筛选的功能选项。首先是图片尺寸,百度也提供了按照预设精准的图片尺寸来进行检索。这表明百度在收录图片时会抓取并记录图片的精确尺寸数据。

4.整个图片的色彩分布数据;

百度提供了根据特点色彩来筛选图片,目前支持12种色彩的筛选。通过这个功能我们可以推测出,百度在收录图片的时候,会按照某种颜色在整个画面中所占比例的阙值,把图片按照这12种颜色来分类,并以此为据建立一个检索项供网友精确筛选。

5.图片的动静格式;

上面有讲到,目前百度收录4种格式的图片,继而又把这四种图片按照动态和静态划分为两类。但我在筛选的时候发现,百度这个检索项只不过把gif格式的图片单独拿出来,默认为它是动态图片,而其他三种格式的图片则归为静态图。

6.图片主要展示的内容;

百度最后一个精准项提供的筛选项我们可以判断,实际上百度目前已经初步能够对图片展示的内容做一定的判断评价了。虽然说这个功能现在还很弱,但对搜索引擎来说,毕竟迈出了图像表达内容识别的一步。可以预测,将来百度对于图片展现的内容将会有更多的识别技术出现。

众所周知,目前百度对于图片的抓取相对文字内容来说还是比较薄弱的,但同其他搜索引擎比如360的图片搜索来说,百度还是具备相当的领先优势的。当然,我们也不能对360太过苛求,毕竟3B大战也才刚刚拉开帷幕,相信二者以后在搜索领域里的碰撞将会更多。站在用户的角度上考虑,我们希望3B的每一次碰撞都能给我们带来更精彩的搜索体验。

万企互联
标签: