0%

python spider

web spider


Search Engine

Crawl the web page

  • Robots协议(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取

Data storage

  • 搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库
  • 页面数据一般是HTML

Pre-processing

  • 搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。
    • 提取文字
    • 中文分词
    • 消除噪音(比如版权声明文字、导航条、广告等……)
    • 索引处理
    • 链接关系计算
    • 特殊文件处理
  • 搜索引擎通常还能抓取HTML以外的和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等
  • 搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序

Provide search services and website ranking

*