ITPub博客

首页 > 应用开发 > Python > 好程序员Python培训分享Python之初识网络爬虫

好程序员Python培训分享Python之初识网络爬虫

原创 Python 作者:好程序员 时间:2020-09-21 12:44:15 0 删除 编辑

   好程序员Python 培训分享 Python 之初识网络爬虫, Python 是一种怎样的计算机程序设计语言 ? 你可能已经听说过很多种流行编程语言,比如非常难学的 C 语言,非常流行的 Java 语言,适合初学者的 Basic 语言,适合网页编程的 JavaScript 语言,那么零基础学 Python 之初识网络爬虫,今天我们先从网络爬虫的定义、与浏览器的相似之处和网络请求等基础内容入手。

   1 、零基础学 Python 之初识网络爬虫—网络爬虫的定义

   网络爬虫( 又被称为网页蜘蛛,网络机器人 ) ,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的 URL ,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足系统的一定停止条件。

   2 、零基础学 Python 之初识网络爬虫—网络爬虫与浏览器相似之处

   网络爬虫的抓取过程可以理解为 模拟浏览器操作的过程。

   浏览器的主要功能就是向服务器发出请求,在浏览器窗口中展示您选择的网络资源。这里所说的资源一般是指 HTML 文档,也可以是 PDF 、图片或其他的类型。

   资源的位置由用户使用 URI( 统一资源标示符 ) 指定。

   浏览器解释并显示HTML 文件的方式是在 HTML CSS 规范中指定的。这些规范由网络标准化组织 W3C( 万维网联盟 ) 进行维护。

   3 、零基础学 Python 之初识网络爬虫—网络爬虫抓什么

   一般来讲,抓取的内容主要来源于网页,目前,随着这几年移动互联网的发展,越来越多信息来源于移动互联网App H5 等,所以爬虫就不止局限于一定要抓取解析网页,还有移动互联网 app H5 等的网络请求进行抓取

   对网络爬虫而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。

   4 、零基础学 Python 之初识网络爬虫—了解网络请求

   网络爬虫以HTTP HTTPS 请求为主,读取网页内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。

   超文本传输协议(HTTP HyperText Transfer Protocol) 是互联网上应用最为广泛的一种网络协议。所有的 WWW 文件都必须遵守这个标准。设计 HTTP 最初的目的是为了提供一种发布和接收 HTML 页面的方法。



来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913864/viewspace-2722780/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2019-03-20

  • 博文量
    342
  • 访问量
    150256