ITPub博客

首页 > 大数据 > 数据分析 > 爬虫入门经典 | 一文带你爬取传统古诗词!

爬虫入门经典 | 一文带你爬取传统古诗词!

原创 数据分析 作者:wxt020 时间:2020-10-31 18:11:18 0 删除 编辑

中国文学源远流长,早在远古时代,虽然文字还没有产生,但在人民中间已经流传着神话传说和民间歌谣等口头文学。随着时间线的推移,先后出现了:诗经(西周)——楚辞(战国)——乐府(汉)——赋(晋)——唐诗——宋词——元曲——明清小说。

现在一提,不知各位想到的是什么。但是博主本人首先想到的诗歌是《阿房宫赋》、《水调歌头·明月几时有》、《念奴娇·赤壁怀古》、《茅屋为秋风所破歌》等等。可能是因为这些个别的诗歌贼长,在高中时期折磨过我的原因吧-。-

现在有一个新的职业——网络文学作家,他们写小说发布在网上,通过其有趣的故事情节及其丰富的主分线并行等特点吸引大批作者,从而达到挣钱的目的。但是,不知你知道与否,早在我国古代的明清时期,白话小说就已经蓬勃发展了。在那是,出现了“章回体小说”。一提到“章回体小说”,我们就不得不提到四大名著。名著之所以能够成为名著,是与其特点分不开的。它们的特点是分回标目,常取一个或两个中心事件为一回,每回篇幅大致相等,情节前后衔接,开头、结尾常用“话说”“且听下回分解”等口头语,中间穿插诗词韵文,结尾故设悬念吸引读者。除了四大名著之外,还有博主最喜欢的两本书:《儒林外史》、《聊斋志异》。哈哈,博主在此声明,我不是推销小说的啊。只是单纯的有感而发而已。如果各位想要看看博主推荐的书的话,也是可以的。总之你看了也没有任何坏处。

我国古典文学如此之多,在整个世界上也是实属罕见的。那么,作为新世纪国家的创造者,我们因该的做的就是传承好古典文学。古为今用,弘扬社会主义价值观,好让中国文学能够继续更好的继承下去。

现在因该会有读者会说,改进入正题了。🆗,从现在开始进入正题。

上面说了那么多,虽然看似与本文无关,但是其实是有关系的。想象一下,既然我们要更多的品味古典文学,我们是不是要专门的查看借鉴。但是又由于现在我们的时间都是零碎化的时间快,单独看书又不太现实。现如今网络如此之发达,我们每个人基本上都已经离不开电脑、手机了。那么我们可不可以通过Python爬虫的方式,把这些内容全不爬取出来,然后通过电子设备进行阅读呢?

下面就开始实现此设想。

二、网页分析

从理想到现实的第一步,当然是先找到网站了。

古诗文网https:// .bzcdn.cn/

我们打开网址之后,发现网页如下:

2.1 确定要爬取的内容对应的url

我们先查看网页的结构

  •  1. 先点击更多 查看多有的类型

代码:

start_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so.gushiwen.cn"

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69984164/viewspace-2731394/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
新零售拼购商业模式系统开发找许生微/电17340689890,我们能定制开发:我们了解市场上的所有的热门案例、热门模式,不单单是单一的一种模式,软件等多种商业模式系统,我们都能为您定制开发,支持定制开发。

注册时间:2020-09-19

  • 博文量
    18
  • 访问量
    6064