python 爬虫实例(python爬虫是什么)

发布时间 : 08-05

当然是批量下载B站视频啦,主要分为2步,首先爬取视频url地址,然后根据url地址下载视频,下面我简单介绍一下实现过程,实验环境win10 python3.6 pycharm5.0,主要内容如下:

这里为了更好的说明实验过程,以爬取B站的TED演讲为例,如下:

1.首先,爬取视频的url地址信息,B站视频的信息是动态加载的,存储在一个json文件中,所以需要进行抓包分析,按F12调出开发者,F5刷新页面,查看所有抓包信息,如下,可以看到json格式加载的视频信息:

2.接着就是获取上面的json文件,解析这个json文件,提取到我们所需要的视频信息,这里主要是获取到url地址信息,代码如下,主要用到requests和json这2个模块,其中requests用于获取json文件,json用于解析json文件:

运行程序,效果如下,已经成功获取到视频信息:

3.最后就是根据视频url地址批量下载视频了,这里主要用到you-get这个模块,安装的话,直接在cmd窗口输入命令“pip install you-get”就行,基本使用方式“you-get 视频URL地址 -o 视频存放目录”,这里我们直接使用os.system执行这个命令就行,主要代码如下,非常简单:

运行程序,截图如下,已经开始下载视频:

接着打开对应的视频存放目录,就可以看到正在下载的文件,如下:

至此,我们就完成了利用python爬取并批量下载B站视频。总的来说,整个过程非常简单,就是步骤有些繁琐,只要你有一定的python爬虫基础,熟悉一下上面代码,多调试几遍程序,很快就能掌握的,网上也有相关教程和资料,非常丰富详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。

怎样利用python打开一个网页并实现自动登录?

这个非常简单,python的selenium模块就可以轻松实现,下面我简单介绍一下实现过程,感兴趣的朋友可以尝试一下:

1.首先,安装selenium模块,这个直接在cmd窗口输入命令“pip install selenium”就行,如下:

2.安装完成后,这里还需要下载浏览器驱动程序,不然程序在运行的时候会报错,根据浏览器的不同,驱动也有所不同,这里以chrome浏览器为例,需要下载chromedriver.exe这个程序,firefox则是geckodriver.exe,如下,选择适合自己平台的版本即可:

3.解压文件后,需要将chromedriver.exe复制到python安装目录下,接着就可以直接编写代码自动打开浏览器了,测试代码如下,非常简单,以打开某度主页为例,如果程序可以正常打开页面就说明selenium安装成功:

4.最后就是定位元素,模拟登陆的过程,这里以自动登陆csdn为例,测试代码如下,非常简单,根据id,css,name,xpath等找到对应元素,然后send_keys输入文本或click点击按钮就行,这里尽量sleep等待一下,等待页面加载完成,否则程序可能会报错:

至此,我们就完成了利用python来打开一个页面并实现自动登录。总的来说,整个过程非常简单,只要你熟悉一下selenium这个框架及相关元素定位方法,多调试几遍程序,很快就能掌握的,网上也有相关资料和教程,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

文章推荐:

python 爬虫实例(python爬虫是什么)

个人所得税是怎么计算的,126块应该是多少工资的税?

电脑开机就出现结束进程怎么办?

Python如何绘制k线图?有哪些可行的方法?

python小数转二进制用哪个函数?