数据抓取(大数据抓取客户软件)

/ 0评 / 0

数据抓取(大数据抓取客户软件)

Hello,大家好,2021-09-28 跟大家分享下我们如何批量的抓取网页中的数据,以抓取汽车投诉量跟大家分享下如何批量抓取网页中的数据,这也是一个粉丝问道的百思特网问题,他预备买车想看下各个厂家的投诉量如何。话不多说,我们直接开端吧。如果你是进来懂得各厂家的投诉量以及投诉的车型排名的,直接拉到最后即可

一、剖析网页

我们以抓取车质网的汽车投诉为例跟大家演示下如何批量抓取数据,如下图,分离是第一页到第三页的网址,我们可能看到这三页的网址,仅仅只有标红的123也就是对应的页码是不一样的,其余的都是一样的

二、抓取数据

紧接着我们打开excel,然后点击数据功效组找到自网站,我们点击高等选项然后将代表页码的数字单独放置在一个输入框内,可以通过点击添加部件来添加输入框,当设置完毕后我们直接点击肯定

这样的话我们就进入导航器的界面,在这个网页中power query一共抓取到了两个内容,我们可以点击看下具体哪个是我们须要的数据,在这里table0就是我们想要抓取的数据,直接选择table0这个选项然后点击转换数据即可,这样的话我们就进入了powerquery的编纂界面

紧接着我们点击高等编纂器在let前面输入(x as numb(www.isoyu.com原创版权)er) as table =>然后将网址中的“1”更改为(Number.ToText(x))直接点击完成即可

这样的话我们就将我们前面的操作封装成了一个函数,我们只需输入对应的数字,然后点击调用就会跳到对应页码的数据

紧接着我们点击左边的一个空白的区域,点击鼠标右键选择新建查询,在其中找到其他源然后选择空查询,接着我们在编纂栏中输入={1..100}点击回车,这样的话我们就得到一个1到100的 序列,然后点击到表,将查询转换为表,直接点击肯定即可

紧接着选择添加列,然后找到自定义函数在功效查询中选择table0,直接点击肯定即可百思特网,这样话power query就会开端抓取数据,在这里我们抓取的100页的网页数据,这个进程可能会比拟漫长,在这里我大概耗时3分钟,抓取完成后每个序列的后面都会得到一个table我们点击左右反向的箭头来扩大数据,将应用原始列名前面的对勾去掉,然点击肯定,将我们添加的序列删除,这样的话就完成了,我们只需在开端中选择关闭并上载至即可将数据加载进Excel中,因为数据比拟多,这个进程也会消耗比拟多的时光,在这里我耗时大概1分钟

三、统计剖析

当数据加载进Excel中我们就可以通过数据透视表来的迅速的剖析数据,如下图是依据在车质网的投诉记载中抓取到的3000条数据然后通过数据透视表得到了投诉品牌以及投诉车系的排名,在这里3000条数据将近1个月的投诉量

以上就是我们批量抓取100页网页数据的办法以及百思特网各厂家的投诉排名,全部进程做起来耗时大概在7分钟左右,大部分时光都消费在数据的抓取与加载中。

怎么样?你学会了吗?赶快动手试试把