还剩6页未读,继续阅读
文本内容:
关于网络爬虫的实现实践报告Python成果名称关于网络爬虫的实现Python
一、实践目的通过学习及课后练习,更加熟练并且有效的运用python可以独立的从网络上获取自己想要的资源,分析并提取有用的数据统计这个专业的专业支撑是以数学为支撑,但在大数据时代下,数学知识与高精尖的互联网知识相结合已经成为主流趋势,所以在这两周的实践周中,我们学习python,就是提高自己的专业能力,获取对本专业之外的技术支撑,从而提升自己的核心竞争力Python是作为技术支撑,我们以此为突破口,结合自己本专业统计,更加明确就业方向,就业前景,大时代背景等更深层次的问题作为一个大学生在实践周之中可以完成独立学习思考的同时兼具团队合作的能力,成为一个更加全面多方位成长的有才之人
二、实践内容.项目的分析1爬虫是什么?定义向网站发起请求,获取资源后分析并提取有用数据的程序
2.爬虫基本流程如下
(1)发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应()获取响应内容2如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTMLJson字符串,二进制数据(图片或者视频)等类型()解析内容3得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理()保存数据4保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件import requests导入网络进行下载from requests.exceptions importRequestException导入网络进行下载过程有报错异常,然后倒入一个报错库import re导入REimport json爬出来的所有图片,文字存在这里from multiprocessingimport Poolpython进程池awino-oxttv-U C3BWM04—•«•公公♦间—位」a-^ntrsikQamH的…仁小田一・®电m..i3a•午tt-W u男♦女VR,,»,,》,♦:,♦爱M-ilJ!•*健♦廿点Mtn14XN53ft510qqcom或建tooIA»»KHDSC八83j词褊..-个人得介@aixia*nuFAA.发M,aw©MM..项目的设计3headtitel统计1708班/titel/headbody170835/body/html统计1708!ft17OB
35.项目的实现4做不同的算法输出print a,b,c以上叙述即为项目实现:3■W7Ml•,♦—.项目的说明5在实践学习的最后,开始接触真正意义上的爬虫,我们学习的是爬取图片,以下是爬取图片的一段代码的步骤然而在做此项工作之前,一定要先确保自己的电脑可以实现这一项目,如果不能实现,就要先安装相应的程序安装完成之后,在进项此项活动步骤如下第一步〃获取网址第二步〃把网址变成网页第三步〃提取网页的值(爬取网页的值/爬虫)第四步〃把你的爬取下来的值放到桌面到此,你所需要的就基本完成,紧接着的就是去运行它,看是否成功;如果不成功,就查找问题所在,修改之后,继续进行
三、实践总结在学期结束后,学校组织安排了多项课程,我选择了图论设计,主要学习关于python的有关知识经过了两周的实践周,我获得了许多专业知识,学习了新的编程技术,对目前的社会就业趋势,包括目前社会对人才的需求,以及对自己的未来规划都有了新的认知首先对python一门编程语言有了新的认识,python也可以说是网络爬虫,可以快速的捕捉截取到你所需要的信息,很简单的一个例子就可以说明,假如我们想在一篇文章中想要获取我们想知道的关键词或者关键信息很简单,但如果是在一百篇一千篇甚至整个知识网络中提取到关键词是一个非常庞杂的工程,但利用一些编程语言,我们可以只在几分钟内快速捕捉到内容,为我们的学习以及工作都提供了便利,甚至还可以创建聊天服务器、点对点文件共享系统和功能齐备的图形计算机游戏这些任务乍一看好像很难,但最终你将发现,它们实际上大多容易得难以置信如果你想下载源代码,可访问Apress网站那python就是其中一种编程语言,可能与c语言、c++这些编译型语言相比较,没有那么快,但他可以节省很多时间,而且对于我们这些没有过多接触过编程语言的统计专业学生来说,它更易操作更易学,Python是一种知道如何不妨碍你编写程序的编程语言它让你能够毫无困难地实现所需的功能,还让你能够编写出清晰易懂的程序所以在这次的学习中,让我初步了解到互联网的魅力以及编程的魅力那在基本了解了python的用途后,我们也了解到python在未来社会发展中的发展前景随着我国在人工智能AI的投入和发展规划,python作为AI的开发语言,它的前景是非常广阔的,之前没有学习过关于这方面的知识,从来不知道python的应用面如此之广,其实在日常生活中我们也可以发现随处可见的python比如说现在青年人非常喜欢用的APP豆瓣网、知乎用的都是用的python,而python的web开发框架是非常大的一个特点,比如用python搭建一个网站只需要几行的代码就可以完成而python所拥有的完整的生态环境十分有利于数据分析处理,比如现在最热的“大数据”分析所需求的操作都可以通过python来处理那它除了可以写一些代码来创造新的Web,我们还可以通过它来完成一些自动化测试,因为python有丰富大量的第三方库,满足接口测试、单元测试、WEB自动化和APP自动化包括性能测试还有咱们最常见的网络上的很多测试,几乎已经全部包含在其中了那最早使用python做网络爬虫的是谷歌,python做爬虫非常容易上手,市场占有率比较大,现在公司就本做爬虫都是用python来做的那人工智能绝对可以说是现在大热的研发方向,他也离不开python的使用,而人工智能的发展潜力毋庸置疑,但对其能力及学历要求相对也非常高,在这次实践周能学习python已经是在提升自己硬实力那最后还要提到一点就是运维,其实我们现在所使用的所有的网站,程序员编写出的程序代码网页,我们都是需要不断地运维,那么python对与运维这个工作起到很大作用,因为使用python脚本进行批量化的文件部署和运行调整都成了Linux服务器上很好的选择那再了解了一些python知识之后,我对我自己的本专业也有了新的想法,我的本专业是统计,我在我的两年大学专业课学习中,主要学习了数学分析、高等代数、空间解析几何以及概率论和数理统计这些数学方向的课程,目前接触到的计算机知识也仅限于office办公应用以及access数据库,当进一步学习python之后,我发现统计是以数学为基础支撑,计算机编程为辅助技能的这样一个学科,像在以前的统计主要靠比较原始的一些数学算法,包括对数据的处理一非常的复杂,但在结合计算机编程后,它的精度准确度普及度都大大提升了,统计其实是与计算机的交叉学科,旨在用计算机解决问题,在我们大三的课程中会学到R语言,但在我们学习R语言之前,先接触到了python,为我们以后的计算机学习都奠定了很好的基础专业与计算机编程之间的关系是非常紧密的,那在这次实践周学习中我深有体会,而老师不仅给我们教学了专业技能,同时分享了他入行的一些经验,以及关于统计与编程结合后,我们可以选择什么样的就业方向,这些经验的分享对我来说可能比专业技能更有价值在进入统计专业之前,其实对它并不是很了解,包括它的专业内容以及就业方向,那在这短短的两周内我了解到了一个职业叫做大数据开发工程师,首先在这个大数据时代下,统计专业是一个热门专业,那作为一个统计学生想要进入这个行业我们得具备哪些条件,主要从事的是哪方面的工作,据我了解数据分析是从事数据工作的职业之一,还有数据工程、数据科学、数据产品等等,简单来说都是搞数据的,因为技能点加的不同,就有了不同的职业发展方向,拿数据分析师该怎么加技能点,数据分析是结合行业、业务知识的积累更重要,但是随着数据处理量增加,提取数据就需要sql,日志清洗需要shell,数据挖掘python或者R语言,集成工具spss、sas,交互式图表上bl那我们在这么多技能点中就提到了python,所以这次的学习让我们距离这个职业就点上了这个技能点那么当然我们除了工具的使用,我们还需要学习一些业务知识,知识体系中就包括了心理学、医学、经济学、逻辑学、运筹学、社会学等等,行业不同深入研究的自然也不同那在工具和业务知识同时具备的情况下,我们还要懂得统计算法,就是在第二点中我提到关于在大学专业理论课的学习,理论与实践相结合,这才是数据分析最终所需要呈现的结果其实除了以上所说到的,数据分析也还有很细的分类,比如说后端的集群、分布式计算、数据仓库,中间层的模型实现、策略算法,前端图标呈现、商业智能,只要精通其一,就已经可以在业界有一席之地这也是我目前在这一段时间内对于计算机以及统计专业数据分析了解到的比之前更全面的方向,让我知道统计这个专业的就业前景是非常广阔的,之前我以为统计只是一门枯燥的专业,但其实统计是个万金油,金融业需要股票分析师、市场研究员,互联网专业有数据分析师和数据挖掘分析师,那政府部门则需要统计师,医学行业需要医学统计师,甚至夸张一点,如果你热爱时尚,都可以用数据分析来预测下一季的流行色彩,对类似于HM、ZARA、UR等快销品牌进行统计分析,和任何学科、行业都能无缝衔接在这些全方位的了解之下,为我之后的职业规划都带来了新的灵感和突破,也让我对自己现在所学习的专业更加有了信心和动力在这次的实践周之中我还学会了团队的合作以及它的重要性,每日的紧张的课程之后都会留下每日的任务,在之前的学习中一直都是一个人,而在这次实践周之中我们每次在课下有小组分组,一起去探讨所学的内容,包括完成老师布置的课业这小小的合作也影射到了之后在工作中的团队合作,刚才讲到无论是数据分析、数据挖掘或者是python操作设计都不是仅凭一人之力,那在我们现实生活中就有许多例子比如说现在最大热的阿里巴巴,它能开辟一个互联网购物的新纪元,断然不是仅仅只靠马云一人,而是依靠强大的团队,没有蔡崇信的阿里巴巴可能连资金都融不到,一个创业团队,最重要的就是能力互补以及团队凝聚力合作力,马云所组建的18人团队是完全足够的,彼此间的互补和信任促就了现在的互联网巨头,这也就体现到了团队之间的合作必不可少,而且一定是相互彼此间的信任在之后无论是进入国企私企还是政府部门亦或者是创业,团队协作能力包括团队凝聚力,作为现在的一个当代大学生也是应该必须具备的一点能力,那在这次的学习中,我也逐渐懂得团队合作的重要性,也慢慢建立起了与队友之间的信任,在以后的学习生活中,希望可以有更多能锻炼我们团队写作能力的活动出现在以上共提到五点,了解python的基本内容并学习,在学习过程中更加深入了解到了python未来的发展前景,并且结合本专业统计去融合这两门学科的学习,也分析了目前大数据时代以及人工智能的大热之下,作为一个统计专业人才数据分析人才对于专业技能的需求以及其就业发展水平及前景,最后提到了一点团队协作能力,基于以上五点表明了我在此次实践周中对于python的更加多方位的了解以及对于python多个方面的分析还有自己对于python最真实的想法在这次为期两周的实践周中,除了专业知识的学习,主要是开阔了自己的眼界,打开了自己的格局,相对于大一大二时对自己专业的迷茫以及对整个社会行业的无知,现在可以去初步分析一些社会问题,了解到了社会的需求,更加懂得在有限的时间内如何去高效快速的提升自己的能力学校的精心安排以及老师的认真负责,让我这个在学校这所大花园里接触到了外面的世界,引发了我的许多思考,无论是对于专业的学习还是对未来的发展都有了新的想法,有了新的方向老师在授课中提到“在现在这个高速发展且相对公平的时代是给了每一个人去展示自己的舞台,那我们应该认清自己实力,弥补自己的缺点,精进自己的专长,真正做到一个全方位需要的技术型人才”这是非常触动我的一点,平常接触不到真正从事这个行业的前辈,这次能有机会去接触并学习,给了我许多启发,包括对python编程的基础操作也经过了细致的学习,在大三大四专业课学习的过程中,真正做到学以致用,将python、R语言与数据挖掘,多元回归分析这些理论型课程融会贯通,学习自己用python去编写一些简单的程序,做到像在这次实践活动中老师所说的全方位技术型人才。