收藏 分享(赏)

网络爬虫-Python和数据分析.pdf

上传人:陈琪琪 文档编号:46941 上传时间:2018-08-01 格式:PDF 页数:35 大小:5.88MB
下载 相关 举报
网络爬虫-Python和数据分析.pdf_第1页
第1页 / 共35页
网络爬虫-Python和数据分析.pdf_第2页
第2页 / 共35页
网络爬虫-Python和数据分析.pdf_第3页
第3页 / 共35页
网络爬虫-Python和数据分析.pdf_第4页
第4页 / 共35页
网络爬虫-Python和数据分析.pdf_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、网络爬虫, Python和数据分析王澎中国科技大学什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件爬虫有什么用? 做为通用搜索引擎网页收集器。(google,baidu) 做垂直搜索引擎.(找工作的搜索引擎: ,数据来源于: , , 等等) 科学研究:在线人类行为,在线社群演化,人类动力学研究,计量社会学,复杂网络,数据挖掘,等领域的实证研究都需要大量数据,网络爬虫是收集相关数据的利

2、器。 偷窥,hacking,发垃圾邮件(google hack.)爬虫是搜索引擎的第一步也是最容易的一步 网页搜集 建立索引 查询排序用什么语言写爬虫? C,C+。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。 脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取 C#?(貌似信息管理的人比较喜欢的语言)我曾经用来写过爬虫的语言 Perl: 古老的脚本语言,hack 语言,被用来写爬虫有着悠久的历史,因此,书本支持相当丰富:spidering ha

3、cks,Perl & LWP;强大的文本处理能力,数据库支持能力。缺点:有点怪异。 Python:相对年轻一点的语言。对于爬虫来说各方面能力还行,并且还在完善中,没有Perl那样有专门的爬虫书籍,不过网上能搜到一些文章。为什么最终选择Python? 跨平台,对Linux和windows都有不错的支持。 科学计算,数值拟合:Numpy,Scipy 可视化:2d:Matplotlib(做图很漂亮), 3d: Mayavi2 复杂网络:Networkx 统计:与R语言接口:Rpy 交互式终端 网站的快速开发?从一个简单的Python爬虫开始说明:加说明语句时要注意#需要英文编码里的,而不能是中文输入法中的#号,所以添加中文说明时先在英文输入法下打入#号后再切换到中文输入瀚海星云Pie 版的网页部分代码Pie版的Html树部分结构

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 网络技术 > 热门技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报