加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 - 核心网 (https://www.hexinwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Python爬虫大数据采集与挖掘(PPT、代码、视频)

发布时间:2022-12-07 13:34:56 所属栏目:大数据 来源:转载
导读:
本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下:
1、教学用的PPT
下载链接(网盘): 提取码: 5c4y (如果链接失效,请转至留言处获得

大数据爬虫_大数据和爬虫_爬虫大数据

本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下:

1、教学用的PPT

下载链接(网盘): 提取码: 5c4y (如果链接失效,请转至留言处获得最新下载方法)

分别对应于书的章节,共有12个PPT。

PPT1:大数据采集的重要性、技术体系、爬虫合规性、应用现状以及技术发展趋势等。

PPT2:相关基础技术和方法,包括HTML语言规范、页面编码体系与规范、以及广泛用于Web页面简单信息提取的正则表达式。

PPT3: Web应用架构技术,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。

PPT4: 普通爬虫页面采集技术,包括Web服务器连接、爬虫策略、超链接处理及Python的实现。

PPT5: 动态爬虫的相关技术,包括动态页面内容生成、交互、动态页面采集的若干种典型方法和Python实现技术。

PPT6: 从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术。

PPT7: 主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。

PPT8: 关于DeepWeb的数据采集技术及实现。

PPT9: 微博信息采集方法及实现,包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。

PPT10: 反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。

PPT11: 大数据采集应用对非结构化文本的处理技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。

PPT12: 两个案例(新闻阅读器、SQL注入的爬虫监测)

2、相关Python代码

具体下载地址见书本的附录A,包含了以下例子。

Prog-1-error-handle.py 爬虫的错误处理方法

Prog-2-hyper-link-extraction.py 超链接提取方法

prog-3-robotparser-demo.py Robots协议文件解析

Prog-4-cookie-demo.py 在爬虫中使用Cookie

Prog-5-HTMLParser-test.py 使用HTMLParser进行页面解析

Prog-6-lxml-test.py 使用lxml进行页面解析

Prog-7-bs-sinanews.py 使用BeautifulSoup进行新闻页面解析

Prog-8-html5lib-test.py 使用html5lib进行页面解析

Prog-9-pyquery-sinanews.py 使用Pyquery进行新闻页面解析

Prog-10-topic-pages.py 主题爬虫

Prog-11-book-info.py 图书DeepWeb爬虫

Prog-12-weiboUserInfo.py 微博用户信息采集

Prog-13-weiboMsgInfo.py 微博博文信息采集

Prog-14-doc-vectors.py 文档向量空间模型构建

Prog-15-train-classifier.py 训练分类器

Prog-16-classify.py 使用SVM进行分类

Prog-17-LDA-sklearn.py LDA模型的Python实现

Prog-18-LDA-gensim.py LDA模型的Python实现

Prog-19-matplotlib-examples.py matplotlib的使用

Prog-20-wordcloud-example.py wordcloud的使用

Prog-21-sinaNewsSpider.py 新浪新闻采集与提取

Prog-22-KeywordCloud.py 新闻阅读器的关键词输出

Prog-23-LDAnewsTopic.py 新闻主题发现

Prog-24-check.py 使用爬虫进行SQL注入安全监测

crawler-strategy 4.4.2的完整程序,爬虫策略

classify 11.3的例子,包含训练数据、测试数据

app-1 12.2的样例

LDA 11.4的例子

sqlijnect 12.3的例子

3、视频

300分钟的讲课视频大数据爬虫,可以直接手机扫书中的二维码,即可观看。

4、相关拓展阅读

本公众号不定期推送与《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》相关的文章,是作者在相关领域教学科研中的一些资料,可以加深对书中一些问题的理解。部分推送的文章有:

爬虫应用案例

爬虫技术

大数据技术

模型与算法

更多文章可进入本公众号历史消息阅读。

大数据和爬虫_大数据爬虫_爬虫大数据

(编辑:拼字网 - 核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!