「爬虫实践」爬取豆瓣 Top250 电影、51job 特定岗位的信息
¶爬取豆瓣Top250电影信息 ¶具体步骤 针对每一页网页(每页有 25 条电影信息,共有 10 页): 爬取网页:指定待爬取网页的URL,模拟普通浏览器访问该网页时需要的HTTP请求头(尤其是 User-Agent 字段),通过 urllib 库发送请求并得到响应。若没有发生异常,则对响应正文进行读入(以UTF-8格式) 解析网页:通过 Bea ...
「Excel文件的写入」xwlt库的使用
¶引入方式 1import xlwt ¶创建方式 1234workbook = xlwt.Workbook(encoding="utf-8") # 创建对象,可理解为一个文件workSheet = workbook.add_sheet('sheet1') # 创建一个工作表workbook.save( ...
「网页解析与信息提取」BeautifulSoup库、Re库的使用
¶基于BeautifulSoup库解析HTML页面 BeautifulSoup库,是用于解析、遍历、维护“标签树” 的功能库 约定的引用方式: 1from bs4 import BeautifulSoup 每一个 BeautifulSoup 类,对应一个HTML/XML的全部内容 ¶Beautiful Soup库解析器 获取 BeautifulSo ...
「网络数据爬取」urllib库的使用
¶网络爬虫的限制 来源审查:检查来访HTTP协议头的 User-Agent 域,只响应浏览器或友好爬虫的访问 发布公告:Robots 协议(网络爬虫排除标准),告知所有爬虫网站的爬取策略,要求爬虫遵守 Robots 协议,一般放置在网站根目录下的robots.txt文件。 在爬虫之前,需要识别robots.txt,再进行内容爬取 原 ...
计算机网络错题汇总
¶Chap 2. 物理层 编码 -> 基带调制 光纤分为多模光纤和单模光纤 奈奎斯特定理:理想低通信道下的极限数据传输率 = 2Wlog2V2W\log_2{V}2Wlog2V WWW 是带宽(单位:Hz),VVV 表示每个码元离散电平的数目(比如16种码元,需要4位二进制位) ¶Chap 3. 数据链路层 数据 ...
「数电实验课程设计4」可控进制的计数器
为了给电脑腾出空间,加之数电实验成绩已出,因而准备卸载 Vivado 这个占据 44.70GB 体积的集成环境。😅 之前在这门课也花了不少的精力去琢磨,因此在软件卸载之前,在本篇文章中留下自己的一点学习记录吧,项目的相关核心源码也存放到我的仓库了(大佬们不妨给个Star⭐️吧~) ¶实验环境 开发板型号:Nexys 4 DDR 芯片型号: ...
马原考点总结
¶Chap1. 导论 ¶马克思主义构成之间的联系 马克思用马哲(马克思主义哲学)的方法,研究并编写政经(马克思主义政治经济学)的理论,得出科社(科学社会主义)的结论。 ¶马克思主义的基本立场、基本观点和基本方法 基本立场:无产阶级、人民 基本观点(内容):关于自然、社会和人类思维发展…人类思想成果和社会实践… 基本方法:辩证唯物主义和历史唯物主义 ...
「数据库系统概论」问答题总结
试述数据、数据库、数据库系统、数据库管理系统的概念。 答: 数据: 描述事物的符号记录称为数据。 数据的种类有文字、 图形、图像、声音、正文等等。数据与其语义是不可分的。 数据库: 长期储存在计算机内、有组织的、可共享的大量数据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户 ...
「JavaSE学习笔记10」Java 易错归纳
¶Chapter 1 概述 ¶Java跨平台 Java 既具有解释型语言的特征,也具有编译型语言的特征。 Java既不是编译型语言也不是解释型语言,还是静态语言。 Java语言经过编译器编译后生成与平台无关的字节码文件(*.class,需要由Java解释器来解释执行) 不同操作系统有不同的虚拟机,但提供一个相同的面向编译器的接口。 只要为不同 ...
数电简要总结
¶Chap 1. 数制和码制 ASCII是一组七位二进制代码,共127个 ¶Chap 2. 逻辑代数 ¶常用公式 A+B=A+CA+B=A+CA+B=A+C 或者 AB=ACAB=ACAB=AC,均不能推出 B=CB=CB=C A+BC=(A+B)(A+C)A+BC=(A+B)(A+C)A+BC=(A+B)(A+C) 证明:右 ...
