## 职业规划百科 -- http://www.careerplanwiki.com/
我们是一个项目,为这个网站(系统)进行资料/信息的填充。
http://www.careerplanwiki.com/wiki/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E9%9B%86%E5%9B%A2%E6%8E%A7%E8%82%A1%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8/5135
因为系统较为复杂,所以,我们本次项目的主要目的是 针对某家公司 进行搜索,然后遍历所有的招聘岗位中的校招部门的职位
* 1. 列表
* 2. 得到列表中所有职位的,,,
* 2.1 薪资范围
* 2.2 经验、学历、全职/兼职
* 2.3 通过上面的搜索,得到一个基本的分析过的结果
3. 针对的网站,包含但不局限于
* 3.1 lagou.com
* 3.2 shixiseng.com
* 3.3 51job.com
* 3.4 zhaopin.com
需要用到的知识:
* 1. Python的基础
* 2. 爬虫的相关知识
* 3. Numpy,Pandas的基础
* 4. 如果具备可视化的技能的话,更优
Tips: 最难的部门是关于爬虫的相关知识,特别是如果有的网站,增加了反爬的技术的话,会更加的困难。
## 1. 开题,项目基础要求的讲解,爬虫的基础知识
jupyter
https://tianchi.aliyun.com/notebook-ai/home?spm=5176.12281897.0.0.209439a9ijbe1d#notebookLabId=90688¬ebookType=PUBLIC&isHelp=false&operaType=5
https://www.baidu.com/
域名: baidu.com
二级域名: www 一般情况下,称呼 www 为主域名
https http
https 是 s了的http security 安全的
http : 超文本传输协议
tcp/ip tcp : 传输控制协议
ip 为你分配一个地址,网络上的唯一地址
https://news.163.com/
https://www.lagou.com/
> tips:
写程序对某一个网站进行爬取的时候,一定要进行一个思路的转换。
你写的是程序,而不是浏览器,所以不能用眼睛观察到的,进行分析。
必须把自己当成一个虫子,虫子只会认识一坨一坨的英文数字中文符号。

作业:
1. 将今天讲到的HTTP的知识,要进行理解
2. 要对剩余的部分进行预习
## 2. 针对 lagou.com 进行专项的分析
## 3. 抽查作业结果和部分学员的演示
## 4. 将之前对lagou的爬虫进行优化
* 4.1 针对岗位的JD进行抓取
* 4.2 针对抓取的JD进行jieba分词
* 4.3 找到JD中每一类职位所共同拥有的关键词
* 4.4 找到职位诱惑的全量,并将某一条中的职位诱惑与此进行对比
## 5. 将优化完的结果,进行数据库的保存
* 5.1 https://www.db4free.net/
创建表格
```sql
CREATE TABLE `situcms`.`lagou_positions` ( `position_id` INT NOT NULL , `position_name` VARCHAR(100) NOT NULL , `company_name` VARCHAR(100) NOT NULL , `company_size` VARCHAR(50) NOT NULL , `process_phase` VARCHAR(30) NOT NULL , `salary` VARCHAR(20) NOT NULL , `experience` VARCHAR(20) NOT NULL , `fulltime` VARCHAR(20) NOT NULL , `education` VARCHAR(12) NOT NULL , `job_city` VARCHAR(20) NOT NULL , `job_address_detail` VARCHAR(200) NOT NULL , `position_advantage` INT NOT NULL , `publish_time` VARCHAR(20) NOT NULL , `job_description` TEXT NOT NULL ) ENGINE = InnoDB;
```
插入数据
```
INSERT INTO `company_phases` (`phase_id`, `phase_name`, `creat_time`, `update_time`, `remark`) VALUES ('1', '上市公司', '1606289381', '1606289381', '王健旭创建的第一个发展阶段')
```
删除数据
```sql
DELETE FROM `company_phases` WHERE `phase_id` = 1
```
修改表结构
```sql
ALTER TABLE `company_phases` ADD PRIMARY KEY(`phase_id`);
```
* 5.2 Python PyMySQL
* 5.3 CRUD
作业:
- 学会使用DB4Free
- 学会在天池中编辑新的文档
- 学会将CSV翻译成MySQL中的表格,并针对性的分析,什么列可以被优化
- 使用PyMySQL对MySQL数据库进行 增,删,改,查(查询一条,查询多条)
- 提交形式:周六中午前,ipynb
## 6. 针对数据库中的保存,进行条件查询
## 7. 将项目扩展到其他的网站
## 8. 结项