## 职业规划百科 -- http://www.careerplanwiki.com/ 我们是一个项目,为这个网站(系统)进行资料/信息的填充。 http://www.careerplanwiki.com/wiki/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E9%9B%86%E5%9B%A2%E6%8E%A7%E8%82%A1%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8/5135 因为系统较为复杂,所以,我们本次项目的主要目的是 针对某家公司 进行搜索,然后遍历所有的招聘岗位中的校招部门的职位 * 1. 列表 * 2. 得到列表中所有职位的,,, * 2.1 薪资范围 * 2.2 经验、学历、全职/兼职 * 2.3 通过上面的搜索,得到一个基本的分析过的结果 3. 针对的网站,包含但不局限于 * 3.1 lagou.com * 3.2 shixiseng.com * 3.3 51job.com * 3.4 zhaopin.com 需要用到的知识: * 1. Python的基础 * 2. 爬虫的相关知识 * 3. Numpy,Pandas的基础 * 4. 如果具备可视化的技能的话,更优 Tips: 最难的部门是关于爬虫的相关知识,特别是如果有的网站,增加了反爬的技术的话,会更加的困难。 ## 1. 开题,项目基础要求的讲解,爬虫的基础知识 jupyter https://tianchi.aliyun.com/notebook-ai/home?spm=5176.12281897.0.0.209439a9ijbe1d#notebookLabId=90688&notebookType=PUBLIC&isHelp=false&operaType=5 https://www.baidu.com/ 域名: baidu.com 二级域名: www 一般情况下,称呼 www 为主域名 https http https 是 s了的http security 安全的 http : 超文本传输协议 tcp/ip tcp : 传输控制协议 ip 为你分配一个地址,网络上的唯一地址 https://news.163.com/ https://www.lagou.com/ > tips: 写程序对某一个网站进行爬取的时候,一定要进行一个思路的转换。 你写的是程序,而不是浏览器,所以不能用眼睛观察到的,进行分析。 必须把自己当成一个虫子,虫子只会认识一坨一坨的英文数字中文符号。 ![image alt](http://www.lgstatic.com/lg-www-fed/common/widgets/un_login_banner/img/logo_41a2761.png) 作业: 1. 将今天讲到的HTTP的知识,要进行理解 2. 要对剩余的部分进行预习 ## 2. 针对 lagou.com 进行专项的分析 ## 3. 抽查作业结果和部分学员的演示 ## 4. 将之前对lagou的爬虫进行优化 * 4.1 针对岗位的JD进行抓取 * 4.2 针对抓取的JD进行jieba分词 * 4.3 找到JD中每一类职位所共同拥有的关键词 * 4.4 找到职位诱惑的全量,并将某一条中的职位诱惑与此进行对比 ## 5. 将优化完的结果,进行数据库的保存 * 5.1 https://www.db4free.net/ 创建表格 ```sql CREATE TABLE `situcms`.`lagou_positions` ( `position_id` INT NOT NULL , `position_name` VARCHAR(100) NOT NULL , `company_name` VARCHAR(100) NOT NULL , `company_size` VARCHAR(50) NOT NULL , `process_phase` VARCHAR(30) NOT NULL , `salary` VARCHAR(20) NOT NULL , `experience` VARCHAR(20) NOT NULL , `fulltime` VARCHAR(20) NOT NULL , `education` VARCHAR(12) NOT NULL , `job_city` VARCHAR(20) NOT NULL , `job_address_detail` VARCHAR(200) NOT NULL , `position_advantage` INT NOT NULL , `publish_time` VARCHAR(20) NOT NULL , `job_description` TEXT NOT NULL ) ENGINE = InnoDB; ``` 插入数据 ``` INSERT INTO `company_phases` (`phase_id`, `phase_name`, `creat_time`, `update_time`, `remark`) VALUES ('1', '上市公司', '1606289381', '1606289381', '王健旭创建的第一个发展阶段') ``` 删除数据 ```sql DELETE FROM `company_phases` WHERE `phase_id` = 1 ``` 修改表结构 ```sql ALTER TABLE `company_phases` ADD PRIMARY KEY(`phase_id`); ``` * 5.2 Python PyMySQL * 5.3 CRUD 作业: - 学会使用DB4Free - 学会在天池中编辑新的文档 - 学会将CSV翻译成MySQL中的表格,并针对性的分析,什么列可以被优化 - 使用PyMySQL对MySQL数据库进行 增,删,改,查(查询一条,查询多条) - 提交形式:周六中午前,ipynb ## 6. 针对数据库中的保存,进行条件查询 ## 7. 将项目扩展到其他的网站 ## 8. 结项