# 2023/05/26 爬蟲擴充 `Language Model` 計畫 ###### tags: `語音組` ## 待爬網頁列表 :::info 這邊會紀錄要爬的網頁有哪幾個,以及爬下來之後名稱以及分類,目前先以 `食、衣、住、行、生活、育樂、醫療、養生` 這八大類別為主,額外的類別需要給額外的 `Tag (egs. 科技)` * 至 `5/31` 之前盡量多紀錄網站,之後開始斷詞並且開始爬蟲 * 資料必須儲存在 `153: /home/mi2s/kaldi/egs/aishell/s5/project/wav_new/MA-CRAWL` 中,暫時不用考慮命名邏輯,儲存的內容使用 `json` 資料格式為以下: ```jsonld { 'Page-Title' : { 'Title' : 'Page-Title', 'Type' : '食|衣|住|行|生活|育樂|醫療|養生', 'Author' : '網誌作者,如果有的話,沒有的話存成 無 ', 'Date' : '文章發布日期', 'Body' : '要用的文章,後續斷句使用', 'Url' : '文章的連結' }, } ``` ::: ### 爬完之後打勾,然後在底下寫檔案名稱 ----- ##### 範例: - [ ] [XXX網誌](URL) * `xxx.json` ----- * ==科技== - [ ] [鳥哥私房菜](https://linux.vbird.org/) ----- * 食 - [ ] [台南美食地圖‧玩樂誌](https://foodintainan.com.tw/) - [x] [布雷克出走旅行視界](https://blake.com.tw/blog/category/taiwan/hotel) * [blake.json 王景霈](https://drive.google.com/file/d/1O_iKNUECwZPOVZ9-AI-Sw0daXUJktIV1/view?usp=drive_link) ----- * 衣 - [x] [Plain-me](https://blog.plain-me.com/category/%E6%90%AD%E9%85%8D%E6%A8%82%E8%B6%A3/%E6%90%AD%E9%85%8D%E5%88%86%E4%BA%AB/) * [plain-me.json 王景霈](https://drive.google.com/file/d/1oG_EB6mSglPpji1oy9lMJqsEM02M2185/view?usp=drive_link) ----- * 住 - [ ] [AsiaYo Blog](https://blog.asiayo.com/?s=%E4%BD%8F%E5%AE%BF) - [ ] [Sansa Blog](https://sansa.tw/category/57994/) ----- * 行 - [ ] [PTT Map-Guide](https://www.ptt.cc/bbs/Map-Guide/index.html) ----- * 生活 - [ ] [PTT homemaker](https://www.ptt.cc/bbs/homemaker/index.html) - [ ] [PTT DailyArticle](https://www.ptt.cc/bbs/DailyArticle/index.html) ----- * 育樂 - [x] [青青小熊*旅遊札記](https://yoke918.com/category/taiwantravel/) * [yoke918.json 王景霈](https://drive.google.com/file/d/1WqSipHTr_FgdqqdePf8BsTaMxHLUdi1S/view?usp=drive_link) ----- * 醫療 - [ ] [康健(有防爬蟲,另尋網站)](https://www.commonhealth.com.tw/channel/2?page=1&tab=all) - [ ] [早安健康](https://www.edh.tw/category/3/index/1) ----- * 養生 - [ ] [PTT regimen](https://www.ptt.cc/bbs/regimen/index.html)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up