# 使用GPT爬蟲套件創建AI財金問答機器人 ## 1. **介紹** ### GPT爬蟲計畫概覽: GPT爬蟲計畫是一個結合了GPT與網路爬蟲技術`gpt-crawler`套件的專案。這個專案的核心目標是利用先進的自然語言處理技術來提升財金領域的信息處理和分析能力。通過GPT模型的強大語言理解與生成能力,結合爬蟲技術自動收集和分析網路資料,進而生成一個結構化的知識庫,創建一個AI的財金問答機器人,並且進行不同模型的股價預測。 ### 專案背景與目標: 隨著金融市場的日益複雜和信息量的爆炸性增長,傳統的數據分析方法逐漸顯得力不從心。GPT爬蟲計畫應運而生,目標在於利用最新的人工智慧技術,特別是自然語言處理領域的進展,來應對這些挑戰。這個專案致力於開發一個能夠自動分析財經新聞、判斷市場趨勢、並提供即時問答功能的機器人,以輔助投資者和分析師更有效地處理和利用大量的財經信息。 ### 專案重要性與應用領域: GPT爬蟲計畫在財金領域的應用潛力巨大。首先,它能夠實時分析和判斷新聞對股市的整體態度,幫助投資者更快地理解市場動態。其次,通過抓取最新的財經新聞,它能為用戶提供最新的市場信息。最後,此計畫還能夠分析政策對市場的影響,如判斷政策是鷹派還是鴿派,這對於預測市場走向及作出投資決策至關重要。總體而言,這個專案將大大提升財金專業人士在信息處理和決策方面的效率和準確度。 ## 2. **工具與要求** - 安裝Node和Git ```p= brew install git brew install node ``` 這些指令將會在您的系統中安裝Git和Node.js,這是運行GPT爬蟲所必需的工具。 - 檢查Node和Git版本 ```p= user@louiss-macbook gpt-crawler % node -v v21.4.0 user@louiss-macbook gpt-crawler % git -v git version 2.39.3 (Apple Git-145) ``` 確保安裝的版本符合項目要求,以確保兼容性和性能。 ## 3. **配置爬蟲** 配置爬蟲是設置爬取目標和參數的重要步驟。如下圖所示,您需要打開設定檔並設定爬取的網站URL、匹配規則和最大網頁數。這將指導爬蟲針對特定的網站和內容進行有效的數據抓取。 - 開啟設定檔 ![截圖 2023-12-14 下午4.14.12](https://hackmd.io/_uploads/SkQun4O8p.png) - 設定爬取的網站URL、設定匹配規則和最大網頁數 ![截圖 2023-12-14 下午4.14.12-2](https://hackmd.io/_uploads/Hy5864dUT.jpg) 爬取網站:https://www.builder.io/c/docs/developers ## 4. **開始爬取** - 執行爬取指令 終端機輸入:`npm start` 這一步驟將開始實際的數據抓取過程。 :::success - 監控爬取進度 ![截圖 2023-12-14 下午4.32.26](https://hackmd.io/_uploads/H1CopE_Ua.png) 這個界面顯示了爬取進度,幫助您實時監控爬蟲的工作狀態。 ::: ## 5. **知識庫生成** 接下來是將爬取的數據轉化為知識庫的階段。output.json文件是爬蟲生成的主要輸出,其中包含了所有抓取到的信息,結構化地儲存於此。 :::success ![截圖 2023-12-14 下午4.33.22](https://hackmd.io/_uploads/Hykx0EOLp.png) 查看產生的output.json文件,這個文件將作為問答機器人的知識來源。 ::: :::success 影片: {%youtube _jygXE9Ukbw %} 使用ChatGPT創建問答機器人,上傳output.json檔案作為知識庫 ::: ## 6. **測試與實際應用** ### 測試 :::success 測試範例影片: {%youtube ZcO7HxFK9yY%} 這個範例展示了如何將GPT爬蟲整合到實際應用中, ::: ### 實際應用 #### 步驟 1. 爬取yahoo finance網站的所有新聞、股價 2. 將json檔導入GPTs 3. 向GPTs發問 4. GPTs就可抓取yahoo finance網站的最新新聞來進行回答。 :::success #### 判斷政策是否是鷹派還是鴿派: ![截圖 2023-12-21 下午1.21.36](https://hackmd.io/_uploads/BkMWTBbw6.png) ::: :::success #### 抓取最新新聞: ![截圖 2023-12-21 下午1.32.44](https://hackmd.io/_uploads/SyMEASbDp.png) ![截圖 2023-12-21 下午1.34.24](https://hackmd.io/_uploads/S1KdCBWPT.png) ::: :::success #### 判斷整體的新聞對股市態度: ![截圖 2023-12-21 晚上7.04.13](https://hackmd.io/_uploads/S1lS3qWD6.png) ::: ## 7. 股價預測 :::success **向量回歸模型預測:** ![截圖 2023-12-22 下午3.33.53](https://hackmd.io/_uploads/rJTQhnfPa.png) ::: :::success **自回歸模型預測:** ![截圖 2023-12-22 下午3.31.55](https://hackmd.io/_uploads/Sya72hfwp.png) ::: :::success **線性回歸模型預測:** ![截圖 2023-12-22 下午3.32.24](https://hackmd.io/_uploads/Bkp7h2zDa.png) ::: :::success **布林帶模型預測:** ![截圖 2023-12-22 下午3.32.41](https://hackmd.io/_uploads/H1T72nfwT.png) ::: :::success **XGBoost模型預測:** ![截圖 2023-12-22 下午3.33.45](https://hackmd.io/_uploads/BJTQh2fwp.png) ::: ## 8. **未來發展方向** - **性能優化:** 進一步訓練模型,提升工具的性能和準確性。 - **整合API:** 提供API接口,方便開發者集成。 - **應用擴展:** 探索更多應用領域,如醫療、法律、其他專業領域等, 目前還在想做什麼主題比較好玩,法律應該會是一個很好的選擇,資料也好取得。 ## 9. **附錄** - 附加資訊和資源鏈接 github開源碼: https://github.com/BuilderIO/gpt-crawler builder.io官網: https://www.builder.io/c/docs/developers youtube教學: https://www.youtube.com/watch?v=_ODWW6Wbt4Q&list=PLoPUFka5kQ84fiplfsf26Weks7ts4tiiI&index=4&ab_channel=AI%E7%85%89%E9%87%91%E8%A1%93 yahoo finance官網: https://finance.yahoo.com/ GPTs對話紀錄: https://chat.openai.com/share/3ed8bd3c-31c8-4ad2-a814-abbe173b2bcf GPTs連結: https://chat.openai.com/g/g-FosIUUZEz-finance-analyzer-plus