# 實驗室資料庫盤點與EDA ## MSCI 35 Key issue ### Dataset Details - 內容:MSCI 35 是從各公司報告中,萃取出與 ESG Key issue 有相同關鍵字的句子 - 資料來源:美國前五百大 2021 年後的 esg/sustainability report、10-K - 有 23,710 筆記錄,兩個欄位皆無缺失值 - 共 35 種 label (ESG Key issue) - 文本長度的統計特徵如下: - 平均長度:163 字 - 標準差:79 字 - 最短文本:10 字 - 最長文本:1127 字 - 25%分位數:109 字 - 50%分位數(中位數):151 字 - 75%分位數:203 字 ### Example | label | text | | -------- | -------- | | Biodiversity and Land Use | Promotion of activities for biodiversity conse... | | Biodiversity and Land Use | Activities for biodiversity conservation: Carr... | | Biodiversity and Land Use | Under the Environmental Future Vision 2050 and... | | Biodiversity and Land Use | What we should not forget when we conduct our ... | | Biodiversity and Land Use | Our lives and well-being are supported by the ... | ### Data visualization ![image](https://hackmd.io/_uploads/B1XZblaP0.png) ![image](https://hackmd.io/_uploads/S1Y4-lTDR.png) ## ESG_news_contents ### Dataset Details - 內容: 從十個新聞網站中,取出新聞文章 - 資料來源: | News | 資料筆數 | | -------- | -------- | | TheNewYorkTimes | 121478 | | ThreeBLMedia | 33021 | | WashingtonPost | 24814 | | TheGuardian | 14809 | | ESGNews | 6154 | | ESGToday | 5649 | | GreenBiz | 5405 | | ESGClarity | 3349 | | WallStreetJournal | 1327 | | ESGMorningstar | 65 | - 資料總筆數: 216071 (皆無缺失欄位) - 資料欄位:['datasource', 'keywords[0]', 'title', 'url', 'timestamp', 'author', 'content'] - 文本長度的統計特徵如下: - 平均長度:5838 字 - 標準差:4236 字 - 最短文本:1 字 - 最長文本:227849 字 - 25%分位數:3204 字 - 50%分位數(中位數):5278 字 - 75%分位數:7576 字 ### Example | datasource | keywords | title | url | timestamp | author | content | | -------- | -------- | -------- | -------- | -------- |-------- | -------- | | GreenBiz | Carbon Emissions | UN aviation body ditches older carbon credits from offsetting scheme | https://www.greenbiz.com/article/un-aviation-body-ditches-older-carbon-credits-offsetting-scheme | 1584547200 | Catherine Early | The global aviation industry has taken a key step forward in agreeing … | ### Data visualization #### Analysis of Keyword ![image](https://hackmd.io/_uploads/Bk1jK-TP0.png) #### Analysis of Timestamp ![image](https://hackmd.io/_uploads/HJj7K-TvA.png) #### Analysis of Content Length ![image](https://hackmd.io/_uploads/HJXEZ3E_R.png) ## ESG_company_proposal ### Dataset Details - 內容:從各間公司的永續報告書最後面的GRI索引,來找與之相關的內文 - 資料來源:各間公司的永續報告書 - 主要是id, text, embedding, indicator, year_company, source - 1520 筆資料 ### Example ![image](https://hackmd.io/_uploads/rJBvlPCw0.png) ### Data visualization Number Of Text Entries Per Company Per Year ![image](https://hackmd.io/_uploads/Skl3xPRDA.png) --- Word Cloud Of Text Data ![image](https://hackmd.io/_uploads/r1sCePCPC.png) --- Number Of Text Entries Per Company ![image](https://hackmd.io/_uploads/Bkgb-vAD0.png) ## ESG_company_social_content ### Dataset Details - 內容: - 資料來源:LinkedIn - 有 6,349 筆記錄,六個欄位皆無缺失值 - 共 6 種 label (id, datasource, url, timestamp, author, content) | Theme | Count | | -------- | -------- | | 技術創新 | 2513 | | 企業社會責任 | 565 | | 多元化和包容性 | 273 | | 員工故事 | 1721 | | 合作夥伴關係 | 504 | - 文本長度的統計特徵如下: - 平均長度:278 字 - 標準差:151 字 - 最短文本:12 字 - 最長文本:2032 字 - 25%分位數:189 字 - 50%分位數(中位數):244 字 - 75%分位數:337 字 ### Example ![image](https://hackmd.io/_uploads/SJpAAZTwR.png) ### Data visualization ![image](https://hackmd.io/_uploads/Hya21zaD0.png) 顯示了不同作者發佈內容的數量分佈,從中可以看到某些作者的發佈內容數量較多。 --- ![image](https://hackmd.io/_uploads/S1f6JMTPC.png) 顯示了發佈時間的分佈情況,可以觀察到不同時間段的發佈情況。 --- ![image](https://hackmd.io/_uploads/ryILr3V_A.png) ## GRI定義 格式:Markdown ###