# 實驗室資料庫盤點與EDA
## MSCI 35 Key issue
### Dataset Details
- 內容:MSCI 35 是從各公司報告中,萃取出與 ESG Key issue 有相同關鍵字的句子
- 資料來源:美國前五百大 2021 年後的 esg/sustainability report、10-K
- 有 23,710 筆記錄,兩個欄位皆無缺失值
- 共 35 種 label (ESG Key issue)
- 文本長度的統計特徵如下:
- 平均長度:163 字
- 標準差:79 字
- 最短文本:10 字
- 最長文本:1127 字
- 25%分位數:109 字
- 50%分位數(中位數):151 字
- 75%分位數:203 字
### Example
| label | text |
| -------- | -------- |
| Biodiversity and Land Use | Promotion of activities for biodiversity conse... |
| Biodiversity and Land Use | Activities for biodiversity conservation: Carr... |
| Biodiversity and Land Use | Under the Environmental Future Vision 2050 and... |
| Biodiversity and Land Use | What we should not forget when we conduct our ... |
| Biodiversity and Land Use | Our lives and well-being are supported by the ... |
### Data visualization


## ESG_news_contents
### Dataset Details
- 內容: 從十個新聞網站中,取出新聞文章
- 資料來源:
| News | 資料筆數 |
| -------- | -------- |
| TheNewYorkTimes | 121478 |
| ThreeBLMedia | 33021 |
| WashingtonPost | 24814 |
| TheGuardian | 14809 |
| ESGNews | 6154 |
| ESGToday | 5649 |
| GreenBiz | 5405 |
| ESGClarity | 3349 |
| WallStreetJournal | 1327 |
| ESGMorningstar | 65 |
- 資料總筆數: 216071 (皆無缺失欄位)
- 資料欄位:['datasource', 'keywords[0]', 'title', 'url', 'timestamp', 'author', 'content']
- 文本長度的統計特徵如下:
- 平均長度:5838 字
- 標準差:4236 字
- 最短文本:1 字
- 最長文本:227849 字
- 25%分位數:3204 字
- 50%分位數(中位數):5278 字
- 75%分位數:7576 字
### Example
| datasource | keywords | title | url | timestamp | author | content |
| -------- | -------- | -------- | -------- | -------- |-------- | -------- |
| GreenBiz | Carbon Emissions | UN aviation body ditches older carbon credits from offsetting scheme | https://www.greenbiz.com/article/un-aviation-body-ditches-older-carbon-credits-offsetting-scheme | 1584547200 | Catherine Early | The global aviation industry has taken a key step forward in agreeing … |
### Data visualization
#### Analysis of Keyword

#### Analysis of Timestamp

#### Analysis of Content Length

## ESG_company_proposal
### Dataset Details
- 內容:從各間公司的永續報告書最後面的GRI索引,來找與之相關的內文
- 資料來源:各間公司的永續報告書
- 主要是id, text, embedding, indicator, year_company, source
- 1520 筆資料
### Example

### Data visualization
Number Of Text Entries Per Company Per Year

---
Word Cloud Of Text Data

---
Number Of Text Entries Per Company

## ESG_company_social_content
### Dataset Details
- 內容:
- 資料來源:LinkedIn
- 有 6,349 筆記錄,六個欄位皆無缺失值
- 共 6 種 label (id, datasource, url, timestamp, author, content)
| Theme | Count |
| -------- | -------- |
| 技術創新 | 2513 |
| 企業社會責任 | 565 |
| 多元化和包容性 | 273 |
| 員工故事 | 1721 |
| 合作夥伴關係 | 504 |
- 文本長度的統計特徵如下:
- 平均長度:278 字
- 標準差:151 字
- 最短文本:12 字
- 最長文本:2032 字
- 25%分位數:189 字
- 50%分位數(中位數):244 字
- 75%分位數:337 字
### Example

### Data visualization

顯示了不同作者發佈內容的數量分佈,從中可以看到某些作者的發佈內容數量較多。
---

顯示了發佈時間的分佈情況,可以觀察到不同時間段的發佈情況。
---

## GRI定義
格式:Markdown
###