kazuyahooo
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    # ESG meeting ## 0216 - 1.Step2.1 2.2 整合狀況? - 從S3載報告下來 - 用以前方法透過句點把句子切開 - 中間訓練model - 目前NOISE 3句 - esg_bert裡有訓練過的model - 下面輸出就可以看要哪幾句 然後他的label是多少 - 基本上不會在有訓練模型的過程 只會有預測的過程 - 這部分需要與piere講 2. ontology 3. 一家公司同時讀兩篇report? 挑戰兩篇三篇一起讀 - 因為報告可能不一樣(永續、CSR、ESG)等 - 重複部分怎麼刪掉 4. 要改下拉式選單 因為目前只能選公司 不能選報告 ## 0224 - 處理report遇到的問題? - 用了哪些方法解決? - 訓練的過程,符不符合ML一般結果的期待? - 要做測試,每個類別提供十個例子範例等等,不要只要永續,要用多份報告 - 3/1開始做月報 - Step2.0還沒開始 - read multiple data, deal with the duplicate calculate relevance - deduplicate(移除重複) process - Step2.2 - Setence Embedding是一種clustering的方法,在這邊其他句子都太近,還有35個key issue - 目前LDA或LDA+Tf-idf,要說服聽的人這個效能可以接受 - 問題描述及效能接露要能實際範例 - report多樣性一定要有 - 從一百多份挑成果比較好的作展現 - 開始要用推薦的方式 - Step3 - 中愷和我在modified bubble plot present way marker - 顯示全部 or 只顯示highlight words? - 選擇的部分是不同年不同報告混搭嗎 - 當我們使用多個報告 we would show all report? ## 0304 ### Step2.0 - 輸入多個報告,輸出deduplicate後的結果 1. question 2. processing flow (e.g. Step2.2 ppt)? 之後要找例子 目前10k報告還在找 3. method(不一定,看有沒有實作或是提供幾個想法) - sBERT(embedding) + Cosine similarity - BERT直接產出相不相似 - lemma做cosine similarity(embedding) - embedding 這幾個是用來做embedding的 - Doc2Vec 詞袋缺點忽略詞序、語義 - SetenceBERT - InferSent SNLI資料集 總共有三個分類 蘊含 矛盾 中立 - Universal Sentence Encoder tensorflow可以用 - 設定一個threshold判斷算不算相似句子 - BERT不能fine-tuned 因為資料集是新聞很難找出兩個相似句子的標籤 4. results 5. >假設有兩篇報告 一篇報告有一千個句子 另一篇也是 在比較method one裡面 會需要做很多次 Doc2Vec SBERT Embedding做N次 比較做C(4,2) A(1)跟大家比 B(1~1000), C(1~1000)比較相似度 一千比做完 B還要跟C比一輪 2.1做完在做2.0 先從新的方法開始做 如果BERT能做就直接用BERT做 參考Step2.2還有piere的投影片 下一步要拿資料試試看 10k?永續報告? 將所有data加在一起 目前蒐集完前兩百大10k 2019~2021 (但有些找不到或沒有rating,120篇) 至少拿兩份report讓機器讀 一份是10k 一份是CSR or 永續報告 Step2目前設計機制 餵了一大堆資料 2.0 2.1濾掉雜訊 減少不平衡感 2.2做分類 Google有份環境的報告,因為其它人沒有這種報告,所以不知道是好事還是壞事 又或者是大家比的時候只有Google多這個報告公平嗎? 10k report當成基礎 不是非ESG的任務都刪掉 要趕快把Step2整合 之後2.2要輸出level of relevence 2.0需要範例 2.2問題是如何增加資料量 穩定準確度 目前使用LDA model 先抓關鍵字再把那句變成關鍵句 增加資料集且準確度預測蠻高的 一百個句子裡面 每個句子分別是在描述哪個key issues 怎麼能確定LDA畫出來的關鍵字都跟ESG有關 畫重點畫很好 為什麼還要練一個模型 可能要回歸以前先找關鍵句建立模型的方式 Owen想知道2.1吐出來的結果當input 2.2分類出來的結果是什麼 回頭讀Mongo db的data 請季陽吐一千筆 隨意翻譯一下 如果認為正確 把2.2重新順一次 - 問題: - 用了選取關鍵字方法找data 希望可以確認mongodb data - 關鍵字找關鍵句這件事情到底對不對 選出來的關鍵字到底對不對 - input output有沒有多看一些sample - 關鍵字找關鍵句不太正確 1. 假設materials是關鍵字 會把applied materials找出來 2. 找關鍵字不如直接使用embedding 找離carbon emission最近的就好 ## 0328 1. 應材第一項對應到MSCI ESG的哪一項 產出一張圖 像是Cross correlation,希望可以用word/sentence-embedding方法以機器的方式做比較 2. 35個issue做出來 要驗證機器和人看的結果有沒有相似 3. 怎麼樣把10k report的結果呈現出來,可能要看權重比較高的或篩出來的結果到底是哪些,實作在ant上 4. 怎麼判斷每個iteration之間好不好,testing set要怎麼決定。 5. 怎麼知道要做幾個iteration,什麼時候該停 6. 第一輪先把semi-conductor的key issue做完,大概下禮拜會完成 7. 要告知comparsion matrix上的數字是什麼意思,模型準確率多少,給sample(前五高、後五低) 8. Comparsion Matrix顏色要改 平均值算錯 ### Task - 兩張表的關聯性 topic & key issue之間的關係 兩種方法 - comparsion matrix的事情 ## 0402 - pretraining的dataset可能要用自己esg dataset - data在哪裡? - 要改成sample.txt的格式 - 目前prefer用news data - run_classifier.py改成我們要的 - 挑fine-tuned的dataset也很麻煩 - 可以試著跑跑看fine-tuned腳本 - 可能要從ESG report裡面萃取 - BERT的fine-tuned直接有35個輸出 - Key issue的label - 請工讀生做分類 KPI每天100~200句 - 我們找的10-k, Annual等等拿來做Testing # 0419 - 為什麼訓練出來的結果很差? - 資料量還是太小 (但若軒pytorch跑出來結果好我們很多) - 也有換過bert模型 - 未標記資料800多筆 - 已分類3600多句 - 上禮拜週進度有補齊 我們再觀察一週 之後可能定週進度 - learning rate 目前設為2e-5 - batch size 目前為32 在往上會報錯 - epoch 目前設為10 - max sequence length 256 128 - pretrain data 針對confusion matrix處理多分類? - 工讀生同時增加 兩類的詞 兩個三個資料類別 快速累績量 - 35個類別的模型不太可能 - mnist圖形變化多 一個類別就有五萬筆 - 一個人負責把資料集長胖 一次挑兩個issue 只訓練二元分類 - 多個二元模型? 1的代表有接近 - 禮拜四要知道資料筆數及狀態 - 最原始最正確(歐文說的 - 禮拜四要說準確度多少 有沒有不好的地方 怎麼強化 - 過去也有遇到分類都分到同一類的問題 - 架構可以微調修改 不能用pytorch 下一步要怎麼做 - 禮拜四開會時間 晚上 # 0421 - 目前fine tune回去又試過很多組合,才發現結果要調很小 目前調5e - 7才有開始動 也有吐一個結果給中愷 之後會再繼續試有沒有辦法更好 - Fine-tuning蒐集資料情形 6200 - 分好類 4317 - 待討論 1861 + 17 - 第一週 3500 第二週 1100 第三週 1500 + 150 - 要知道中愷用哪個模型訓練 也要跟凱元的pretraining資料結合 - 兩類模型也要開始 要選哪兩個key issue 下次討論主軸 (35類比較好還是2類) - 之後要怎麼調 這兩筆在分類的狀況下一定要對 才知道哪個模型的結果比較好? - 要知道訓練的細微結果 - 不要找一篇文章 自己判斷是哪個 - 下次開會需要知道的: - 給工讀生找的速度怎麼訂?自己達不到一千筆不能要求工讀生 品質要顧 - 每次都要帶數字上來開會 - 二元分類結果 重點 - 現在交付出去的模型必須要有紀錄 放在meeting materials裡 - 模型壞掉的原因,為什麼準確率很低,那要怎麼修復 # 0423 - 工讀生蒐集資料了解 - 一小時 150~200 - 時數 問題 - 現在四月是20小時 但其實可能會超過 - 柏翰fintune 祥鈺 pretrain - 凱元學長說在五月之前要把三個連結做完 有再趕時間嗎 現在覺得做不完 - 可以加時數? - 工讀生會簽合約 - 如果做到三十小時 後面不能給這麼多時數 - 給工讀生的工作量要合理 # 0425 - 工讀生進度 - 伯翰 0408 2485句 6小時 0423 380句 2小時 - 祥育 pretrain: 2358句/ 14 hr - Dataset目前都不夠 - 增加計畫 誰負責? - 第十頁要有最新的模型訓練過程 - 第十一頁需要一些sample - Finetuning也要提供使用多少句子 - 每一兩天快速update - 第十三頁 fine-tuning task訓練準確度是多少 - 問中凱stackholder那張圖要放上去 禮拜三開會 - text marker直接改成sentence marker - bubbl plot直接改成中愷最新的版本 - 修改key issue percentage - ant大概需要2~3頁 - 資料要長高長胖 - 長高比較重要, - 目前測試集資料選擇可以 - 第三十六類可以不用練,只要三十五類都判斷為0就好 - 要有case是一定要準的 # 0427 - 工讀生 柏翰已經做了18小時 剩下2小時禮拜五會做完 - BERT Task2準確度原本為多少 這兩個資料集的結果SST2 CoLA - Key issue level of relevance改成? 改數字就好 - wordlevel先藏起來(可能還會用到) - Text Marker已改成setence level - 中愷's plot命名? 泡泡圖刪掉改中愷的 - 可以更新禮拜五前 - plotly不好看 - 不特別做10-k report - 沒有標上去的Key issue要找出來 - 在圖上有出現的點就把它標上去 p.19 下禮拜討論重點 # 0429 - 工讀 柏翰 340句/2hr - key issue level of relevance - 權重計算方式 - 每個key issue在那篇報告的數量 / 該pillar總數 - 用pillar的數量做呈現 不用到key issue這麼細 下禮拜討論 - text marker present ![](https://i.imgur.com/pDtbLuV.png =150x) - 計算方式 - 每家公司有不同的report 有35個分類器的投票 - 不能用單一report進行預測 - text marker右邊那塊要改 下禮拜討論 - 首頁要有多選報告的功能 一次跑多個報告的結果 text marker要改輸出 # 0502 - x importance to applied(13 company) 試試看中位數或平均值 - 0503 11am 再討論一次 # 0503 - 七百多份報告 總共 - ALPHABET environment 報告沒有 - 2022要補上 (Applied一定要擺 statement) - key issue level of relevance - 先換回句子數量 不做percentage 等中愷做完 - 做個開關 Percentage是advacned功能 - 不用跟applied比 如果有多份報告呈現key issue最大值 - Text marker ==重要 但要一段時間== - 如果報告要多選 一次兩份或多份 怎麼呈現 - Please choose one report which you want 右邊可以做個加號 - 加號只能選年份跟報告type - 以ESG(以及all)做成按鈕分開呈現key issue 預設是Environment - all是呈現整份報告 如果有五份報告 就全顯示,可能要註解會很慢 - Text area - user experience不太好操作 可能可以直接在text area下+個submit - 做成==real time== 要把step2的模型移過來 - 練出模型放到一個定位 網頁就直接抓這個模型 - Materiality plot 也要改成real 做成兩個按鈕 (by industry or subindustry) ==先== - Schedule 小的東西先做好 跟中愷討論模型可以先給我一個版本 下禮拜結束能否擺上來 # 0504 - 工讀 840句/6hr - 多個報告先完成新增就好 - fine tune model要上線! # 0510 - 工讀 964/8hr # 0523 - 工讀 1256 2250 / 10hr

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully