# [考核]先前做過的任務review 1. Elastic re-index(+重新mapping)任務 * 內容:由於當初使用ES自動判斷並給予mapping,所以些許欄位的型態不對,造成query上的問題;另外也有tags的大小寫case sensitive的問題,因此查找是否有一些ES的資源可以解決此問題,或是需要在程式端就需要進行過濾。而最後的資料處理要看是否還有新的需求要新增欄位,再決定是否全部的邦邦卡片和資料都要重匯,或是僅用新的mapping結構,然後運用re-index的方式搬一份舊index副本到新的index即可。 * [trac(64430)](https://bug.pixnet.systems/trac/ticket/64430) + [trac(65014)](https://bug.pixnet.systems/trac/ticket/65014) * [筆記](https://hackmd.io/YgR6XvYASSO5YpDXh6EIGg?view) * 狀態:等待是否有新需求確認中 2. rhino跑報表完成後改噴slack channel * 內容:因為噴錯的MailLab壞掉了,無法寄送錯誤通知到email,所以改用SlackLib噴Slack訊息到Slack channel * [trac](https://bug.pixnet.systems/trac/ticket/62206) * [筆記](https://hackmd.io/1LVakzvQSdG4Ycpvelqgyg) * 狀態:因為之前要推worker的時候daniel在worker上有任務遲遲未推,所以並無上正式端。 3. Rhino - 新增更新紀錄頁面 * 內容:在 Rhino 首頁增設一區塊,顯示最近系統更新日期、更新內容、更新者等資訊。目的是為了讓使用者有感覺到團隊在持續對本系統進行既有問題的改善與更新工作,提升使用者對本系統的信心。 * [trac](https://bug.pixnet.systems/trac/ticket/62667) * [筆記](https://hackmd.io/khl9sffGSe-jTVq_beIo3w) * 狀態:算是在測試端製作完成九十趴,但之前因為rhino後台權限控管也要調整的問題,所以就先放置著。 * 工作成果: 1. [顯示頁面](http://www.pixnet.idv.tw.rainyjonne.test.pixnet.work/update/index) 2. [編輯頁面](http://www.pixnet.idv.tw.rainyjonne.test.pixnet.work/update/edit):可以進行更新資料和刪除資料 3. [結果頁面](http://www.pixnet.idv.tw.rainyjonne.test.pixnet.work/update/update):回傳頁面(顯示結果正確與否或是否少填寫了什麼資料) 4. 前端美化:做了表格的灰黑框和去除內部表格線、四周圓框、標題粗體、更新內容置左,其他內容置中 4. 文末推薦文章更新日期匯入Bigquery * 內容:Research team提出想要分析每日出現在article_log和visitor_log中的文章需求,想要建立一張article_info表來做每日的趨勢分析統計。因此需要data team幫忙query資料或新增欄位。 * [trac](https://bug.pixnet.systems/trac/ticket/64202) * [筆記](https://hackmd.io/MQxjrULAR-Wp4E8FlXWXQA) * [excel表](https://docs.google.com/spreadsheets/d/1quC2kHnKg7ngmA9Eg2wgyyrIsJRTua_Ir1W2REL7zzA/edit#gid=0) * 狀態:由jeff和johnson接續確認並實作 5. pacode_site的資料匯入機制討論 * 內容:因為之前pacode的資料是手動從rhino sync到bigquery,想要建立一個自動排程機制能夠定時將pacode名單sync到bigquery。(機制:GAV表中記錄若pacode有新增或修改就會改動為1,觸發cron機制去sync pacode到bigquery) * [trac](https://bug.pixnet.systems/trac/ticket/62095) * [筆記](https://hackmd.io/NCmGbDXFSWej0GgXVa8E0A) * 狀態:因為cron機的連線問題,卡關了一段時間,最近在等daniel推上正式機觀看能否成功cron 6. [#Tag] 收邦邦留言 - DataTeam * 內容:之前只有收邦邦討論需補收邦邦留言再請協助排程 * [trac](https://bug.pixnet.systems/trac/ticket/64430) * [筆記](https://hackmd.io/BsbG6DSFSKOvtttSRObvUg) * 狀態:已完成 7. [PIXinsight] 建立 cron 定時比對數據是否正常 * 內容:因為之前log-pixinsight的slack channel不會噴詳細數據(只知道有掉log),於是協助幫忙撰寫若從fluentd上傳到BQ有掉log超過5%的話噴詳細通知到log channel的小程式 * [trac](https://bug.pixnet.systems/trac/ticket/56849#comment:10) * [筆記](https://hackmd.io/R1PiHY5xTZiOdw4QxR6VQg) * 狀態:已完成 8. [個人媒體聯盟]Rhino API被打爆 * 內容:因個人媒體流量攀升,導致Rhino API撐不住進而影響到前台廣告與對方主機,希望可以有一些機制在之後發生同樣狀況時,有一個快速的應變措施,例如暫停打API以減少類似狀況發生。而我是負責其中的**提升api server流量承受力的部分**,把金點賞貼紙認證功能的API放在AppEngine上提供服務 * [trac](https://bug.pixnet.systems/trac/ticket/64538) * [筆記](https://hackmd.io/IZJYklivS2WFKqgww6ND9Q) * 狀態:已完成並推上線(AppEngine已deploy) 9. [內容包圍] 計算各 venue 在 article_visitor_log_1st 中有資料的最新日期 * 內容:因應內容包圍需求,需要挑選13個月內article_visitor_log_1st中出現venue最新一次有log的日期,並將結果存入db-gcp-cookietagging/pixinsight_rhino 資料庫中,資料表為pacode_visitor_latest, 欄位:venue, latest_date * [trac](https://bug.pixnet.systems/trac/ticket/64829) * [筆記](https://hackmd.io/NwVsh6DWQIOsp_XzJHn6ZA) * 狀態:完成至一半(把13個月內的資料整包計算然後輸出成表),但跟pacode_sync的票一樣有連線問題,目前手動跑cron程式、等待連線問題解決後再搬上cron自動排程執行https://hackmd.io/NwVsh6DWQIOsp_XzJHn6ZA 10. [客服專案] 自動化回覆(第一階段)/建立客服評比建議答案資訊回傳 API、自動化回覆(第一階段)/建立問題資料及建議答案回傳 API * 內容:因應客服專案需求,須建立如題所說的兩支API於AppEngine上(原先建立於pixapi,但會擾亂架構) * [trac63907](https://bug.pixnet.systems/trac/ticket/63907)、[trac63908](https://bug.pixnet.systems/trac/ticket/63908) * 狀態:先前用php於AppEngine上頭撰寫,但與Ken的工作時間無法銜接,導致後來Ken重新寫了一份python版的提供給後端組。目前好像有bug,jeff要抓bug。 11. Pixnet報表流量整理 * 內容:期能整理Pixnet長期在跑但無需求使用的報表,加以討論是否能暫停,節省Pixnet開銷 * 實施:運用資料庫的資料進行Query計算(但其實可以直接寫程式跑會比較快) * [報表整理結果](https://onedrive.live.com/view.aspx?resid=DAAD7590419C767D!114&ithint=file%2cxlsx&app=Excel&authkey=!AHxzcQUxvaZkPtA) * 狀態:最終發現許多報表都跟需求有關聯,難以暫停,有點QQ 12. [內容包圍] 測試資料匯入-pacode列表與各 venue 的 article_visitor_log_1st 更新日期 * 內容:將ticket64829所建立的資料表撈取100筆最新資料,匯入測試環境中對應名稱的資料表,並從 rhino 正式環境中的 database:pixinsight-rhino, table:pacode 中,select 出 (1) 中有出現的 venue 的 100 筆資料,匯入測試環境中對應名稱的資料表。 * [trac](https://bug.pixnet.systems/trac/ticket/64865) * [筆記](https://hackmd.io/l6QbvGFwRd2zaHK6SZg1Qw) * 狀態:已完成 13. tag2url ES API response time統計 * 內容:計算tag2url成效(response time是否有明顯下降的趨勢?) * [trac](https://bug.pixnet.systems/trac/ticket/64710) * [筆記](https://hackmd.io/R_1pVSUHQB6RmzE_GZjBvQ) * 狀態:已完成,相關視覺化圖表在票上 ###### tags: `考核` `data team`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up