owned this note changed 7 years ago
Linked with GitHub

新創產品 - 驗屍報告 - CIH

歡迎來到 https://hackmd.io/c/COSCUP2018 共筆

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

點擊本頁上方的 開始用 Markdown 一起寫筆記!
手機版請點選上方 按鈕展開議程列表。

Speaker: CIH

偽標題: 如何打造一個完美的棺材 讓自己躺進去

資料科學超乎想像 - Facebook劍橋分析事件

爬蟲技術/資料分析 相關的 Open Source

  • wget, curl
  • PhantomJS
  • Selenium
  • html2text
  • 影像辨識處理:ImageMagick, tesseract

換IP沒用啦 最難搞的網站

  • Google (本身就爬蟲王)
  • SimilarWeb

SimilarWeb 會用 javascript 把 client 端的許多資料 (eg: OS 版本, browser 版本, plugin 狀態 )送到 Server 去做一個 unique ID, 只要爬蟲的環境一樣就會被封住 (大意)

P.S 神經質網站:政府電子標案採購網(89/3/8,決標資料328萬筆)

所有公家機關學校 發包都會在這裡
我只是20秒內看了5,6筆,就開始問我撲克牌驗證,再多看一點就被ban掉了
大量 proxy ip 就可以解決了
撲克牌辨識用 ImageMagick 就解決了

國防部,疾鋒專案1791億元
決標金額還有負數咧[有來源嗎?]

仁武垃圾焚化廠委託操作管理公民營機構甄選 回頭找連結

風力 風電、長照 的標案 金額都很高
長照金額最高的是台中市政府 (破2000)
台北大概250

可以從這裡看到競爭對手,因為標到的廠商名稱會公開

Facebook的搜尋,從 2008年 開始增加 2013/5/1 搜尋量最高,之後開始遞減

判斷:因為大家都知道_Facebook_,所以不需要再搜尋了,需要其他工具輔助判斷Google趨勢的意義

創辦人死亡的原因

他認為他的東西用戶極度喜歡,其實是創辦人做的都是極端用戶在用的東西

  • 人性
  • 過去不代表未來
  • 經歷背景
  • 沒有真正洞悉市場的數據分析

創辦人會去創造一個市場上沒有的產品,因此他沒有判斷能力,他會賭身家全部壓進去
就算給他看市場數據,他只會說「那是以前的資料」

為什麼川普相信數據,其他創辦人不相信?

  • 川普的背景是房地產,本身就全部跟數據有關
  • 信賴 相信分析人員

相對論,天花板

越靠近天花板,要付出的成本也越大
問歷史,問用戶

創新產品
不要做好,也不要做滿

會去爬的網站

  • Google Search

反制爬蟲的王者,已經無法分析是否是爬蟲,所以就只吐一筆資料,一個禮拜後就好了

  • Facebook
  • Amazon
  • GooglePlay,App Store,SimilarWeb,alexa.com,Crunchbase,App Annie,reddit

曾莞婷 FB為什麼很多人追

台劇:壞女人
粉絲145萬人
參與度6.2%

比較其他藝人的粉絲參與度

吳宗憲2.1%
周杰倫0.1%
宋芸樺0.4%
邵雨薇2.3%

曾莞婷6.2%(代言)

原因:沒有打廣告的時候,自己貼使用的產品和化妝結果,也有很多人按讚(粉絲沒有反感)

政治人物粉絲參與度

柯文哲4.4%
姚文智10% (最後終到45%,然後就關閉了)
林佳龍3%
陳其邁1.7%

讓我們分析柯文哲

喜歡柯文哲的人,也喜歡他老婆,比其他人更多追隨陳珮琪(4.3倍)和黃國昌(4.2倍)的粉絲團
因此不能得罪這些人

喜歡柯文哲的也會追隨那些粉絲團

  • 4.3 陳珮琪
  • 4.2 黃國昌
  • 3.8 林昶佐
  • 3.5 海綿寶寶驚點語錄
  • 3.5 香蕉哥哥 why? 我真的不知道為什麼
  • 3.5 楊伊媚
  • 3.3 高嘉瑜

討厭柯文哲的也會追隨那些粉絲團

  • 0.1 討厭柯文哲的
  • 0.2 侯友宜比蘇貞昌好
  • 0.3 不要欺負救國團
  • 0.3 中華民國讚

柯文哲 ?有誰記得嗎?
Inside 網路趨勢觀察
Hacks In Taiwan

喜歡柯文哲的都是我們這群人(資訊人)

從用戶留言分析資料

Amazon Echo銷售量,會和留言成正本
2018年1月很高,2018年2月掉下來,因為其他競爭者進來市場了

29度到32度,全國的用電量會增加18%
很神奇的是 32~35 度C 用電量沒增加,因為該開冷氣的都開了

市場分析極度客製化

溫度 氣象 新聞 社交+市場
加上長時間的累積,門檻很高

想看文章可以到
https://www.facebook.com/cih.tw

tags: COSCUP2018 misc
Select a repo