希望建立一個即時統一的新聞串流平台,利用大數據資訊整合解析資訊,並快速的生成報表與通知,提供開放式的API讓所有的開發者可以自行應用。 Demo Map:
各國政府以及民眾關切的疫情問題,目前需要一個即時且具歷史回顧的線上平台,讓大家有一個共同的消息來源,也進一步防止假新聞造成的恐慌。遇到這次的新冠病毒疫情中,各國公衛都著重於不同的處理方式,希望能讓疫情可以減緩,此平台將會是共同窗口針對趨勢、監測、通知,給予統一且中立的數據分析。-
利用爬蟲針對官方新聞稿、各大重要報社、論壇以及線上串流平台內容,利用自然語言辨識分段分詞需要關注的文章,進行資料論證、分群及分析,在不同的時間戳記下給予不同的趨勢分析,建立主動式以及被動式通知系統,串連民眾與官方的資訊交流。
此平台可自動掌握世界關注的任何議題,最即時的了解各國對議題看法包含政府政策走向及民意,也可建立一個統一的通知與回報系統,並擁有簡易的共享資料串流,提供全世界開發者進行任何應用。
有共同的平台了解各國對疫情的政策與民意,將更有效促進國際防疫合作,有統一個通知與回報系統,將大幅降低各國之間溝通的成本,人民也可以利用這單一窗口,有效地了解各國政府目前的政策與疫情即時情況,這也會降低各國政府發布的人力成本。 此平台如果未來成為媒體或民眾會得到最新消息的窗口之一,將更有效整合政府其他部門的消息發布,未來對於公衛上要如何執行跟規範,世界各國也可以分享自身的經驗,共同度過艱難的時刻。
- 台灣政府資料開放平台:https://data.gov.tw/
- 香港政府數據中心:https://data.gov.hk/en/
- 英國國家數據中心:https://data.gov.uk/
- 日本統計局:http://www.stat.go.jp/
- 中國國家數據中心:http://data.stats.gov.cn/
- 美國政府開放資料:https://www.data.gov/
- 歐盟資料平台:https://www.europeandataportal.eu/ 資料來源大多是文字csv, json, xml, rss feed等等,可以有效地取得timestamp, data source, reference,以台灣政府資料開放平臺為例,許多部門都是採用Json每天更新的方式發布新聞稿,新聞比數約略百筆,自然語言分析可有效地了解新聞內容的關鍵字與趨勢。
- 世界經濟貿易合作組織資料庫:https://data.oecd.org/
- 世界銀行開放資料:https://data.worldbank.org.cn/
- 世界衛生組織:http://apps.who.int/gho/data/node.home
- github:https://github.com/awesomedata/awesome-public-datasets
- Youtube資料集:https://research.google.com/youtube8m/index.htm
- GOOGLE開放資料搜索:http://www.google.com/publicdata/directory?hl=en_US&dl=en_USl
- Google趨勢搜索:https://trends.google.com/trends/?geo=US
- 亞馬遜aws:https://aws.amazon.com/cn/datasets/
想做大數據分析,需要有專業的人士進行資料分類,或是給予正確的label,才有辦法讓數據分析變得精確,這部分需要大量的人力幫忙,部分資料是可以採用unsupervised的方式進行label,但想要有精確且具意義的預測,如果可以結合官部門以及民間的feedback作為資料的label,將會是讓這些大數據資料變得更有意義的事情。 對於疫情想做更深入的資料探勘,需要有更私密的個人資料才有辦法進行分析,通常就需要政府對於資料進行開源。
當各國想共同建立平台時,將會更大有效率的資訊交流與合作,開放資料平台分享與世界重要事項通知,在未來將會是非常重要的一塊,這次的疫情也不會是最後一次,如何有效率的分享各國政府控制疫情的經驗,以及醫療學術上關於疫情的重大發現,都可以大大降低這次新冠病毒對全世界造成的影響,透明的資訊交流,將可以提早的讓疫情或重要事項讓全世界知道,更早進行封鎖以及世界各國聯手合作。
https://github.com/YanlongLai/cohack
簡報 https://docs.google.com/presentation/d/1cOgTHSxBDyDFIOlIUP5qcf1EsIVSQs3f_U7PlpDhcZI/edit#slide=id.p
可以多一些新聞媒體報導,讓更多人知道一起共同參與,這將會激發更多的創意以及各種技術合作。