Update risk_overall_index.json
在當代公共衛生與流行病學研究中,數據的「時效性」(Timeliness) 與「可及性」(Accessibility) 是決定危機干預成效的關鍵變量。傳統的自殺死亡統計數據,主要依賴於政府官方機構(如死因裁判庭、政府統計處)的發佈。這一流程通常涉及漫長的司法程序、死因研訊以及行政核實,導致官方數據往往存在數月甚至以年計的滯後。這種「回顧性」(Retrospective) 的數據雖然在準確性上具有權威地位,但在應對突發性公共衛生危機的情況下,如某種特定自殺方式的模仿效應、或社會動盪引發的情緒波動時,往往顯得反應遲緩,無法制定即時的政策與社會服務介入提供「當下」(Real-time) 的指引。
在此背景下,由民間發起的「香港自殺報道資料庫」(Hong Kong Suicide Press Database,簡稱 HKSPD)應運而生。該項目始於 2019 年 1 月 1 日,旨在填補官方數據的時間真空,通過系統性地收集、整理及分析媒體報道的自殺個案,構建了一個高頻率、高透明度的動態監測系統。HKSPD 不僅是一個數據資料庫,更是一個集成了數據視覺化、地理空間分析、應用程式介面 (API) 服務以及為防止自殺預警系統 (Early Warning System,簡稱 EWS) 制定穩固基礎的綜合性平台。
本報告旨在根據現有文獻與技術文件,對 HKSPD 進行鉅細無遺的解構。深入探討其核心定位、創辦背景、數據收集方法論、技術架構、功能模塊、倫理框架以及其在學術與社會服務領域的實際應用。重點分析 EWS 如何利用統計製程管制 (SPC) 與即時預測 (Nowcasting) 技術,將非結構化的新聞資訊轉化為具備預警功能的結構化數據,從而為香港的自殺預防工作提供了一個全新的視角與工具。
理解 HKSPD 的首要前提,是釐清其數據的本質。HKSPD 明確定位自己並非提供「官方自殺總數」(Official Suicide Statistics),而是呈現「媒體報道層面的自殺樣貌」(Media-reported profile of suicide),這是一個至關重要的學術區隔。媒體報道受限於新聞價值判斷 (Newsworthiness)、版面資源、採訪難度以及媒體自身的編輯方針,必然無法覆蓋社會中發生的每一宗自殺事件,例如發生在公共場所、涉及特殊方式或青少年的個案,往往比高齡個案更容易獲得媒體關注。
因此,HKSPD 的數據反映的是「社會大眾透過媒體鏡頭所感知的自殺現象」。這一特性使得該資料庫特別適用於以下幾類研究:
HKSPD 是一個典型的「公民科學」(Citizen Science) 與「開放數據」(Open Data) 項目。它完全由民間自發創立,不隸屬於任何政府部門或大型學術機構。項目的唯一創辦人與維護者為 Benny Ho-Men Yeong(楊皓文)。Benny 在數據科學應用於社會公益方面具有豐富經驗,除 HKSPD 外,還創立了「義工情報局 V.I.A」及「香港動物領養資料庫 HKAAD」等平台。這種由單一個人維護但具備高度專業性與自動化能力的運作模式,展示了現代資訊技術如何賦能個體,使其能夠承擔以往需要龐大機構資源才能完成的社會監測任務。
儘管是民間項目,HKSPD 的學術價值已獲得廣泛認可。其數據與方法論已被多位學者、本地大學及國際學術期刊引用,包括精神醫學領域的權威期刊《Asian Journal of Psychiatry》及公共衛生期刊《BMJ Public Health》。這證明了只要遵循嚴謹的方法論與倫理規範,民間資料庫同樣能夠產出高質量的科研成果,並為公共衛生政策提供實證支持。
HKSPD 的運作建立在四個核心使命之上:
HKSPD 的數據生產過程是一個結合了自動化技術與人工專業判斷的嚴謹流程,確保了數據的「高時效性」與「高準確度」。
資料庫的數據來源覆蓋了香港六間本地主流媒體。系統後端運行著自動化程式 (Web Crawlers),全天候監察這些新聞平台。程式內置了特定的關鍵字庫 (Keywords) 與語意規則,用於識別涉及「自殺」、「墮樓」、「燒炭」、「服藥」等關鍵詞的新聞標題或內文。系統一旦偵測到「疑似自殺」的報道,便會自動抓取該報道的元數據(URL、標題、發佈時間)並存入待人工核實的隊列。這種自動化機制確保了監測的全面性與即時性,通常在新聞發佈後的數分鐘內,系統便能完成抓取。
為了確保資料庫的信度與效度,HKSPD 制定了明確的收錄與排除標準,這些標準在人工核實階段被嚴格執行。
這種嚴格的篩選確保了資料庫內每一條記錄都具有可追溯的新聞來源,同時也劃定了數據的適用邊界。
從非結構化的新聞文本中提取結構化數據是 HKSPD 的核心工作之一。編者在核實新聞後,會依據標準化的編碼簿 (Codebook) 將信息錄入系統。此外,編者還需處理重複報道的問題,由於同一宗案件可能被多間媒體同時報道,或隨著警方調查進展有後續更新,HKSPD 使用唯一的 caseID 作為識別碼,將針對同一事件的多篇報道歸併,避免統計上的重複計算。
caseID
HKSPD 的數據結構設計極為詳盡,涵蓋了事件的多個維度,為研究者提供了豐富的變量以進行多層次分析。根據提供的文件,資料庫的核心欄位可分為四大類別。
這部份記錄了數據的來源屬性與時間標記。
newsDate
newsTime
caseDate
caseTime
newsURL
newsHelp
地理欄位是 HKSPD 進行空間分析的基礎,其精細度達到了街道/建築級別。
Area
District
subDistrict
Unit
subUnit
Latitude
Longitude
House
為了保護隱私,個人資料經過了去識別化 (De-identification) 處理,僅保留統計學特徵。
firstName
Gender
Age
Hospitalized
State
這部份數據試圖捕捉事件背後的社會心理因素,但受限於媒體報道的深度,通常僅供參考。
suicideNote
mental_illness
emotional_illness
missingRecord
reason1
reason2
reason3
type1
type2
type3
HKSPD 的網站不僅是數據的展示窗口,更是一個功能強大的分析平台。其架構設計邏輯清晰,滿足了從一般公眾到專業研究者的不同需求。
儀表板是 HKSPD 的核心分析工具,利用 Google Sheets 與 Google Apps Script 技術構建,提供了極高自由度的交互式圖表。
利用 GIS(地理資訊系統)技術,HKSPD 將抽象的統計數字還原為地理空間上的分佈。
這一系統為深度調查與個案研究提供了便利。
HKSPD 最具前瞻性的伸延在於促進本地大學研究中心開發「防止自殺預警系統」。這標誌著資料庫從被動的「記錄者」轉變為在危機發生前發出警示的「守望者」。
SPC 原本是工業工程中用於監控生產線品質的技術,EWS 創新性地將其應用於公共衛生監測。
鑑於官方數據的滯後,EWS 利用 Nowcasting 技術進行短期預測。
這一預警系統並非空談,其方法論基礎已在 2025 年發表於權威期刊《Asian Journal of Psychiatry》。研究證實,基於媒體報道的 SPC 與 Nowcasting 系統能夠有效捕捉香港自殺趨勢的異常波動,為建立高頻率的自殺監察機制提供了堅實的科學依據。
除了數據層面的監測,HKSPD 還衍生出了一個直接介入的線上工具 SUEY_Bot。這體現了項目「數據服務於人」的理念。
SUEY_Bot 主要活躍於香港最大的線上討論區 LIHKG(連登),經歷了三個版本的迭代,反映了干預策略的優化:
SUEY_Bot 與 HKSPD 共同構成了一個完整的「線上預防生態系統」:
兩者互為補充,覆蓋了從數據監測到個體援助的完整路徑。
HKSPD 堅信數據的價值在於流通與應用,因此建立了一個高度開放的數據生態系統。
自 2019 年以來,所有數據均對公眾免費開放。HKSPD 鼓勵第三方開發者、研究人員及社福機構下載並使用這些數據。
對於需要進行系統整合的開發者,HKSPD 提供了 RESTful API 介面,支援 JSON 格式的回傳。
https://hkspd.siuyeong.com/api
**主要參數 (Parameters)**:
page
limit
order
應用場景:
在處理自殺這一極度敏感的議題時,倫理考量是 HKSPD 運作的基石。
HKSPD 強烈建議(並在某種程度上強制要求)使用者在引用其數據時,必須履行以下道德責任:
**求助熱線資源列表 (部份)**:
創辦人保留對違反使用指引者採取法律行動的權利,特別是針對未經授權的商業使用、斷章取義造成的誤導性傳播,以及侵犯當事人隱私的行為。使用者需自行承擔因不當使用數據而產生的所有法律後果。
HKSPD 的價值已滲透至香港社會的多個層面,成為不同利益相關者手中的重要工具。
研究人員利用 HKSPD 的長跨度數據進行多種複雜分析。
儘管 HKSPD 具有顯著優勢,但我們必須客觀審視其局限性,以避免數據的誤讀。
香港自殺報道資料庫 (HKSPD) 展示了在數位時代,民間力量如何通過技術創新與倫理自覺,構建出具備高度專業水準的公共衛生監測系統。它不僅填補了官方數據的時效性空白,更通過開放數據與可視化工具,賦能了學術界、社福界與媒體,共同構建了一個更具韌性的社會安全網。只要使用者能充分理解其「反映媒體視野」的本質,並嚴格遵守倫理規範,HKSPD 將繼續作為香港預防自殺工作中的重要民間基礎設施,協助社會守護每一個寶貴的生命。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
香港自殺報道資料庫 (HKSPD):系統架構、監測方法與社會影響評估
1. 導言:公共衛生數據監測的新範式
在當代公共衛生與流行病學研究中,數據的「時效性」(Timeliness) 與「可及性」(Accessibility) 是決定危機干預成效的關鍵變量。傳統的自殺死亡統計數據,主要依賴於政府官方機構(如死因裁判庭、政府統計處)的發佈。這一流程通常涉及漫長的司法程序、死因研訊以及行政核實,導致官方數據往往存在數月甚至以年計的滯後。這種「回顧性」(Retrospective) 的數據雖然在準確性上具有權威地位,但在應對突發性公共衛生危機的情況下,如某種特定自殺方式的模仿效應、或社會動盪引發的情緒波動時,往往顯得反應遲緩,無法制定即時的政策與社會服務介入提供「當下」(Real-time) 的指引。
在此背景下,由民間發起的「香港自殺報道資料庫」(Hong Kong Suicide Press Database,簡稱 HKSPD)應運而生。該項目始於 2019 年 1 月 1 日,旨在填補官方數據的時間真空,通過系統性地收集、整理及分析媒體報道的自殺個案,構建了一個高頻率、高透明度的動態監測系統。HKSPD 不僅是一個數據資料庫,更是一個集成了數據視覺化、地理空間分析、應用程式介面 (API) 服務以及為防止自殺預警系統 (Early Warning System,簡稱 EWS) 制定穩固基礎的綜合性平台。
本報告旨在根據現有文獻與技術文件,對 HKSPD 進行鉅細無遺的解構。深入探討其核心定位、創辦背景、數據收集方法論、技術架構、功能模塊、倫理框架以及其在學術與社會服務領域的實際應用。重點分析 EWS 如何利用統計製程管制 (SPC) 與即時預測 (Nowcasting) 技術,將非結構化的新聞資訊轉化為具備預警功能的結構化數據,從而為香港的自殺預防工作提供了一個全新的視角與工具。
2. 核心定位與機構背景
2.1 數據性質的界定:媒體報道與客觀事實的區隔
理解 HKSPD 的首要前提,是釐清其數據的本質。HKSPD 明確定位自己並非提供「官方自殺總數」(Official Suicide Statistics),而是呈現「媒體報道層面的自殺樣貌」(Media-reported profile of suicide),這是一個至關重要的學術區隔。媒體報道受限於新聞價值判斷 (Newsworthiness)、版面資源、採訪難度以及媒體自身的編輯方針,必然無法覆蓋社會中發生的每一宗自殺事件,例如發生在公共場所、涉及特殊方式或青少年的個案,往往比高齡個案更容易獲得媒體關注。
因此,HKSPD 的數據反映的是「社會大眾透過媒體鏡頭所感知的自殺現象」。這一特性使得該資料庫特別適用於以下幾類研究:
2.2 創辦背景與組織架構
HKSPD 是一個典型的「公民科學」(Citizen Science) 與「開放數據」(Open Data) 項目。它完全由民間自發創立,不隸屬於任何政府部門或大型學術機構。項目的唯一創辦人與維護者為 Benny Ho-Men Yeong(楊皓文)。Benny 在數據科學應用於社會公益方面具有豐富經驗,除 HKSPD 外,還創立了「義工情報局 V.I.A」及「香港動物領養資料庫 HKAAD」等平台。這種由單一個人維護但具備高度專業性與自動化能力的運作模式,展示了現代資訊技術如何賦能個體,使其能夠承擔以往需要龐大機構資源才能完成的社會監測任務。
儘管是民間項目,HKSPD 的學術價值已獲得廣泛認可。其數據與方法論已被多位學者、本地大學及國際學術期刊引用,包括精神醫學領域的權威期刊《Asian Journal of Psychiatry》及公共衛生期刊《BMJ Public Health》。這證明了只要遵循嚴謹的方法論與倫理規範,民間資料庫同樣能夠產出高質量的科研成果,並為公共衛生政策提供實證支持。
2.3 核心使命與價值觀
HKSPD 的運作建立在四個核心使命之上:
3. 數據收集方法論與處理流程
HKSPD 的數據生產過程是一個結合了自動化技術與人工專業判斷的嚴謹流程,確保了數據的「高時效性」與「高準確度」。
3.1 數據來源與自動化採集
資料庫的數據來源覆蓋了香港六間本地主流媒體。系統後端運行著自動化程式 (Web Crawlers),全天候監察這些新聞平台。程式內置了特定的關鍵字庫 (Keywords) 與語意規則,用於識別涉及「自殺」、「墮樓」、「燒炭」、「服藥」等關鍵詞的新聞標題或內文。系統一旦偵測到「疑似自殺」的報道,便會自動抓取該報道的元數據(URL、標題、發佈時間)並存入待人工核實的隊列。這種自動化機制確保了監測的全面性與即時性,通常在新聞發佈後的數分鐘內,系統便能完成抓取。
3.2 收錄與排除標準 (Inclusion & Exclusion Criteria)
為了確保資料庫的信度與效度,HKSPD 制定了明確的收錄與排除標準,這些標準在人工核實階段被嚴格執行。
2. 事件性質:報道必須明示自殺 (Suicide) 或企圖自殺 (Attempted Suicide) 事件。
3. 公開性:必須已被媒體公開報道,有可查證的新聞來源。
4. 核實狀態:必須經過編者人工核實,確認符合上述條件。
2. 境外個案:非香港地區發生的事件,即使當事人為香港居民。
3. 私人案件:僅由警方或家屬處理,未經媒體曝光的案件。
4. 意外或自然死亡:經核實後確認為意外墮樓、工業意外或自然死亡的個案。
這種嚴格的篩選確保了資料庫內每一條記錄都具有可追溯的新聞來源,同時也劃定了數據的適用邊界。
3.3 數據清洗與結構化 (Data Cleaning & Structuring)
從非結構化的新聞文本中提取結構化數據是 HKSPD 的核心工作之一。編者在核實新聞後,會依據標準化的編碼簿 (Codebook) 將信息錄入系統。此外,編者還需處理重複報道的問題,由於同一宗案件可能被多間媒體同時報道,或隨著警方調查進展有後續更新,HKSPD 使用唯一的
caseID作為識別碼,將針對同一事件的多篇報道歸併,避免統計上的重複計算。4. 數據架構與欄位詳解
HKSPD 的數據結構設計極為詳盡,涵蓋了事件的多個維度,為研究者提供了豐富的變量以進行多層次分析。根據提供的文件,資料庫的核心欄位可分為四大類別。
4.1 報道基本資料 (Report Metadata)
這部份記錄了數據的來源屬性與時間標記。
caseID:個案的唯一識別編號,是用戶進行數據檢索與引用的主鍵。newsDate/newsTime:新聞報道的建立日期與時間。這反映了信息傳播的時間點。caseDate/caseTime:個案被發現的日期與時間。這與新聞發佈時間可能存在差異(例如深夜發生的案件可能在次日早晨報道)。newsURL:新聞報道的來源,確保數據的可查證性。newsHelp:一個重要的倫理指標,記錄該篇新聞報道是否在文末或顯眼處提供了求助熱線資訊。這可用於評估媒體的報道倫理水平。4.2 地理資訊 (Geographical Information)
地理欄位是 HKSPD 進行空間分析的基礎,其精細度達到了街道/建築級別。
Area:大區分類(香港島、九龍、新界)。District:全港 18 區行政分區(如觀塘區、沙田區)。subDistrict:更細緻的社區劃分。Unit/subUnit:具體的街道名稱、屋苑或建築名稱。Latitude/Longitude:精確的經緯度座標。這是生成「自殺地圖」與進行熱點分析 (Hotspot Analysis) 的關鍵數據。House:房屋類型分類。這是一個極具社會學意義的變量,通常分為「私人屋苑」、「公共屋邨」(公屋)、「居者有其屋」(居屋)、「非住宅」(如商場、酒店、橋樑)等。透過分析房屋類型,研究者可以探討社會經濟地位 (SES) 與自殺風險之間的潛在關聯。4.3 個人資料 (Demographics)
為了保護隱私,個人資料經過了去識別化 (De-identification) 處理,僅保留統計學特徵。
firstName:姓氏或稱謂(如「陳先生」、「一名女子」)。Gender:性別(男/女)。Age:年齡。Hospitalized:是否送院治理。State:個案的最終狀態(如「身亡」、「清醒」、「昏迷」)。這區分了自殺死亡 (Suicide Death) 與企圖自殺 (Attempted Suicide)。4.4 背景與成因 (Context & Causality)
這部份數據試圖捕捉事件背後的社會心理因素,但受限於媒體報道的深度,通常僅供參考。
suicideNote:是否有檢獲遺書。mental_illness:是否有提及精神病患記錄。emotional_illness:是否有提及情緒病患記錄。missingRecord:死者生前是否被列為失蹤人士。reason1/reason2/reason3:懷疑自殺原因(如「因病厭世」、「金錢問題」、「感情困擾」)。需注意,這些原因通常源自警方初步調查或家屬透露,並非臨床心理剖析的結果。type1/type2/type3:自殺方式類別(如「跳落」、「燒炭」)。這一數據對於監測特定自殺方式的流行趨勢至關重要。5. 網站功能系統與視覺化分析
HKSPD 的網站不僅是數據的展示窗口,更是一個功能強大的分析平台。其架構設計邏輯清晰,滿足了從一般公眾到專業研究者的不同需求。
5.1 儀表板 (Dashboard):多維度時間序列分析
儀表板是 HKSPD 的核心分析工具,利用 Google Sheets 與 Google Apps Script 技術構建,提供了極高自由度的交互式圖表。
5.1.1 時間趨勢監測
5.1.2 人口統計特徵分析
5.2 地理視覺化:自殺地圖 (Suicide Map)
利用 GIS(地理資訊系統)技術,HKSPD 將抽象的統計數字還原為地理空間上的分佈。
5.3 個案搜索與報道追蹤
這一系統為深度調查與個案研究提供了便利。
6. 防止自殺預警系統:從數據到預防
HKSPD 最具前瞻性的伸延在於促進本地大學研究中心開發「防止自殺預警系統」。這標誌著資料庫從被動的「記錄者」轉變為在危機發生前發出警示的「守望者」。
6.1 統計製程管制 (Statistical Process Control, SPC)
SPC 原本是工業工程中用於監控生產線品質的技術,EWS 創新性地將其應用於公共衛生監測。
6.2 即時預測 (Nowcasting)
鑑於官方數據的滯後,EWS 利用 Nowcasting 技術進行短期預測。
6.3 學術驗證
這一預警系統並非空談,其方法論基礎已在 2025 年發表於權威期刊《Asian Journal of Psychiatry》。研究證實,基於媒體報道的 SPC 與 Nowcasting 系統能夠有效捕捉香港自殺趨勢的異常波動,為建立高頻率的自殺監察機制提供了堅實的科學依據。
7. SUEY_Bot:線上干預生態系統
除了數據層面的監測,HKSPD 還衍生出了一個直接介入的線上工具 SUEY_Bot。這體現了項目「數據服務於人」的理念。
7.1 演化歷程
SUEY_Bot 主要活躍於香港最大的線上討論區 LIHKG(連登),經歷了三個版本的迭代,反映了干預策略的優化:
7.2 生態定位
SUEY_Bot 與 HKSPD 共同構成了一個完整的「線上預防生態系統」:
兩者互為補充,覆蓋了從數據監測到個體援助的完整路徑。
8. 開放數據生態與 API 技術規格
HKSPD 堅信數據的價值在於流通與應用,因此建立了一個高度開放的數據生態系統。
8.1 開放數據策略
自 2019 年以來,所有數據均對公眾免費開放。HKSPD 鼓勵第三方開發者、研究人員及社福機構下載並使用這些數據。
8.2 API 技術詳解
對於需要進行系統整合的開發者,HKSPD 提供了 RESTful API 介面,支援 JSON 格式的回傳。
https://hkspd.siuyeong.com/api**主要參數 (Parameters)**:
pagelimitcaseIDorder應用場景:
9. 倫理框架、法律責任與使用指引
在處理自殺這一極度敏感的議題時,倫理考量是 HKSPD 運作的基石。
9.1 倫理原則與限制
9.2 引用規範與道德責任
HKSPD 強烈建議(並在某種程度上強制要求)使用者在引用其數據時,必須履行以下道德責任:
**求助熱線資源列表 (部份)**:
9.3 法律免責與權利主張
創辦人保留對違反使用指引者採取法律行動的權利,特別是針對未經授權的商業使用、斷章取義造成的誤導性傳播,以及侵犯當事人隱私的行為。使用者需自行承擔因不當使用數據而產生的所有法律後果。
10. 利益相關者的應用案例
HKSPD 的價值已滲透至香港社會的多個層面,成為不同利益相關者手中的重要工具。
10.1 學術界:實證研究的基石
研究人員利用 HKSPD 的長跨度數據進行多種複雜分析。
10.2 社福機構:前線服務的雷達
10.3 媒體與公眾:知情權與教育
11. 局限性分析與未來展望
儘管 HKSPD 具有顯著優勢,但我們必須客觀審視其局限性,以避免數據的誤讀。
11.1 主要局限性
11.2 結語
香港自殺報道資料庫 (HKSPD) 展示了在數位時代,民間力量如何通過技術創新與倫理自覺,構建出具備高度專業水準的公共衛生監測系統。它不僅填補了官方數據的時效性空白,更通過開放數據與可視化工具,賦能了學術界、社福界與媒體,共同構建了一個更具韌性的社會安全網。只要使用者能充分理解其「反映媒體視野」的本質,並嚴格遵守倫理規範,HKSPD 將繼續作為香港預防自殺工作中的重要民間基礎設施,協助社會守護每一個寶貴的生命。