2018年11月14日 星期三

[臨床研究] 使用衛生福利資料科學中心研究的十個 Q & A

Image: Research by Nick Youngson CC BY-SA 3.0 Alpha Stock Images

本文寫於 2018 年 11 月,適用當時的衛生福利部衛生福利資料科學中心相關規定。未來(或目前)的規定可能有所更動,請參閱衛生福利部網站查閱最新規定。



1. 我想開始做資料庫研究,該從何開始?


首先,所有的研究都一樣,你應該要有一個好的題目跟假說,才能設計實驗來驗證你的假說。

再來就是研究衛生福利資料科學中心的資料,尤其是資料庫使用手冊跟收費相關規定。

找到題目之後、初步有分析的想法後,可以找統計諮詢的專家 (例如成大設有生物統計諮詢中心健康數據科學中心) 確認你的實驗設計是否正確,比較不會走冤枉路。


2. 申請 IRB 會不會很難?


以成大為例,資料庫研究屬於免審案件,通常申請書送出大概一兩個禮拜就可以拿到。唯一需要注意的是,要記得證明書上必須寫到「衛生福利資料科學中心」以及所使用的資料庫名稱 (如「全民健保處方及治療明細檔_門急診」)。

簡單來說,申請 IRB 難度只比「不申請 IRB」高一點點而已,大體而言是沒問題的。


3. 怎麼知道我的題目可不可行(例如說,病人數夠不夠?)


這個問題目前無解,只能實際分析完才會知道。我只能說,手上最好要有幾個備案,萬一不行的時候趕快換其他題目。


4. 實際分析怎麼進行?一定要有研究助理嗎?


目前的規定是只能進到衛生福利部或是各研究分中心進行分析。也就是說,現在已經無法拿到一個充滿資料的硬碟了!資料攜出也必須經過統計處審核之後,再用 Email 寄送給你。

分中心的開放時間通常是白天,而且不能帶手機進去。如果你沒有辦法找出一個上午或是一個下午的空檔,可能就得請助理幫你處理。

不過,因為一來一回的時間變長了,所以假手他人的研究速度預估會更慢。


5. 我沒有錢或經費拮据!


這是年輕主治醫師的痛啊~!手上什麼資源都沒有,更不用說助理了。但是相對其他研究而言,資料庫研究還是相對容易起步的。

首先,資料庫跟欄位是可以看需求買的,一個欄位 $250。好好的研究資料庫的內容,只買需要的欄位,可以大幅度降低成本。

其次,跟大家分享幾個省錢的招式:

A. 分期付款:

一個申請案的執行年限是三年,申請到之後,這三年都可以用。如果你的計畫經費不夠,可以先買一部分(部分年或部分欄位),明年若有經費接續,再買齊剩下的一起分析。

B. 買不分年份資料庫:

有些資料庫,例如說癌症登記檔,是不分年份的,超划算。就算全部一百個欄位都買,總共也才 $250x100= $25000。此外還有主題式資料庫也看起來滿划算 (怎麼好像信用卡版還是點數版在算CPM…)

C. 投靠幫派:

跟別人合作(例如說在下),一毛錢都不用出 XD


6. 癌登資料庫裡面的登錄年份?追蹤到何時?


不同的癌症 (ICD-O-3 site) 開始登錄的年份有些不一樣,但最早大致上都是 2008 年開始登錄。癌症登記長表在民國 100 年 (2011) 有改版,因此 2011 之後的資料才有癌症部位特定因子(Site-Specific Factors, SSF)。

比較困擾的是,癌症登記檔中的追蹤不是很確實,很多病人最後追蹤日期停留在診斷後一兩年左右,以致於存活曲線大概只能畫到18個月病人就差不多 censor 完了。我不知道未來這個情況是否會改善。

目前的解決方法是串連死亡登記檔,可以計算整體存活。不過購買死亡登記檔又是另外一筆支出。


7. 資料匯出會不會很麻煩?


說不會也是騙人的,比起在自己的電腦上分析,步驟跟時間上都麻煩很多。有幾個小秘訣可以讓你的資料匯出更順利:
  • 人數能不要有就不要有。匯出時會審核,不能有任何一個小於 3 的數字,(就連 N-at-risk 差 3 也不行…)。所以如果還不是最後的結果,可以不要輸出 Number at risk,比較不會出問題。
  • 盡量合併資料為一個檔案。因為每個檔案都要寫詳細敘述,所以你把多個.csv合併成一個.xls就只要寫一次就好。
  • 下次還要用的中繼檔可以不用匯出。在資料科學中心的電腦系統中,會有你自己的資料夾,可以暫存處理中的檔案。如果你的統計做了一半,下次還要繼續,可以放心的存在裡面就好,不需要攜出。


8. 你大概摸索了多久?


從送出申請單到第一次匯出任何資料,大概過了三個月;成功畫出圖表大概再兩個月;買到死亡檔串連又過了三個月。Propensity-score 跟 comorbidity 預計還要再三四個月才能搞定 XD。

不過因為還有臨床跟研究所的業務,所以是一個月進去一次左右。不過除了進去的時間之外,還要在外面先把程式寫好,才能盡量利用在裡面的時間多做點分析!


9. 加值中心有什麼軟體?


預約時,可以選擇要使用的統計軟體:SAS、SPSS、STATA (14/15)、R (有 RStudio 但沒有 CRAN)、Transfer。

其他的軟體,可以申請攜入。我不確定需要安裝的軟體是否能夠成功安裝。



10. 如何匯入 R 套件?


如果你跟我一樣用 R 的話,要注意就是無法使用內建的 install.packages 從 CRAN 抓套件檔 (因為電腦並沒有連接外部網路)。因此所有需要的套件檔都要申請攜入 (包括 dependency)。

要完成這件事情,我找到一個好用的工具 miniCRAN,分享給大家。在自己的電腦上執行以下的程式,就可以抓到所有需要的套件檔案:
# 安裝 miniCRAN,只需要執行一次
install.packages("miniCRAN")
# 列出會使用到,需要下載的套件
library("miniCRAN")
pkgs <- c("lubridate", "survminer", "tableone")
pkgList <- pkgDep(pkgs, suggests = FALSE)

# 建立暫存資料夾
dir.create(pth <- file.path(tempdir(), "miniCRAN"))

# 下載並儲存套件檔案
makeRepo(pkgList, path = pth, type = "win.binary")
這樣就可以取得所有需要的 R 套件檔案了。這些檔案備齊後,填妥「SEC003 軟體使用聲明書」,並寄給資料科學中心人員,即可在中心內使用。


11. 你也是新思惟的一員嗎?

不是耶。我還在等他們發聘書給我。