![]() |
Image: Research by Nick Youngson CC BY-SA 3.0 Alpha Stock Images |
本文寫於 2018 年 11 月,適用當時的衛生福利部衛生福利資料科學中心相關規定。未來(或目前)的規定可能有所更動,請參閱衛生福利部網站查閱最新規定。
1. 我想開始做資料庫研究,該從何開始?
首先,所有的研究都一樣,你應該要有一個好的題目跟假說,才能設計實驗來驗證你的假說。
再來就是研究衛生福利資料科學中心的資料,尤其是資料庫使用手冊跟收費相關規定。
找到題目之後、初步有分析的想法後,可以找統計諮詢的專家 (例如成大設有生物統計諮詢中心跟健康數據科學中心) 確認你的實驗設計是否正確,比較不會走冤枉路。
2. 申請 IRB 會不會很難?
簡單來說,申請 IRB 難度只比「不申請 IRB」高一點點而已,大體而言是沒問題的。
3. 怎麼知道我的題目可不可行(例如說,病人數夠不夠?)
這個問題目前無解,只能實際分析完才會知道。我只能說,手上最好要有幾個備案,萬一不行的時候趕快換其他題目。
4. 實際分析怎麼進行?一定要有研究助理嗎?
分中心的開放時間通常是白天,而且不能帶手機進去。如果你沒有辦法找出一個上午或是一個下午的空檔,可能就得請助理幫你處理。
不過,因為一來一回的時間變長了,所以假手他人的研究速度預估會更慢。
5. 我沒有錢或經費拮据!
這是年輕主治醫師的痛啊~!手上什麼資源都沒有,更不用說助理了。但是相對其他研究而言,資料庫研究還是相對容易起步的。
首先,資料庫跟欄位是可以看需求買的,一個欄位 $250。好好的研究資料庫的內容,只買需要的欄位,可以大幅度降低成本。
其次,跟大家分享幾個省錢的招式:
A. 分期付款:
一個申請案的執行年限是三年,申請到之後,這三年都可以用。如果你的計畫經費不夠,可以先買一部分(部分年或部分欄位),明年若有經費接續,再買齊剩下的一起分析。B. 買不分年份資料庫:
有些資料庫,例如說癌症登記檔,是不分年份的,超划算。就算全部一百個欄位都買,總共也才 $250x100= $25000。此外還有主題式資料庫也看起來滿划算 (怎麼好像信用卡版還是點數版在算CPM…)C. 投靠幫派:
跟別人合作(例如說在下),一毛錢都不用出 XD6. 癌登資料庫裡面的登錄年份?追蹤到何時?
不同的癌症 (ICD-O-3 site) 開始登錄的年份有些不一樣,但最早大致上都是 2008 年開始登錄。癌症登記長表在民國 100 年 (2011) 有改版,因此 2011 之後的資料才有癌症部位特定因子(Site-Specific Factors, SSF)。
比較困擾的是,癌症登記檔中的追蹤不是很確實,很多病人最後追蹤日期停留在診斷後一兩年左右,以致於存活曲線大概只能畫到18個月病人就差不多 censor 完了。我不知道未來這個情況是否會改善。
目前的解決方法是串連死亡登記檔,可以計算整體存活。不過購買死亡登記檔又是另外一筆支出。
7. 資料匯出會不會很麻煩?
說不會也是騙人的,比起在自己的電腦上分析,步驟跟時間上都麻煩很多。有幾個小秘訣可以讓你的資料匯出更順利:
- 人數能不要有就不要有。匯出時會審核,不能有任何一個小於 3 的數字,(就連 N-at-risk 差 3 也不行…)。所以如果還不是最後的結果,可以不要輸出 Number at risk,比較不會出問題。
- 盡量合併資料為一個檔案。因為每個檔案都要寫詳細敘述,所以你把多個.csv合併成一個.xls就只要寫一次就好。
- 下次還要用的中繼檔可以不用匯出。在資料科學中心的電腦系統中,會有你自己的資料夾,可以暫存處理中的檔案。如果你的統計做了一半,下次還要繼續,可以放心的存在裡面就好,不需要攜出。
8. 你大概摸索了多久?
從送出申請單到第一次匯出任何資料,大概過了三個月;成功畫出圖表大概再兩個月;買到死亡檔串連又過了三個月。Propensity-score 跟 comorbidity 預計還要再三四個月才能搞定 XD。
不過因為還有臨床跟研究所的業務,所以是一個月進去一次左右。不過除了進去的時間之外,還要在外面先把程式寫好,才能盡量利用在裡面的時間多做點分析!
9. 加值中心有什麼軟體?
預約時,可以選擇要使用的統計軟體:SAS、SPSS、STATA (14/15)、R (有 RStudio 但沒有 CRAN)、Transfer。
其他的軟體,可以申請攜入。我不確定需要安裝的軟體是否能夠成功安裝。
10. 如何匯入 R 套件?
要完成這件事情,我找到一個好用的工具 miniCRAN,分享給大家。在自己的電腦上執行以下的程式,就可以抓到所有需要的套件檔案:
# 安裝 miniCRAN,只需要執行一次 install.packages("miniCRAN")
# 列出會使用到,需要下載的套件 library("miniCRAN") pkgs <- c("lubridate", "survminer", "tableone") pkgList <- pkgDep(pkgs, suggests = FALSE) # 建立暫存資料夾 dir.create(pth <- file.path(tempdir(), "miniCRAN")) # 下載並儲存套件檔案 makeRepo(pkgList, path = pth, type = "win.binary")這樣就可以取得所有需要的 R 套件檔案了。這些檔案備齊後,填妥「SEC003 軟體使用聲明書」,並寄給資料科學中心人員,即可在中心內使用。