![]() |
現代評量技術應用於復健領域成效評量工具之文獻回顧 Jette, A.M., & Haley, S. M. (2005). Contemporary measurement techniques for rehabilitation outcome assessment. Journal of Rehabilitation Medicine, 37, 339-345 前言: 與復健成效相關的概念中,「成效評量工具」(outcome measures)通常是指用來評量健康照護計畫及治療介入最終結果的評量工具。但關於「功能性成效」(functional outcomes)之概念一般並無清楚的定義,且亦無明確地區別評量功能性成效的工具與評量其它健康概念的工具之間的差別,因此不同工具所評量的概念互所重疊,包括日常生活功能(ADL)、失能程度(disability)、功能程度(function)、生活品質等概念。迄今,這些名詞之定義與使用仍無定論。因此作者建議使用世界衛生組織(World Health Organization, WHO)所發表之國際功能、 失能、和健康分類(International Classification of Functioning, Disability, and Health, ICF)模式的概念及專有詞彙,以作為本文討論的基礎。 ICF將功能與失能描述為不同的健康狀況與情境因子間互動的結果,而將人類功能分成三個層級:身體功能及構造(body functions and structure)、活動(activity)及參與(participation)。ICF定義「活動成效」(activity outcome)為「個人執行一項任務或動作的完成度」,而「參與成效」則被定義為「參與生活環境的程度」,是個人、個人的健康狀態及其所處環境之間互動的結果。在本文中,作者用「功能性成效」(functional outcomes)一詞來表示個人完成特定任務、執行日常生活活動的能力,及參與周遭環境與社會所需的能力。「個人完成特定任務、執行日常生活活動的能力」意指ICF中的「活動成效」,而「參與周遭環境與社會所需的能力」則恰符合ICF中「參與成效」之定義。 本文分成四大方面來闡述。第一部分回顧目前復健領域中現有之功能性成效評量工具的三項限制。現今的醫學主流,係以實證為基礎(evidence-based medicine)的臨床模式,並且越來越重視服務品質,健康照護系統體認到評量病人功能性預後的需求有增加的趨勢,因此迫切地需要更可行的方法以解決現有評量工具的限制。第二部分介紹現代測驗的技術:項目反應理論(Item Response Theory, IRT)及電腦適性評量(Computerized Adaptive Testing, CAT)。第三部分說明現代測驗技術(即結合IRT與CAT的技術)之優勢,可以幫助復健專業人員解決傳統測驗理論中的限制,設計出符合需求的評量工具。最後,第四部分將闡述現代功能性成效評量工具(以IRT為基礎的CAT)推廣至整個復健領域時可能面臨之挑戰。 現有功能性成效評量工具之三大限制: (1) 適用範疇與對象狹隘(Narrow Scope) 在1960年代及1970年代,成效評量工具著重於評量出慢性病人對基本日常生活功能(basic Activity of daily living, BADL)的需求。但隨著醫學的進步,病人、醫療人員及社會大眾開始改變他們對復健的期望,因此研究者開始探索能呈現較廣泛復健目標的方法,這些目標包括社區資源的整合、病人的滿意度與社會參與功能。因應上述的需求,因而發展出反應「社區整合」之重要性的評量工具,如Community Integration Questionnaire(CIQ)等,並發展評量「參與度」的工具,如Post-acute Care。 適用於復健住院病人的功能性成效評量中,開始標準化的分水嶺是Functional Independence Measure (FIM)的發展,此評量工具廣泛應用於全世界的急性期住院病人,使同類型機構之急性期住院病人的治療成效可以相互比較,且增進我們對復健成效的了解。但FIM只限於住院病人使用,無法推及非住院之病人,適用的對象受限。為了不同機構的需求,近來學者已分別發展適用於護理之家、家庭照護及出院病人的成效評量工具。 僅管病人已逐漸認知到社區整合及社會參與才是他們最重要的復健目標,但至今ADL功能仍是復健領域功能性成效評量工具最主要的評量範疇,因此可見現有的評量工具適用範疇不夠廣泛。另外,適用於某類型機構的評量工具,不一定適用於其它類型的機構,使得現有的功能性成效評量工具,無法被廣泛地應用於所有機構,適用對象受限。 (2) 不同評量工具所得之分數難以比較(Data incompatibility) 功能性成效評量工具的進展已可以滿足眾多評量目的之需求,但目前最主要的障礙是:不同評量工具所得之分數間無法互相比較。即使二種工具評量同一項特質,但使用不同的項目、不同的量尺來評量,因此無法比較。這些評量工具的差異不但使工具間的分數轉換困難,也很難比較或追蹤不同時期的醫療照護介入之成效,亦無法跨越不同的醫療機構去比較病人相關的功能預後,這是傳統的評量技術無法解決之難題。 (3) 精準度與可行性難以兼顧(The precision vs. feasibility dilemma) 目前傳統成效評量工具已可以量化許多不同的健康概念,增進評量工具之使用廣度,但這些具有良好廣度的工具,大多不夠精準(或深度),無法用以偵測臨床的治療成效。若為了兼顧評量工具之廣度與深度,個案必須接受較多項目的評量。然而這些項目可能是冗餘的或彼此之間相關性低,如此一來不僅造成個案的負擔,更浪費不必要的評量成本,並降低評量工具應用於臨床之可行性降低,例如MDS即因項目過多而造成臨床醫療人員及復健機構的負擔。相對而言,為了臨床上使用方便,許多評量工具常會被發展出固定項目的簡短版(short forms),但是這樣的作法不僅會使工具變得較不精準,且不一定適用於所有的個案,可能會出現上限效應、下限效應的問題,或因為項目過少,導致評量所得「分數」代表之「功能」間距過大(large gaps),造成評量工具之深度不足。理想的評量工具應擁有足夠的項目以涵蓋所有欲評量的範疇,並具有高度的精準度,且應用於臨床的可行性佳,但這也是傳統測驗理論所無法兼顧的。 促進成效評量工具發展的現代評量技術: 作者提出結合IRT及CAT的現代評量技術,來解決上述三大傳統評量之缺點,茲將項目反應理論(IRT)及電腦適性評量(CAT)的基本概念,簡介如下: (1) 項目反應理論(IRT) IRT是利用數學機率來說明個案某一潛在特質(latent trait)的強度(如功能高低)與個案於欲評量該潛在特質項目之答題反應(機率)之間的關係,其關係可以「項目特徵曲線」(Item Characteristic Curve, ICC)呈現。這種關係曲線基本上是非線性的,線上的每個點代表不同功能之個案對某一項目產生特定反應(例如:能否完成)之機率。由此ICC曲線可看出功能較好的個案在某項目的表現上有較高的機率達成(或完成)。根據個案在所有項目上的反應可算出其達成(或完成)各項目的機率,以估計該個案的能力最可能落在某項連續的功能範疇的哪一點上,亦即此機率可代表個案在某特質向度上之強度(或功能高低)。 IRT中項目難度(意指被通過或完成之機率)與個案的能力程度皆屬同一單位(logit),此logit單位具有等距尺度之特性,又個案能力的比值或差距與項目的特性無關(item free),項目的特性亦不會因為個案的能力不同而有變化(sample free),因此IRT具有等距及客觀量度的特性。假設一評量工具中所有項目經分析後皆吻合IRT模式,那麼在評量個案的功能程度時,不需受限於某組特定的項目,即使個案並非接受同一組評量項目,只要依照他們的表現反應,仍然可以比較彼此間的能力差異。IRT的此項特性,讓我們在評量時可以針對不同能力層級的個案提供不同的評量項目組合,因此擁有較大的彈性。 IRT模式至今已經發展出單參數、二參數及三參數模式。目前復健領域多半是採用單參數的羅序模式(Rasch Model),因羅序模式相較於其他較複雜的模式,顯得較為簡單、較容易解釋,且所需樣本數較小。羅序模式只用單一洛基模式(1-parameter logistic function)即項目難度參數來表達項目特性,且假設各項目具有相同的鑑別力。近來研究者開始收集較大量的個案樣本,且電腦適性化測驗亦開始普及,因此在發展功能性成效評量工具上漸漸採用較複雜的IRT模式。 目前復健成效評量工具的研究者將IRT應用於發展新的評量工具、改良現有的工具、等質化(equate)評量工具等用途,並將重點放在與有效率的評量應用模式(如CAT)結合。 為了將IRT應用於發展新的功能性成效評量工具,必需先建構特定功能範疇的項目題庫(item pool),題庫內項目取自於不同的來源(如現存的評量工具),其中包含不同難易程度的功能性任務或活動,再利用IRT的方法將項目標準化之後放到同一量尺上,建立架構(structure)及項目難易順序(ordering of items),之後項目即可以精簡版評量工具(short form instruments)的形式呈現,不過該評量工具需具備以下特性:涵蓋全面性的內容、項目與評量工具建構(construct)之間的吻合度佳、精準度高、精簡後的項目得分與項目總得分之相關性高、具備再測信度、及評量長度需方便臨床使用。 IRT的方法開啟研究者對項目間(評量同一功能範疇的項目)連結的了解,且結合IRT所發展的CAT將具備良好的心理計量特性,以下並接續介紹CAT。 (2) 電腦適性評量(CAT methodology) CAT利用人工智慧,視不同個案的能力選擇合適的評量項目,這就是所謂「適性評量」的概念,並可依個案的能力再減少或增加項目,以調整CAT的評量精準度。CAT的建立,第一步需建構題庫,題庫內項目需涵蓋完整難易度(或項目要求的功能高低);第二步從難度(或功能)適中的題目裡隨機挑選作為評量的起點;第三步則視個案的反應決定後續的項目;第四步計算原始得分及信賴區間;第五步終止適性評量,評量人員可先預設欲達到的精準度,達此精準度即停止評量,或預設評量項目數的上限標準,達此上限即停止評量。若個案評量到已設定的終止標準,仍無法決定其能力等級時,可依據個案目前的能力評估,再從第二個步驟重新開始。 電腦適性評量在復健領域應用上的5項優勢: CAT於復健領域上的應用,有以下5項實用價值,可解決傳統評量工具的限制,闡述如下: (1) 具備分數的可比較性 衡量CAT所得之分數的價值時,我們首先要問的是:CAT之分數是否能準確地代表全部評量項目之分數?準確性的驗證通常先以電腦模擬評量的方式進行,以取得大量的「模擬資料」,緊接著再利用前瞻式的研究來驗證。這些研究中的個案皆需接受兩種形式的評量(CAT及全部項目或代表性項目的評量)。本文作者曾以CAT之得分與全部項目或代表性項目之得分比較,證實確CAT所得分數具備顯著的準確性(remarkably accurate)。 (2) 具備適度的精準度(precision)。 「評量精準度」是指「對於評量分數的信賴程度」。以IRT分析CAT評量所得的分數,每一個分數都擁有一組特定的信賴區間,當評量項目的內容與個案能力越接近時,評量精準度就越高(信賴區間越小)。在CAT系統中,評量人員可以先定義出評量精準度,評量過程中一旦達到此精準度時,即終止評量。臨床上使用CAT時,常需使評量項目數達到最小化,不免會損失一些精準度,但比起固定式簡短版評量工具的精準度,CAT的精準度仍較高。 (3) 具備內容廣度與應用於不同類型機構的可行性。 適用於少部分個案族群或某一機構個案的傳統評量工具不一定適用於大部分的個案,因此專為某特定族群或特定機構所發展的評量工具,若應用到亞急性期個案或其他個案族群時,常會出現上限或下限效應。為了使評量工具可通用於不同族群或不同機構的個案,因此需建構大數量的項目題庫,再視每個個案的狀況而選擇小部分合適的評量項目。CAT是以IRT為基礎,因此用來評量功能的量尺是不變動的,即使不同個案分別評量不同的項目,所得的分數是仍可以互相比較。 (4) 具備偵測臨床變化的敏感度。 在Haley(2005)等人所發表之關於小兒成效評量工具的研究中,分別用CAT版與完整項目版評量個案住院到出院時的治療成效,發現兩者所偵測到的變化程度類似,表示CAT版(2種版本:分別為10個項目及15個項目)的反應性與完整版(59個項目)的反應性接近。在另一個未發表的研究中,作者等人評量28名發展障礙兒童進行體適能計畫後的成效,發現完整版的評量工具(116個項目)標準化之反應平均值(standardized response mean, SRM)為1.56,而CAT版(15個項目)的SRM為1.00。作者認為雖然CAT會損失些許偵測變化的能力,但它的SRM值顯示CAT可以偵測到功能性行動(functional mobility)之臨床上有意義的變化,並達到統計上的顯著。目前成人部分CAT偵測變化的反應性仍在研究中。 (5) 應用於研究與臨床之可行性高。 因每一個建構(construct)的評量項目僅需8~15項,所以評量時間短(少於3分鐘),不至於造成施測者及個案的負擔。 未來的挑戰 現代成效評量技術如IRT及CAT,是一種創新的方式,將復健領域傳統的評量方法轉換成另一種形式,可解決傳統評量工具的諸多限制,進而帶來許多實用價值。我們期待現代的評量技術能蓬勃發展,且可廣泛而有助益地應用於復健領域,因此我們所要面臨的下一個挑戰將是新技術的宣傳,及相關的專業課程的設立以培育新世代的復健醫療人員,讓此新方法能有效且快速地拓展至整個復健領域的研究及臨床應用。 |



