考試評價簡論-正文第二章計算機輔助命題係統

命題是考試的一個十分重要環節。傳統的經驗型命題的方法不僅給教師帶來沉重的工作負擔，而且還存在著很大的主觀性、任意性，試卷的水平波動較大。要編製高質量的試卷，就必須跳出傳統的命題模式，這樣就產生了在計算機上建立試題庫。用計算機命題，客觀、公正、科學，能使考試建立在一個相對穩定的標準之上，具有較高的有效度和可信度。同時可根據命題的不同要求隨機的組成區分度和難度不同的試題，簡化了命題的工作流程的負擔，給命題工作帶來了新的生命和活力。

第一節試題庫的概念

一、試題庫的定義

簡單地說，試題庫是按一定的原則組織起來的，它含有統計測量數據的高質量試題的集合。可以這樣來理解試題庫：

1．題庫中的試題是運用數理統計學理論和教育測量學理論對試題進行測試分析後得到的達到各項指標要求的、高質量的試題。

2．題庫不是試題的簡單集合，它是按一定科學的規則組織起來的，試題的類型、內容及數量應能反映某門學科或課程所含（全部知識及能力）課程目標要求。

3．題庫既能夠存貯、編輯試題又能按要求檢索試題，生成試卷的一個完整係統。

二、題庫的類型

如果按照對不同目的考試的適應能力來分，題庫可分兩類：單功能題庫與多功能題庫。單功能的題庫是指為某一種性質或目的的考試而建立的題庫。如美國的 GRE 考試、TOEFL 考試，我國的高中會考、學業水平考試和高校招生考試等使用的試題庫。單功能的題庫主要用於水平或選拔考試。多功能的題庫是指題庫中試題可以供同類性質不同標準的考試或目的、性質都不同的考試共同使用的題庫，這類試題庫是用於各類學科或課程的考試，即可根據同類學科或課程的不同水平層次考試，以及不同目的、性質考試的需要，提供所需試題並生成試卷。

第二節試題庫建設的有關理論

一個試題庫係統的成熟與發展，通常是與建立題庫理論的成熟與發展以及考試領域可以利用現代化科技成果的能力密切相關。目前一般所依據的建庫理論是測量理論，主要有兩種：項目反應理論與經典測量理論。

一、項目反應理論（簡稱 IRT )

它是一種以項目參數為前提條件的理論。 IRT 的數學模型把被試在某一項目上的能力水平θ與其在該項目上肯定回答的概率 P（θ）聯係起來。根據 IRT 模型可以采用極大似然估計法對題目參數和能力參數進行估計。但 IRT 的前提是假設條件、參數的不變性、測驗信息函數要求運用能力的單維性等是否合理全憑經驗，用於多級評分的 IRT 理論尚在研究之中。

二、經典測量理論（簡稱 CTT )

它是題庫建設中最常用的一種測量理論。這種測量模型可以用於分析下列三類指標：

1．在單個題目上被試應答的分布狀態指標。如題目的均值、方差和難度。

2．被試對題目應答和預測目標之間的相關程度的指標。如題目的區分度。

3．題目構成試卷後試卷的效度、信度和題目的各項指標之間的關係。

CTT 是一種以考試實得分數為前提條件的理論。計算的各種題目參數與被試對象有著密切聯係，是一個相對的指標體係，所以不大適用於達標考試為目的的題庫。

因此，如何將 IRT 與CTT 以及一些相應的理論結合起來，以吸收各自的科學成分是建庫理論中一個重要的課題。實際建庫中可根據具體需要選擇合適方式和建庫理論，並采用專家預測與實測相結合的方法對題目進行測試。