第67章 轉閱二一:考試賦分(二)(2 / 3)

60?分之多的作文等特有的大型主觀題,也會提出更多的技術挑戰。

也有專家提出重新試驗使用標準分[13],在標準分的理論框架下,原始分的作用僅限於對考生排序,將每一個原始分分值對應的百分累積頻率對應作為標準正態分布下的左端麵積值對原始分分布進行強製正態化,再按照設定的均值和標準差進行一個線性變換後得到在特定分數全域內的標準分數值。與等級分相比,標準分既可以大幅度提高分數區分度和選考科目的權重,又可以在一定程度上減少因為人為劃分成績帶來的不同等級分數差距加大、相同等級分數差距抹去的扭曲現象,可能在一定程度上改進對等級分存在的問題。但標準分自身也存在很多缺陷,在對原始分數(特別是偏態分布情況下)進行強製正態化過程中,很可能在低分和高分端人為擴大或縮小分數差距,產生了新的扭曲。如在試題難度較低、區分度不明顯、考生分數相對集中的科目上,標準分會將原本微小的分差放大。反之,在試題難度較大、區分度較強的科目上,經過正態轉換後的標準分就會將高分端考分之間的距離縮小、將低分端考分之間的距離擴大。另外,它無法解決選考博弈帶來的學科失衡問題。同時,標準分的前提條件是建立在相同考生群體之上,在選考造成考生群體不同的背景下,由於起決定作用的仍然是排序,學科博弈現象將仍然存在,且由於科目間人數不均衡,考生群體存在明顯差異,違背了各學科標準分可比的理論假設和大前提。溫忠麟和羅冠中也明確指出,在選考科目上直接使用標準分是錯誤的,必須根據該科目考生群體在必考科目上的整體表現

來校準選考科目的標準分[14]。

陳愛文和胡銀泉提出設定“熔斷機製”,即當某一門學科在選考人數達不到一定要求時,如果考生采用賦分製的得分低於實際的卷麵得分,取學生的卷麵得分作為實際高考得分。他認為在這種相對分與絕對分相結合的給分機製中,隻要考生的真實水平高,考出實際高分,即使賦分低,最終可以取卷麵得分作為反映真實水平的實際高考得分,從而減弱高水平學生找低水平學生墊底的需求[8]。但考生的卷麵得分(即原始分)不僅與考生水平有關,還與當次考試的試卷難度有關。如果試題容易,將出現較多考生相對分低於實際原始分的情況,而試題較難,則會出現較多考生相對分高於原始分的情況。而在我國由於沒有試測等環節,試卷的難易較難控製,這種“熔斷機製”很可能會產生新的不公平問題。

借鑒以上改進建議,從考試的公平性、理論的科學性、操作的可行性?3?個原則出發,筆者認為選考科目賦分優化主要麵臨?3?個問題:①等級劃定原則要改進,對於共同競爭群體(如同一省份按照高考總分排序錄取原則錄取的考生),不同選考科目的等級劃定在評價考生的升學競爭力意義上必須是公平的,簡單以考生比例劃分等級的做法不可取;②同一等級內的賦分原則要改進,同一等級內考生原始分數間的差別是他們能力差別的體現,可以根據考試招生的需要給予不同程度的顯現;③等級分量表範圍要做適當調整,從而提升選考科目對人才選拔的貢獻。比較而言,第三個問題是簡單的數學問題,解決起來最為容易。第二個問題經過總結試點的經驗和教訓,比較容易取得共識,關鍵是如何在實際工作上形成各方都能接受的解決方案。至於第一個問題,無論在政策上還是技術上都麵臨很多挑戰,需要以創新的精神和科學的研究來解決。

本研究提議,保留浙滬試點等級分的主要邏輯框架但針對上麵提到的?3?個問題加以技術改進,形成改進的新等級分。下麵按照從易到難的順序分別討論以上?3個問題。

1.適當擴大分數全距。在語數外滿分各為?150?的前提下,將每個選考科目的分數全距擴大至?80?分到?100分(如采用[20,100]或[0,100]的分數量表),從而提升選考科目在高考總分中的權重。

2.同一等級內原始分轉換為等級分的“等比例原則”。設有原始分?x1?和?x2(x1<x2),分別對應到等級分t1?和?t2,(t1<t2)。此時,對於介於?x1?和?x2?之間的任何一個分數值?x0,按“等比例原則”可以非常直觀和簡便

地將這個得分值轉換為介於?t1?和?t2?之間的一個得分值?t0,方程如下:

x2?-x0?=?t2?-t0x0?-x1t0?-t1

通過“等比例原則”,可以將原始分反映出的能力差別等距地映射到等級分上,既避免了分差扭曲,又有效增加了等級分的區分度。

3.等級劃定。本研究基於“不同選考科目的等級分在評價考生的升學競爭力上是公平的”原則提出兩種劃分等級的方法:一種是根據客觀標準,通過專業決策程序劃分等級以保證公平;另一種是為各個選考科目尋找或建立一個共同的參照係,借助參照係來劃分或調整等級。

第一,學業質量水平參照劃等法。?由專業考試機構綜合國家課程標準、本省教學要求、當次試卷難度、原始分數分布等因素,通過科學程序,在每個選考科目的原始分量表上確定“及格”和“優秀”兩個等級點,再對應至等級分量表上各科目一致的“及格”和“優秀”的等級分,之後通過同一等級內分數轉換的“等比例原則”,最終形成各選考科目原始分與等級分的對應轉換表。不同科目由於學業質量標準不同,試卷難度也不同,兩個等級點很可能是不同的,但不同科目的“及格”或“優秀”所對應的學業質量水平(即升學競爭力)是相同的,因此有理由轉換為相同的高考分數。確定等級點的具體方法可以參考教育測量理論中的安哥夫方法、書簽法等。

綜合各種因素,?我們建議:?在采用?[20,100]或

[0,100]的量表時,將優秀的等級點對應到等級分85;及格的等級點對應到等級分?60。?由於任一原始得分

x0?必然落在不及格、及格、優秀三個區間之一,此時,按照“等比例原則”可以非常直觀簡便地將這個得分轉換為等級分量表上的一個得分?t0。

基於學業質量水平參照劃等法的新等級分,充分尊重和利用了教育測量與評價的基本理論,既借鑒了西方考試理論對定標、等值等基於統計學方法的研究成果和國外考試機構在很多著名考試項目中的成熟做法,也充分照顧了我國國情,簡化了定標過程,避免了測驗等值等較複雜的理論和計算過程,因而特別值得推薦。?它科學地反映了學業水平考試的設計初衷。從教育測量理論視角看,?高考是常模參照性考試,是按照比例來錄取的,而學業水平考試是標準參照性考試,應依據事先設定的標準來計分。?新等級分將浙滬試點方案中按照考生比例的相對標準,改變為按照學業質量水平的絕對標準,體現了學業水平考試相對於

高考的不同定位和功能。有利於等級考和高考今後進一步明確不同的功能和定位,各自健康發展。

該方案的優點是:不改變成績分布,保證公平;理論清晰,沒有過多假設前提;有利於避免選科博弈。缺點是事前各等級比例無法明確,考後才能確定各科目各個等級點及相應比例。考試機構每年要組織專家劃定等級,較浙滬試點的等級分操作和解讀難度更大。

第二,考生群體能力參照劃等法。?現行新高考試點方案規定特定的等級對應特定的考生比例,賦予了等級以明確的含義,如果各個選考科目的考生組是總體的隨機樣本,這一做法無可厚非。但是,由於選考不同科目的考生群體顯然會存在能力差異,是總體的有偏樣本,不加區分地將不同選考科目的相同比例考生群體設定為相同等級分的做法就不夠合理了。如果通過統計方法能將各科目選考群體的能力水平分布差別定量化,?計算和調整各選考科目各個等級的比例,?使相同的等級代表相同的能力水平(即升學競爭力),就又回歸合理了。這種通過統計方法將差異定量化的前提是為全體考生尋找或建立一個共同的參照係。

由於全體考生都參加語數外?3?個科目的考試,最簡單直觀的思路是以能夠反映學業能力水平的語數外?3?個共同科目來建立這個能力參照係。當然,也可以嚐試建立別的參照係。以語數外總分作為考生群體能力參照係為例:如果設定?A?級的比例為全體考生的?5%,首先按照這個比例在共同競爭群體(如全省考生)的語數外總分中找到對應的最低分值。對於任何一個選考科目的考生群體,此時可以計算出其中語數外總分在這個最低分值之上的考生數占本群體的比例。需要指出的是,這個比例不一定再是?5%,如在科目甲中可能是?4%,而科目乙中可能是?7%。這個差異就傳遞出了不同選考科目群體考生能力差別的信息。為保證公平性,科目甲應該把獲得等級分?A?級的考生比例調整為?4%,而科目乙應該把獲得等級分?A?級的考生比例調整為?7%,均不再是原等級分算法中同樣的?5%。各選考科目?B?級、C?級等的比例也可以此類推。

一旦確定了兩個以上的等級點,就可以采用學業質量參照劃等法中所述的相同邏輯,將原始分中的等級點對應到等級分量表上相應的等級分,並按“等比例原則”處理相同等級內的原始分數,最終形成各選考科目原始分與等級分的對應轉換表。

“考生群體能力參照劃等法”將選考科目的等級劃定自動化,避免人工劃等中可能出現的主觀色彩,不僅大幅度減少工作量,更有利於取信於民。