You are here

電腦自動評分的難點

未來國中基測將採用電腦評分,雖這還未列入正式評分的階段,但這是修正電腦評分的必要過程,提高準確度。然而筆者覺得從新聞已知的訊息看來,這套系統能否用於國中基測閱卷,仍言之過早。原因如下:

困難點一:將手寫作文轉換至電腦閱卷
  如果要大規模使用到國中基測,第一個所要面臨的困難就是辨識手寫字。中文光學辨識印刷體的正確率應在九成以上,但手寫輸入法的辨識率雖號稱「經過適當的訓練,辨識率達90%以上」,因為在手寫的過程中有筆順的介入,還有個人手寫習慣等諸多因素。在這些條件成熟後,才有九成的辨識率。那手寫的光學辨識率呢?天曉得!如果真要採用,那這種國中生非得開始練就一筆好字不可,但這些字又不難太有特色,連筆的現象也得減小,否則電腦辨識不出,吃虧得不是自己嗎?

  反觀托福與GRE測驗,照理來說英文與中文比較起來,應是較易辨識的,但是考過這些考試的人都知道,現在這些測驗的寫作部分是在電腦前考的,所以完全沒有辨識的問題。從這個比較不難想像要將電腦自動評分用至國中基測,還有很長的路要走。

困 難點二:組識結構
  在教華語的時候,常常面臨這樣的問題:學生讀文章時,每個句子都懂,可是不懂文章的主旨。這樣的現象一點都不令人意外,因為中文文章的寫作方式與英文有很大的不同。英文文章通常講究五段式作文,第一段是介紹,並提出問題點,後面三段是支持論述,最後一段是結論。此外,每段文章都有topic sentence,只要每段文章都抓到主旨句,很快就能知道這篇文章的大意。反觀中文作文,文章佈局的方式因人而異。一般人可能會覺得「起、承、轉、合」是中文文章基本結構,可是什麼是「起、承、轉、合」?除了起承轉合之外,為什麼又有開門見山、畫龍點睛?從電腦評分的角度來看,多樣性的結構如何判別其優劣呢?所以筆者在意的不是目前電腦評分與人工評分之間的一致率,而是電腦如何評斷這些?沒有sample文章出來,說明評分的標準,就只能在這個方面大大打個問號了。

困難點三:遣詞用字
  英文每個詞彙之間有空格隔開,但中文沒有,再加上中文雙音節詞佔多數,如果錯誤斷詞會造成不同的句義,這些特點增加了電腦作文評分的難度。中文分詞如果沒有處理好,如何判別句子的合法性?除非國中基測假設「國中生寫出來的句子都是正確的」,否則這樣的評分還是令人懷疑的。就目前新聞報導看來,似乎沒有特別針對句法上作判斷。這點不免令人憂心。

  如果斷詞的問題解決了,才能討論遣詞用字。遣詞用字的判別方式有很多,有的電腦評分是採用語義關聯度,先列出題目,然後搜集寫好的作文,將語義相關的關鍵詞列出,輸入電腦。與題目語義相關的詞使用得愈多,表示切中主旨。當然潛在的問題也有,如果有人在文章中列出很多語義相關的詞,但是作文離題,這樣的可能性也不能忽視。目前對這一點的解釋方法都是「如果真有人可以做到這樣,那表示他對語言操縱的能力不錯,是用好的寫作能力去寫品質不好的作文」。至於現在研發的這套系統,還不知道是怎麼評斷的,依筆者猜測,方式不外乎是語義的關聯度、詞頻等。

  無論如何,電腦評分是個好的開始,雖然潛在的問題還很多,不限於本文所列的三點,但希望這些問題能早日克服,並且研發出適合華語教學上應用的系統。 

本站相關文章:http://twtcsl.org/node/115

加油站主題: