2015年4月8日水曜日

e-raterは何を見ているのか? 4





前回の続き。






【復習】

TOEFLのライティング問題は、

「人間による採点」と、「e-raterというプログラムによる採点」の組み合わせにより判定されます




今回紹介する評価ポイントは、かなり先進的なのですが、

その分、本番の採点でどれぐらい比重を置いて活用されているかについては、正直なところ、未知数です。

というのを前提に・・・




Organization and Development

これはかなりスゴイです。

試験団体であるETSが公表している文章から引用して紹介します。
(以下、出典:ETS Research Report)





Organization and development features are based on automatically identifying sentences in an essay as they correspond to essay-discourse categories: introductory material (background), thesis, main ideas, supporting ideas, and conclusion. 

■ざっくりの和訳
OrganizationとDevelopmentは、文を自動的にカテゴリー分類することによって評価する。
カテゴリーというのは、イントロ部分、主張部分、メインアイデア部分(注:各パラグラフ毎のキーとなるアイデア)、そのサポート部分、コンクルージョン(結論)部分 である。





つまり、e-raterは、私たちが書いた文章を読んで、

「これが書き手の主張部分だな。 これがアイデアを支えているサポート部分にあたる記述だな。」というのを判別している(!)ということが書かれています。

さらに、







For the organization feature, e-rater identifies the number of elements present for each category of discourse in an essay. For the development feature, e-rater computes the average length for all the discourse elements (in words) in an essay.

■ざっくりの和訳
Organizationについては、e-raterは各カテゴリーに属する要素の数を数える。
Developmentについては、e-raterはその各要素の長さ(要するに単語数)を数える。







と書かれています。

Developmentで数えられる、要素ごとの単語数がどう最終結果に影響を与えるかは不明ですが、

各要素間のバランスなどが見られている可能性もあります。

なお、Organizationにしろ、Developmentにしろ、各数値はエッセイ全体の長さと強く相関することになります。(エッセイ全体が長いほど、カテゴリー要素の総数や、各要素の単語数が増えやすいため。)




ただ、何よりもすごいのは、やはり、

e-raterが自動的に文章の構造を見抜いているという点です。

どこが主張で、どこが具体例なのかといった理解は、

従来は人間にしか判定できないと思われていた分野ですが、e-raterもその分野に乗り込んできています。

れには、1つは転換語(Transition words/phrases)が活用されていると思われます。

「具体例」を述べる前にはFor exampleやFor instanceやTo illustrateを使ったり、

「主張」を述べる前にはIn my opinionと前置きするという、あれです。

ただし、必ずしも全ての文章に転換語が使われるわけではないし、

実際、それでもe-raterは文を判定していきます。

おそらく、スペルミス等と違って、これは人間の理解力にはまだ及ばない分野でしょう(そのため、この項目におけるe-raterの判定が最終スコアにそこまで大きな影響をもつかどうかは未知数だと考えられます)が、それでもスゴすぎる。

将来、人間の採点官がいなくなって、機械だけで採点されるようになるという可能性も十分に感じさせます。(ETSならやりかねない気がします。)










もう1つ。



Topic-Specific Vocabulary Usage

つまり、その問題に特有の語彙が使われているかどうかも、e-raterは判定できるのです。

これは、事前に複数パターンの答案例エッセイ(&各スコア)をe-raterに読み込ませ、

そこで使われている語彙との類似性などから、受験生の答案を評価していくようです。(どのぐらいの精度なのかは未知数ですが…。)

これって、簡単に言うと、「お手本に近い答案であればあるほど、評価してもらいやすい」ということになりそうですが、

実際、人間が採点するときも、お手本というか理想の形式のようなものが頭の中にあって、

それに近い答案だと「けっこうイケてるな」と判定するということはけっこう起きているでしょう。

そういえば、たまにQuestion-1のリスニング中、画面にキーワードが表示されることがありますが、

このワードはもしかして自分の答案にしっかり入れておいた方が安全かもしれません。









・・・と、今回は、「e-raterが見ているのはスペルや文法だけではない!」という側面について紹介しました。

もちろん、いくら文の構造をe-raterが見抜いたところで、

そこで述べられている主張の妥当性、内容の適切さについては、

まだe-raterに判定することはできないはずです。

しかし、TOEFLがエッセイのコンクールではなく、あくまで英語のテストとして設計されていることを考えると、

今後、数年のうちにe-raterの性能がさらに進化し、

「たとえ感動して涙を流すことはなくても、

 英語のエッセイとしての質を判定するという点ではe-raterは十分な力をもっている」として、

人間の採点官がいなくなる日もやってくる可能性は大いにあります。

実際、TOEFLの採点には一定以上の水準の採点官が必要ですが、

そうした質の高い採点官を維持するのは難しいでしょう(人材の質に比べて、給料水準は決して高くないという話も聞いたことがあります)。

しかし、e-raterなら人件費も浮く(そうなれば受験料も安くなるはず)し、

採点結果の返却も今以上に早くできる。

そうした状況が、遠くない未来にやってくるかもしれません。






・・・今回の評価ポイントはよりエッセイの内容面に踏み込んだ分野だったので、

つい話がそれてしまいました。

このシリーズ、そろそろ終了です!



➡ 「 e-raterは何を見ているのか? 5(最終回) 」 へ


(※本記事は、ETSが公表している資料をもとにe-raterの評価項目等を推定して書いているものであり、現在のTOEFL(iBT)試験において同じアルゴリズムを用いて採点されていることを保証するものではありません。)







Related Posts Plugin for WordPress, Blogger...