マラソン
https://oj.uz/problem/view/IOI10_languages
https://www.ioi-jp.org/ioi/2010/tasks/tasks_jpn/day1/t4_language/index.html
IOI では 56 の言語が使われています。 それぞれの言語の Wikipedia からランダムにページを選び、本文の連続する 100 文字を取り出してデータセットを作りました。
データセットでは、 1 つの文字に 1 〜 65535 の値がランダムに、 1 つの言語に 0 ~ 55 の値がランダムに割り振られています。
を 10000 回繰り返すとき、どれだけ正確に予想できるでしょうか?
正解率 | 得点 |
---|---|
30.00 % | 30 点 |
38.34 % | 40 点 |
47.12 % | 50 点 |
55.88 % | 60 点 |
64.65 % | 70 点 |
73.43 % | 80 点 |
82.20 % | 90 点 |
90.97 % | 100 点 |
99.74 % | 110 点 |
Rocchio と呼ばれる手法があり、この手法は約 40 % の正解率になります。
for e in {
for l in 0 .. 56 {
similarity[l] += (言語 l の文章に e が出現したか);
}
}
return argmax(similarity)
どの数がどの文字に対応するかがわからないので、文字の出現回数を上手く使って予測する必要があります。
各言語でしか使われない文字や単語があるはずなのでそれを上手く取り出しましょう。
文字列の N-gram とは、その文字列の長さ N の部分文字列全体のことをいいます。
上の Rocchio という手法では mono-gram についてしか見ていませんが、これを各 N-gram ごとにやってみましょう。
for N in 1 .. 5 {
for e in N-gram {
for l in 0 .. 56 {
similarity[l] += (言語 l の文章に e が出現した回数);
}
}
}
return argmax(similarity)
N が 5 以上のものは面倒かつ効果が薄いので 4 で打ち切ります
1 つの言語でしか出現していない文字の効果を高めたいので、出現回数で割ります
for N in 1 .. 5 {
for e in N-gram {
for l in 0 .. 56 {
similarity[l] += (言語 l の文章に e が出現した回数) / ( e が出現した回数);
}
}
}
return argmax(similarity)
N が大きい方が重要そうなので、係数 を掛けます
for N in 1 .. 5 {
for e in N-gram {
for l in 0 .. 56 {
similarity[l] += (言語 l の文章に e が出現した回数) / ( e が出現した回数) * ;
}
}
}
return argmax(similarity)
係数を山登りで決めて、完成です
https://oj.uz/submission/292157
92.27 %
101 点