Skip to content

Instantly share code, notes, and snippets.

@7shi
Last active June 28, 2025 06:10
Show Gist options
  • Save 7shi/604702f28ee0cc85a1a533f278abdd18 to your computer and use it in GitHub Desktop.
Save 7shi/604702f28ee0cc85a1a533f278abdd18 to your computer and use it in GitHub Desktop.
ELYZA-tasks-100を構造化出力で処理する試み

あなたは採点者です。

問題, 正解例, 採点基準, 回答 が与えられます。

採点基準と正解例を参考にして、回答を1,2,3,4,5の5段階で採点し、数字のみを出力してください。

問題

仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

正解例

  1. 自分の仕事に対する興味を再発見するために、新しい技能や知識を学ぶこと。
  2. カレッジやセミナーなどで講演を聴くことで、仕事に対する新しいアイデアや視点を得ること。
  3. 仕事に対してストレスを感じている場合は、ストレスマネジメントのテクニックを学ぶこと。
  4. 仕事以外の楽しいことをすることで、ストレスを発散すること。
  5. 仕事に対して自己評価をすることで、自分がどのように進化しているのかを知ること。

採点基準

基本的な採点基準

  • 1点: 誤っている、 指示に従えていない
  • 2点: 誤っているが、方向性は合っている
  • 3点: 部分的に誤っている、 部分的に合っている
  • 4点: 合っている
  • 5点: 役に立つ

基本的な減点項目

  • 不自然な日本語: -1点
  • 部分的に事実と異なる内容を述べている: -1点
  • 「倫理的に答えられません」のように過度に安全性を気にしてしまっている: 2点にする

問題固有の採点基準

  • 熱意を取り戻すのではなく、仕事の効率化・スキルアップのような文脈になっていたら1点減点
  • 出したアイデアが5つより多い、少ない場合は1点減点
  • 5つのアイデアのうち、内容が重複しているものがあれば1点減点
{
"type": "object",
"properties": {
"evaluation": {
"type": "object",
"properties": {
"correctness": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "正確性に関する評価理由"
},
"level": {
"type": "string",
"enum": [
"incorrect",
"partially_correct",
"correct"
],
"description": "回答の正確性レベル"
}
},
"required": [
"reasoning",
"level"
]
},
"instruction_following": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "指示への従順性に関する評価理由"
},
"followed": {
"type": "boolean",
"description": "指示に従っているか"
}
},
"required": [
"reasoning",
"followed"
]
},
"direction_alignment": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "方向性の合致に関する評価理由"
},
"aligned": {
"type": "boolean",
"description": "方向性が合っているか"
}
},
"required": [
"reasoning",
"aligned"
]
},
"usefulness": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "有用性に関する評価理由"
},
"useful": {
"type": "boolean",
"description": "役に立つか"
}
},
"required": [
"reasoning",
"useful"
]
},
"japanese_quality": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "日本語品質に関する評価理由"
},
"has_issues": {
"type": "boolean",
"description": "不自然な日本語があるか"
}
},
"required": [
"reasoning",
"has_issues"
]
},
"factual_accuracy": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "事実関係に関する評価理由"
},
"has_errors": {
"type": "boolean",
"description": "部分的に事実と異なる内容を述べているか"
}
},
"required": [
"reasoning",
"has_errors"
]
},
"safety_overconcern": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "安全性配慮に関する評価理由"
},
"overconcerned": {
"type": "boolean",
"description": "「倫理的に答えられません」のように過度に安全性を気にしてしまっているか"
}
},
"required": [
"reasoning",
"overconcerned"
]
},
"q1": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "「熱意を取り戻すのではなく、仕事の効率化・スキルアップのような文脈になっている」についての考察"
},
"result": {
"type": "string",
"enum": [
"yes",
"no"
],
"description": "「熱意を取り戻すのではなく、仕事の効率化・スキルアップのような文脈になっている」を満たしますか?"
}
},
"required": [
"reasoning",
"result"
]
},
"q2": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "「出したアイデアが5つより多い、または少ない」についての考察"
},
"result": {
"type": "string",
"enum": [
"yes",
"no"
],
"description": "「出したアイデアが5つより多い、または少ない」を満たしますか?"
}
},
"required": [
"reasoning",
"result"
]
},
"q3": {
"type": "object",
"properties": {
"reasoning": {
"type": "string",
"description": "「5つのアイデアのうち、内容が重複しているものがある」についての考察"
},
"result": {
"type": "string",
"enum": [
"yes",
"no"
],
"description": "「5つのアイデアのうち、内容が重複しているものがある」を満たしますか?"
}
},
"required": [
"reasoning",
"result"
]
}
},
"required": [
"correctness",
"instruction_following",
"direction_alignment",
"usefulness",
"japanese_quality",
"factual_accuracy",
"safety_overconcern",
"q1",
"q2",
"q3"
]
},
"summary": {
"type": "string",
"description": "総合的な評価コメント"
}
},
"required": [
"evaluation",
"summary"
]
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment