Mascot Serverで使われているスコアリングの中身は公開されていませんので、検索結果ページに記載されているスコアなどの数値に対して検算することはできませんが、次の2つの資料から、Mascot Serverのスコアリングの特徴を理解することができます。

http://www.matrixscience.com/pdf/asms_tutorial_2005.pdf
http://www.matrixscience.com/help/scoring_help.html

Mascot Serverでは、質量データのペプチドに対するマッチ(MIS検索の場合はプロダクトイオンに対するマッチ)は確率事象 (random event)として取り扱います。指定された検索条件の下で、質量データがペプチド(MIS検索の場合はプロダクトイオン) にマッチした時の確率Pは先験的(a priori)に決まり、配列データベースの種類やサイズ(エントリ数)には依存しません。確率Pの値は非常に小さいため、次の式を使ってスコアに変換し、検索結果ページに表示しています。

   スコア = -10 × log10(P)

たとえば、4個の異なる質量データが、それぞれ4個の異なるペプチドにマッチし、それら全てがひとつのタンパク質に帰属するときの確率Pは絶対的に決まり、そのときの確率がたとえばP = 0.000001(= 1×10-6)だった場合、上の式からスコアは60に なり、この値がプロテインスコアとして検索結果ページに表示されます。質量データがプロダクトイオンにマッチした時のスコアも同様に計算され、イオンスコア(またはペプチドスコア)として検索結果ページに表示されます。スコアは与えられた質量と質量誤差などの質量に関係する検索条件よって絶対的に決まり、配列データベースの種類やタンパク質の数(エントリ数)には依存しません。
検索によってヒットしたタンパク質が有意かどうか(“Significant match“ OR “Randommatch”?)は、検索に使用した配列デ ータベースのタンパク質エントリ数Nから決まる闘値スコアを使って判定しています。

   闘値スコア = -10 × log10(1/N * 0.05)

たとえば、タンパク質エントリ数が5,000件と500,000件の2種類の配列データベースを使った場合の闘値スコアはそれぞれ50と70になりますので、上記のスコア60のタンパク質の例では、タンパク質エントリ数が5,000件の配列データベースに対して検索した場合は闘値スコア50を超えていますので有意なヒットになりますが、タンパク質エントリ数が500,000件の配列データベースの場合は闘値スコアが70ですので、それよりも小さいため、有意なヒットではないという判定になります。すなわち、配列データベースのエントリ数によって闘値スコアは変化します。
検索結果ページには、図22に示すような「Mascot Score Histogram」が表示されます。横軸はタンパク質のプロテインスコア、縦軸はプロテインスコアに対するタンパク質のヒット件数を示しています。闘値スコアよりも右側の領域は 「Significant match」、左側の緑色斜線部分は「Random match」に相当しますので、検索によって有意にヒットしたタンパク質が得られたかどうか、また、ヒットしたタンパク質全体がどのようにスコア分布をしているかが一目でわかります。
配列データベースのタンパク質エントリ数によって闘値スコアは変化しますが、次のように期待値(検索結果ページでは Expect valueとして表示されます)を定義すると、配列データベースのエントリ数に関係なく、期待値0.05を闘値として使うことができます。すなわち、質量データのペプチドあるいはプロダクトイオンへのマッチング操作を「試行」と考えると、配列データベースのタンパク質各々に対してマッチング操作を行いますので、タンパク質エントリ数は「試行回数]に相当します。 確率Pの事象をN回試行したときにその事象が起こる平均的な回数(平均値または期待値と呼んでいます)Eは、

   E = P × N

になりますので、これをMascot検索に当てはめると次のようになります。

   平均値(期待値)E = 質量データがマッチした時の確率P ×タンパク質エントリ数N

Mascot Serveでは期待値E = 0.05を統計的に有意かどうかの闘値として採用しています(闘値スコアは期待値E = 0.05に対応する確率Pから求めることができます)。
たとえば、上記のスコア60のタンパク質の例では、エントリ数5,000の配列データベースに対する期待値は5000×10-6 = 0.005となり、闘値としての期待値E = 0.05よりも小さいため統計的に有意であり、同定された可能性が高いことになります(統計学的に表現すれば、0.5%の確率で正しいとは言えないことになります)。一方、エントリ数500,000の配列データベースに対する期待値は500000×10-6 = 0.5となり、闘値としての期待値0.05よりも大きいため、同定された可能性は低くなります (統計学的に表現すれば、50%の確率で正しいとは言えないことになります)。
なお、SQ検索およびMIS検索では質量データとプロダクトイオンのマッチングからペプチドを同定しますので、闘値スコアや期待値を計算する際のエントリ数は、プリカーサイオン質量にマッチしたペプチドの数になります。

マトリックスサイエンス株式会社
Mascot Server 2.5 取扱説明書(2014年12月 第11版)より抜粋