読者です 読者をやめる 読者になる 読者になる

ちゃーりーの「どっからでもかかってきなさい」

ジャイアンだとしても、映画版です

ダイナミックレンジとランキング

昼寝しすぎてちょっと眠れない。明日はpresident's dayとやらでお休みだし、たまには夜更かしするか。

 

ゲノムワイドな解析でいちばん気分が良いのってなんだろう、っていうことを考えてみた。僕は、「ダイナミックレンジとランキングを得られること」だと思う。どういうことかというと;

 

例えば、処理Aをして、コントロール区とA区でqPCRで遺伝子発現を調べた。すると、遺伝子Xの発現が有意に上昇し、コントロール遺伝子Yの発現は変化しなかった。

 

一見すると何の問題もないのであるが、多くの実験は、処理Aによるprimaryな効果を調べたい、というものだろう。上記のデータで、Xの発現上昇が処理Aによるprimaryな効果ですよ、と言われたり、Xの発現上昇はとっても重要なアウトプットですよ、とか言われたら、まずは疑ってしまう。なぜなら;

 

(1) そのサンプルでいくつの遺伝子が発現しているのか不明

(2) 何個の遺伝子が発現の変化を示したのかが不明

(3) 何個の遺伝子が発現の変化を示さなかったのが不明((2)と同義)

(4) 変化のダイナミックレンジが不明

 

例えば、5000個発現していて、2500個の発現が上昇していたら、Xの発現上昇が大事なのかどうか、さっぱり分からない。ってかmajorityじゃんか、という話になる。極端なケースだけど。でも実際に、良くコントロールされていないオミクス実験では、こういうことがよく起こる。さらに、ここでいうコントロールYは、「探せる」。

 

なるべく多くのものを調べようとすると、まあ、母数と変化のダイナミックレンジが分かるわけで、遺伝子Xが示した変化は変化した200個のうち最大でした、みたいなことが分かるわけだ。ここで注意したいのは、変化の度合いと重要度は相関しない、ということ。mRNAのhalf lifeなどを気にしだすと、例えばRNA-seqでは言いきれないことも多い。ゲノムワイドはえいっとやれば良いもんではない、と良く書いているが、よくよく条件を検討して、ここで言う母数をなるべく減らせる条件を探すこと(≒なるべくearlyなtime pointをとること、かな?)が大事だと思う。

 

同じような例はChIP-qPCRにも言えるだろう。「ネガティブコントロール領域でノーマライズ」みたいなのだと、間違う可能性があると思う。なぜなら、ネガティブコントロール領域は「選べる」。また、「ネガコン」に対して、IgGに対するエンリッチメントが100倍であったとしても、その実験で得られるシグナルのダイナミックレンジはIgGに対して10-10000000倍かもしれない。100倍は大きく見えるが、ランキングにすると実は下位にくる、ということだ(だから大事ではない、という意味ではない)。

 

個別のqPCRがダメだ、と言っているわけではなくて、個別の実験だと、上記のような理由で簡単にミスリードする可能性があることを注意しないといけない、ということだ。もちろん、シークエンスにはシークエンスの問題点があるわけでー例えば正規化法とかー、どの手法も発展途上、言えることと言えないことがあることを理解すること、各手法の性格を把握すること、が大事だなあ、という、自戒です。たぶん、ただのcorrelation studyで言えることは少ないが、このランキングに相関がある、というのは、ある種の強力な間接証拠になりうる、というのが最近の印象。

 

ちなみにふと思ったのだが、広いゲノムのなかから「面白い領域を探す」という作業は、もしかすると、細胞を染色して「面白そうなところを探す」という作業に似ているのかもしれないな。どういうところをピックアップするか、というところにはすごい個性が出るし。

 

追記: このランキングを得たい、というのは、スクリーニングをしてコントロールをたくさんとりたい、というのに似ているかも。