現在のSALADデータベースでは、同一種内、また、異種間のアノテーション(タンパク質のアミノ酸配列)から、進化上に保存されているアミノ酸配列をモチーフと定義しています。機能の注釈(説明)を重視するPfamデータベース等のドメインの概念と区別するためです。また、そのため、Pfamドメインとの相対関係をグラフィカルに表示できるようにもなっています。
具体的には、「MEME」というソフトウェアで抽出した保存配列(8~50アミノ酸)を確率的な閾値でフィルタをかけたものをモチーフとして取り扱っています。
なお、現在のバージョンでは、グループごとにモチーフを抽出しているので、統一されたIDは割り振っていません。IDの割り振りはVer.2での実現に向けて、準備中です。
PDFをダウンロードして印刷
[PDF for print]ボタンがある場合は、ボタンを押すことで結果のPDFが入手できますので、それを印刷にお使い下さい。
画面のキャプチャーをとる(簡単)
モチーフでアライメントした画像のプリントアウトはこの方法で行って下さい<Windowsをご使用の方>
1.[PrintScreen] キーを押すと画像データがクリップボードに取り込まれます
([Alt]キーを押しながら[PrintScreen]キーを押すとアクティブなウィンドウのみ取り込まれます。)
2.Windows付属の「ペイント」などのグラフィックスソフトを起動して、「編集」メニューから「貼り付け」を実行します。
([Ctrl]キーと[v]キーを同時に押しても貼り付けられます。)
3.グラフィックスソフトで適当な大きさにしてからPowerpoint等に貼り付けることも可能です。
<Macをご使用の方>
1.[command] + [shift] + [3]キーを押すと画像データがクリップボードに取り込まれます
([command] + [shift] + [4]キーを押すと範囲を指定した取り込みができます)
2.MacOS8やMacOS9などの場合、起動ディスク内に「スクリーン1」と言う名前のファイルが現れます。
MacOS Xの場合、デスクトップに「ピクチャ1.png」が保存されます。
3.グラフィックスソフトで適当な大きさにしてからPowerpoint等に貼り付けることも可能です。
ベクトル画像編集ソフトウェアで編集ベクトル画像編集ソフトなら何でもいいのですが、ここではフリーの下記ソフトを使った方法です。
Inkscape(フリーソフト)を利用した編集方法
1.Inkscapeをダウンードし、インストールする。
ダウンロードページへ
Inkscapeのホームページの左のメニューで「ダウンロード」をクリックし、マシン環境に合ったソフトをダウンロードする
2.SALADのSVG (Scalable Vector Graphic) データを よりダウンロードする
また、SVGファイル上でマウスの右クリック(Win)や、マウスクリック+[Control](Mac)によってもSVGファイルを得ることができます。
3.InkscapeでSVGファイルを印刷
<Inkscapeの簡単な使い方>
1-1.SVGファイルを開く
メニューバーの[ファイル]→[開く]でファイルの選択
1-2.用紙のサイズ・向きの設定
メニューバーの[ファイル]→[ドキュメントの設定]で設定
1-3.印刷したい部分を用紙サイズに合わせる
SVGの端にある矢印をクリックし拡大するか、メニューバーの[オブジェクト]→[変形]→[拡大縮小]で
拡大率を指定する。
1-4.SVGの印刷
メニューバーの[ファイル]→[印刷]で印刷できます。
注意:プリンタプロパティの[レイアウト]でのプリント方向の設定がInkscapeでの用紙設定と違うと、印刷がずれることがあります
※PDF、編集ソフトウェアの方法ですと、WEB上で操作を加えたものでは印刷できません
モチーフを抽出するプログラム。
MEMEは期待値最大化(EM)アルゴリズムを利用しており、配列セットから保存された(共通の)配列を見つけ出すことができる。
MEME(http://meme.sdsc.edu/meme/intro.html)
citations:
Timothy L. Bailey, Nadya Williams, Chris Misleh, and Wilfred W. Li, "MEME: discovering and analyzing DNA and protein sequence motifs", Nucleic Acids Research, Vol. 34, pp. W369-W373, 2006.
Timothy L. Bailey and Charles Elkan, "Fitting a mixture model by expectation maximization to discover motifs in biopolymers", Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California, 1994.
アラインメントした配列間の各位置の塩基(もしくはアミノ酸)の保存度を視覚的に見ることができるSequence Logoを作成するソフトウェア。
WebLogo(http://weblogo.berkeley.edu/)
citations:
Crooks GE, Hon G, Chandonia JM, Brenner SE WebLogo: A sequence logo generator, Genome Research, 14:1188-1190, (2004)
Schneider TD, Stephens RM. 1990. Sequence Logos: A New Way to Display Consensus Sequences. Nucleic Acids Res. 18:6097-6100
結果を見やすくするために「似ているものをまとめる」という操作を行ったのがクラスタリングです。
SALADではモチーフの比較がし易いようにモチーフの有無・類似度を使ったクラスタリングで結果を表示してあります。アノテーション間の距離をアミノ酸置換行列を使ってペアワイズでスコア化し、そこでのスコアを群平均法によってクラスタリングしたものをSALADでは採用しています(統計ソフト「R」のパッケージであるpvclustを利用させて頂いております)。
似たモチーフ構造を持つものが近くに集まるようなパラメータが設定してあるのと、モチーフ間の類似度をアミノ酸置換行列から得ているので、下図のようなアノテーションの整理整頓が可能となっています。
また、デンドログラムの各ノードにはAU値、またはBP値といった樹形の確からしさを示す値が載せてあります。
※SALADでのデンドログラムは、結果を見やすくするためにアノテーションを整理した操作に過ぎません。また、このデンドログラムは系統進化を表すものではありませんので、アノテーションの分類はユーザ各自で解釈して使用する必要があります(SALADではモチーフ配列を使って進化系統樹(Neighboor-Joining tree)を作成する機能もありますので、そちらもご利用いただければと思います)。
クラスタリングには統計ソフト「R」のパッケージであるpvclustを使用させて頂いております。pvclust(http://www.is.titech.ac.jp/~shimo/prog/pvclust/) was created by
Ryota Suzuki(a, b) and Hidetoshi Shimodaira(a) a) Department of Mathematical and Computing Sciences Tokyo Institute of Technology b) Ef-prime, Inc.
AU=Approximately Unbiased
BP=Bootstrap Probability
AU値も、BP値も樹形の評価指標のひとつです。
BP値はブーツストラップ法によって計算されたもので、X回試行した中で何度その樹形が支持されたかという割合(もしくは回数)を表したものです。
AU値はマルチスケール・ブーツストラップ法によって計算されたもので、ブーツストストラップ法にはとてもバイアスが多いという問題を改善した方法になり、BP値よりも信頼できる数値とされています。
マルチスケールブートストラップ法
H. Shimodaira (2002). An approximately unbiased test of phylogenetic tree selection, Systematic Biology, 51, 492-508.
H. Shimodaira (2004). Approximately unbiased tests of regions using multistep-multiscale bootstrap resampling, Annals of Statistics, 32, 2616-2641.
操作十字キーの中心にあるボタンで移動間隔を調節できます。
大きいデータ場合は操作が楽になりますので、是非お試し下さい。
また、WindowsのInternet Exploreをお使いの方は、[Alt]+キーを押しながらマウス操作を行うことでドラッグにてスクロールが可能となっております。
モチーフ番号付けの判断基準につきましては、MEMEというソフトウエアで取り出してきた番号をそのまま使用しております。
MEMEでの番号付けは、モチーフのE値が低いもの順(優位にモチーフだと判断された順)になっており、実際は抽出したモチーフの長さ、保存性、共有する配列の数によって決まっています。
E値の閾値は、抽出されたモチーフを実際目で多数眺めて、アライメントが確認できるギリギリの程度の閾値を経験値から決めています。ただし、LRRのような特定のアミノ酸だけに保存性の高いモチーフはMEMEでは完全には取れていないはずです。