創薬化学とSDファイル
SDFはSDファイルと一般に呼ばれる、化合物群のデータのやり取りにはとても便利なファイル。
化合物リストとその各プロファイルを1ファイルにまとめられる特別な形式のファイルです。
「.sdf」で終わるこのファイル、テキストエディタやMicrosoft Wordで開いて中身を見てみた例が下図です。
下記の記事でも軽く説明を試みています。
さて、今はそんなことないのかもしれないですが、10年前だと創薬化学者さんに「SDファイルでデータを下さい」っていうと、「名前は聞いたことあるんですけど自分ではどうやって作成したらいいかわからないです」って言われたものです。
幸い製薬業界では近年KNIMEが流行ってきているようですから、多くの創薬化学者さんがSDF ReaderやSDF Writerを手軽に無料で使ってSDFでデータのやり取りをしていると思います。
ツールはSpotfireやJChem for Officeでももちろんいいんです。
今日はKNIMEでSDFを扱うときの一工夫についてお話ししますね。
SDファイルって一癖あるよね
創薬化学のデータ活用には必須のSDFですが、KNIMEでSDFを使うときにありがちなつまづきが2つあると思うのです。
A.もらったSDFを読み込んだら文字化けしていた
日本では特に多い気がするんですよ。どうしてかというとSHIFT-JISなどの文字コードでSDFを作るケースが多いからです。
「文字化けの画面を見ると「データが壊れてしまったか?」と不安になる方もいると思いますが、原因と対策が分かればそう怖い現象ではありません。」
SDF(SDファイル)をKNIMEのSDF Readerで読み込んで文字化けが起こったら、試しにencoding設定を変えてみましょう。詳しくは紙面の都合で次回に。
B.もらったSDFをいろいろ加工して、別のSDFに書き出したら消したはずのカラムも一緒に書き出されていた。
創薬化学者がKNIMEで化合物データを扱うときに、しばしば「ちょ、待てよ」と思うのがSDFでデータをもらって加工した後です。
https://twitter.com/obito_od/status/1747553094018478085
Obitoさんの体験談ですと
「SDFを読み込み、[Column Rename]し、なんやかんやした後に別のSDFファイルに保存する。すると場合によってはRename前のcolumnがゾンビデータとして紛れ込むことがある。」
SDFReaderで読み込んだ時点のデータセット:
カラムの名前を変えて
要らないカラムを除去して
自分なりには整形したつもりのデータ
SDF Writerで新たなSDファイルを作って出来上がりのつもりが
「な… 何を言ってるのか わからねーと思うがおれも何をされたのかわからなかった… 頭がどうにかなりそうだった…」
右端のSDF Readerで読み込んでみると
あれこれ書くうちに1000字ほどに達してしまったので続きはまた後日。
皆さんの「ちょ、待てよ」の声が聞こえる気がする。
コメント