これまでに入手した・解析した臨床データベースまとめ(アクセスなどの観点から):
(*解析環境はMac)

ADNI, AIBLなど、Alzheimer関係のn=千以上の観察データがある。
solanezumab治験のためのA4試験のPETまでのスクリーニングデータもある(n=4000程度)。血液DNAメチルのmicroarrayデータであるIllumina HumanMethylation EPICもある。
またParkinsonの観察データとしてPPMIもある。(これもメチルのmicroarrayデータあり)
利用料不要、利用承認もうるさくないのでデータ利用までは容易。


ALS関係のこれまでの複数RCTの経時的データが数千単位で含まれている。基本的に効果があったRCTはないということになっているので、(armによらず?)RCT環境下での経過について検討したりするためのデータということになる。
なんの薬をどういうinclusion criteriaでどう投与したのかは不明、各試験の区別は不可能、という大きめの難点があるが、ALS-FRS, %VCなど最低限必要な臨床データ項目は揃っている。そもそもRCTに乗るような経過のALSである(早すぎる経過のもの、特にbulbar typeなどは(データには多少含まれてはいるが)限られる。一方で遅めの経過の症例も除外されうる)という選択バイアスを経た集団であることには注意が必要。
利用料不要、承認はあまり問題ない。


AD、MSの複数RCTのプラセボarmのデータが集積されている。n=数千単位。RCT中の経過を見るためには良いデータと言える。またadverse eventが細かく含まれている。
利用料不要、承認にやや時間がかかったがあまり面倒はない。


癌のRCTデータが含まれている。メタデータとして何かには使えるのかもしれない。。
利用料不要、承認はやや時間がかかる位で特に面倒はなかった。


企業治験RCTのデータが色々含まれている。proposalを書いて承認を得る必要があり、やや面倒だが基本的にrejectされることはないようだ?利用料は不要。



本邦のPMDAから公開されている副作用自発報告データ。csv形式で、サンプル数は数十万単位なので、おそらく16Gくらいのメモリがあればそのまま無理やり読み込んでいける(by R)。自発報告で既往など十分に揃っているわけではなくバイアスてんこ盛りなので、PMDAにおける監視業務のように、仮説形成的な使い方でなら物が言いうる。ただし言える範囲・解析などに留意が必要。利用料不要、承認不要なので入手は容易。


アメリカFDAから公開されているJADERのようなもの。ascii形式のファイルもあるのでそのまま読み込んでいける。サンプルは数百万単位なので、普通に全部読み込むとメモリoverに容易になるため、少し工夫が必要かもしれない。利用料不要、承認不要なので入手は容易。


厚労省から公開されている、DPCデータの要約版。2014~2017年の4年度分しかまだ出ていないが、先行文献も多少は出ている。DPCデータのように承認など不要なので入手は容易。ただし基本的に大雑把なことしかわからないので、テーマがうまくはまれば使えるかも、という感じか。。


アメリカの単一施設の数千症例のICUデータ。利用料不要。データは30GB程度のICU時系列データが入ったcsvファイルが1個あるのでSQLでやるのが推奨されているようだが、最低限64GBくらいメモリがあれば無理やりRでやれなくもない。データ形式には少し慣れが必要だが、Githubの情報を見ながらやればなんとかはなる。そもそもが単一施設からのデータなので観察研究として言えることは限りがありそう(&すでに研究され尽くしていそう?)。neurologicalについては、脳卒中は多いがその他の神経救急疾患はそこまで多くはない印象である。カルテ記載などstructural以外のデータも入っているので、NLPなどやる上での基礎データなどとしての方が使い道があるかもしれない。
なお最近更新版のMIMIC ivが出ており、データ形式は一部変更されている。
CITIという倫理トレーニング終了して承認を受ける必要がある点が面倒である。


アメリカの病院の20%?のDPCデータ。medicareとか一部の診療データは含まれていないようである。各年ずつ利用料を払って使える。倫理トレーニングetcが少しあったが難しくはない。
学生価格だと$50とかで格安ではあるが海外送金で払わなければならなかった(クレカがエラーで使えなかった為)のがやや面倒だったところ。またDLできるデータのzipファイルはMacだとデフォルト選択のソフトでは解凍できず、Windowsでの解凍ソフトを使った方が良いかもしれない。(要FAQ確認)
有病率を大雑把に見たりとかでは使えるものと思われるが。。


proposal(研究の説明と欲しいデータの種類指定明細)を書いて承認してもらって、Material Tranfer AgreementにDocuSignで署名をし、25万円分くらい(in GBP)の利用料を払って、その上であちらに最終承認が得られて、ようやくDownloadできる。
一連の手続きには半年くらいは最低でもかかると書いてあるが3ヶ月くらいだったような気がする。
データのDLは単純にcsvだけで終わりというわけではない(MRIデータとか加速度計データとか)ので、ちょっと変わった操作が必要。ここの部分はMacよりWindowsのほうが楽にできそうであった。
また、支払いはクレジット払いが早そうなのだが出来ず(住所確認できないとかなんとか(イギリス国外からだから??))、結局のところ海外送金になった。そのためここに2-3週間要した。


中国の研究機関から公開されている歩行の動画+連続写真のデータセット。歩行者を様々な角度から撮っていて、シルエット解析に使えそう。歩行であればpose estimatorなどが使えるとは思うが、動画の連続性が微妙に途中で切れていたりするところが難点。同一歩行を複数角度から同時にとっている動画もあるが、時間的なannotationはされていないのもやや困りポイントではある。
利用にはメールを出して同意書を書くだけなので割と容易である。