Path to でーたさいえんてぃすと

データサイエンスの勉強の過程を公開していきます。

オープンデータ

DPC機能評価係数×因子分析

仮説 機能評価係数Ⅱの各係数を決める因子を探索してみて、病院をクラスタリングすることができれば、病院機能を新しい視点で評価することができるのではないか。 そのための前段階として因子分析をしてみる。 使用データ 機能評価係数Ⅱの内訳(医療機関別)…

二次医療圏別 循環器疾患 患者数予測

仮説 使用データ データ詳細 解析の流れ 結果 1. データ整形 2, 3. 機械学習モデルを作成、モデルを評価 4. 精度向上 議論 限界点 参考サイト 仮説 二次医療圏ごとに循環器疾患の患者数を予測できれば面白そう(+年齢別もできたら) ex) A医療圏の40-44歳で…

NDBオープンデータ(二次医療圏別LDLコレステロール)のクリーニング

第7回NDBオープンデータのデータクリーニングを行ったソースコードを載せます。 今回の元データは 特定健診によって得られたデータである、LDLコレステロール 二次医療圏別製年齢階級別分布です。 元データは以下のようなエクセルファイルです。 図1 クリー…

NDBオープンデータ(二次医療圏別収縮期血圧)のクリーニング

第7回NDBオープンデータのデータクリーニングを行ったソースコードを載せます。 今回の元データは収縮期血圧 二次医療圏別性年齢階級別分布です。 元データは以下のようなエクセルファイルです。 図1 クリーニング前のデータ データ解析しやすいように、血…

ラーメン消費量・店舗数 × 血圧

仮説 使用データ データ詳細 解析の流れ 結果 店舗数と消費量 相関関係を確認 線形回帰 都道府県別収縮期血圧人数と店舗数・消費量 議論 限界点 参考サイト 仮説 都道府県別ラーメン消費量と血圧などの生活習慣病に関する検診データに相関関係があるのではな…