Path to でーたさいえんてぃすと

データサイエンスの勉強の過程を公開していきます。

データクリーニング

二次医療圏別 循環器疾患 患者数予測

仮説 使用データ データ詳細 解析の流れ 結果 1. データ整形 2, 3. 機械学習モデルを作成、モデルを評価 4. 精度向上 議論 限界点 参考サイト 仮説 二次医療圏ごとに循環器疾患の患者数を予測できれば面白そう(+年齢別もできたら) ex) A医療圏の40-44歳で…

NDBオープンデータ(二次医療圏別LDLコレステロール)のクリーニング

第7回NDBオープンデータのデータクリーニングを行ったソースコードを載せます。 今回の元データは 特定健診によって得られたデータである、LDLコレステロール 二次医療圏別製年齢階級別分布です。 元データは以下のようなエクセルファイルです。 図1 クリー…

NDBオープンデータ(二次医療圏別収縮期血圧)のクリーニング

第7回NDBオープンデータのデータクリーニングを行ったソースコードを載せます。 今回の元データは収縮期血圧 二次医療圏別性年齢階級別分布です。 元データは以下のようなエクセルファイルです。 図1 クリーニング前のデータ データ解析しやすいように、血…