banner
ニュース センター
生産的なコラボレーションにより、望ましい結果が得られます。

4 種類のランダム サンプリング手法の説明

Aug 23, 2023

「なぜランダムサンプリングを気にする必要があるのでしょうか?」

その理由は次のとおりです。あなたがデータ サイエンティストでモデルを開発したい場合は、データが必要です。 データが必要な場合は、誰かがそのデータを収集する必要があります。 また、誰かがデータを収集している場合は、データに偏りがないかを確認する必要があり、そうしないと非常にコストがかかることになります。長い目で見れば。

したがって、公平に収集したい場合は、データを理解するには、ランダム サンプリングについて知る必要があります。

Terence Shin の詳細データ サイエンスの面接で知っておくべき 10 の高度な SQL 概念

ランダム サンプリングは、母集団内のすべての要素がサンプルとして選択される確率が等しい状態を単に表します。 簡単そうに聞こえますよね? バイアスを最小限に抑えるためには、多くのロジスティクスを考慮する必要があるため、言うは易く行うは難しです。 これら 4 種類のランダム サンプリング手法を使用すると、まさにそれが可能になります。

単純なランダム サンプリングでは、サンプルを選択するためにランダムに生成された数値を使用する必要があります。 より具体的には、まず、母集団のすべてのメンバーのリストまたはデータベースであるサンプリング フレームが必要です。 次に、Excel などを使用して各要素の数値をランダムに生成し、必要な最初の n 個のサンプルを取得します。

例として、右側のテーブルがサンプリング フレームであると想像してください。 Excel などのソフトウェアを使用して、サンプリング フレーム内の各要素に対して乱数を生成できます。 サンプル サイズ 3 が必要な場合は、1 から 3 までの乱数を使用してサンプルを取得します。

層化ランダムサンプリングでは、母集団を同様の属性を持つグループに分割し、各グループをランダムにサンプリングします。

この方法により、母集団内のさまざまなセグメントが均等に表現されることが保証されます。 例として、全体的な満足度を判断するために学校でアンケートが実施されると想像してください。 ここで、層化ランダムサンプリングは、各学部の学生の意見を同等に代表することができます。

クラスター サンプリングは、母集団をグループまたはクラスターに分割することから始まります。これが層化サンプリングと異なる点は、各クラスターがより大きな母集団を代表する必要があることです。 次に、サンプルするクラスター全体をランダムに選択します。

たとえば、学校に 8 年生の 5 つの異なるクラスがある場合、クラスターランダムサンプリングは、いずれか 1 つのクラスがサンプルとして機能することを意味します。

系統的なランダムサンプリングこれは、k 番目の要素ごとにサンプリングする一般的な手法です。 たとえば、ショッピング モールでアンケートを実施している場合は、来店する 100 人ごとにアンケートを行うとします。

サンプリング フレームがある場合は、フレームのサイズ N を必要なサンプル サイズ n で割って、インデックス番号 k を取得します。 次に、フレーム内の k 番目ごとの要素を選択してサンプルを作成します。

最初の例と同じチャートを使用して、今回のサンプル サイズを 2 にしたい場合は、サンプリング フレーム内の 3 行おきに取得します。

データサイエンスの詳細Python と Laravel で検索エンジンを作成する方法

これで、ランダム サンプリングとは何か、およびランダム サンプリングを実行するためのいくつかの一般的な手法を理解できたはずです。 この概念をマスターすることは、バイアスを最小限に抑え、より良いモデルを作成するために非常に重要です。