Technieken gebruikt in statistieken

In dit artikel zullen we ingaan op enkele van de technieken van statistiek. Enkele van de technieken zijn: 1. De maatregelen van centrale neiging 2. Variabiliteit 3. Waarschijnlijkheid 4. Frequentieverdeling 5. Tijdreeks.

De maatregelen van centrale tendens:

Gemiddelden:

Elke statistische maat die een idee geeft over de positie van het punt waarrond andere cluster-observaties een maat voor centrale tendentie wordt genoemd. De meest gebruikte meting is het 'gemiddelde' of het rekenkundige gemiddelde.

Dagelijkse inkomsten van twee werknemers voor een week zijn als onder:

1e medewerker Rs 70, 50, 100, 90, 50 Gemiddelde verdiensten = Rs 76

2e werker Rs 200, 250, 50, 300, 150 Gemiddelde verdiensten = Rs 190

Uit het bovenstaande voorbeeld kunnen we dus concluderen dat de tweede werknemer gemiddeld meer verdient dan de eerste. Het doel van het berekenen van een gemiddelde - zoals men gemakkelijk kan zien - is om de reeks waarnemingen te vervangen door een enkele waarde, die als representatief voor alle waarnemingen wordt beschouwd. Uit het hierboven gegeven voorbeeld kan worden opgemerkt dat het rekenkundig gemiddelde een waarde nabij het midden is en dat sommige van de waarnemingen groter zijn dan die terwijl sommige kleiner zijn.

Dus kan worden gezegd dat het rekenkundig gemiddelde van de waarnemingen op een variabele wordt gedefinieerd als de som van de waarnemingen gedeeld door het aantal waarnemingen.

Voor de eerste werknemer is het rekenkundig gemiddelde berekend als onder:

(Rs 70 + 50 + 100 + 90 + 50) ÷ 5 = Rs 76

Geometrisch gemiddelde (GM) Geometrisch gemiddelde van een groep waarnemingen wordt gedefinieerd als de n-de wortel van het product van alle waarnemingen. Stel dat de waarnemingen x 1, x 2, x 3, ..., x n zijn .

GM kan worden berekend als onder:

Dit kan worden berekend met behulp van een log tabel.

mode:

Modus wordt gedefinieerd als de waarde van de variabelen of waarnemingen die het vaakst voorkomen. Als de waarnemingen bijvoorbeeld -2, 9, 6, 2, 8, 2, 2, 7, 2 en 3 zijn, wordt de modus gezien als 2, wat het maximum aantal keren is opgetreden, namelijk 5 tijden.

Mediaan:

Mediaan is de waarde van de middelste variabele, wanneer de waarnemingen in oplopende of aflopende volgorde zijn gerangschikt. Het is duidelijk dat de helft van de waarden minder zal zijn dan de mediaan en de helft van de waarden zal groter zijn. Dus als de waarnemingen 3, 9, 6, 4, 5, 7 en 10 zijn en vervolgens de waarden rangschikken in oplopende volgorde 3, 4, 5, 6, 7, 9 en 10, wordt de mediaanwaarde gezien als de 4e observatie en is gelijk aan 6.

Als het aantal waarnemingen echter gelijk is, zijn er twee middelste waarden en is het gebruikelijk om het rekenkundig gemiddelde van die twee waarden te nemen. Als bijvoorbeeld de waarneming 10 is weggelaten uit de bovenstaande variabelen, zijn er twee middelste waarden 5 en 6 en is de mediaanwaarde 5 + 6 × 2 = 5, 5.

De andere belangrijke statistische hulpmiddelen voor het meten en analyseren van gegevens en het element van variabiliteit daarin omvatten de berekening van (i) bereik, (ii) semi-inter-kwartiel bereik, (iii) gemiddelde absolute afwijking, (iv) standaarddeviatie, (v ) Frequentieverdeling (zowel symmetrisch als asymmetrisch).

Symmetrische verdeling wordt gekenmerkt door het bestaan ​​van een symmetrielijn die het histogram in twee delen verdeelt en een deel het spiegelbeeld van de ander. De meeste distributies in commercie en economie zijn echter niet van dit type. Asymmetrische distributies zijn ook bekend als scheve verdelingen. Skewness betekent gebrek aan symmetrie en scheve verdelingen worden gekenmerkt door een langere staart aan één kant van het histogram.

Het meten van variabiliteit:

Rekenkundige en geometrische gemiddelden of medianen dienen als basis voor het vergelijken van twee of meer populaties of waarnemingen. Maar de andere maten van variabiliteit of afwijking zijn ook belangrijk in het uitdrukken van de mate waarin de waarnemingen van elkaar verschillen. In de statistiek is spreiding synoniem aan variabiliteit of afwijking.

Hieronder volgen de belangrijke variatiemaatstaven:

bereik:

Het verschil tussen de grootste en de kleinste waarden van een reeks waarnemingen wordt het 'bereik' genoemd.

Semi-Inter-kwartiel Bereik :

Het verschil tussen de waarde van de waarnemingen in het 2e en 3e kwartiel wordt het semi-inter-kwartielbereik genoemd. Dit verwijdert de invloed van zeer lage en zeer hoge waardes van de waarnemingen, die in aantal zeldzaam zijn.

Gemiddelde absolute afwijking:

Gemiddelde absolute afwijking betekent de variatie van de waarnemingen van het rekenkundig gemiddelde van de waarnemingen.

Voorbeeld: Waarnemingen zijn x 1, x 2 ... x n en het rekenkundig gemiddelde is x.

De formule is:

en, dus, het gemiddelde is

Maar Σ (x 1 - x̅) = 0, wat de waarde ook is van x 1, x 2, ... .x n

Daarom kan de formule Σ (x i - x̅) niet worden gebruikt als een maat voor de variabiliteit. Deze moeilijkheid kan worden vermeden als de tekens (+ of -) worden genegeerd. Dit is logisch, omdat het teken van een bepaalde afwijking x i - x̅ slechts aangeeft of de waarneming x i links van x of rechts is en dit niet relevant is voor het berekenen van de afwijkingen, vanaf het centrale punt (x), van elke waarneming.

Standaardafwijking:

Afwijking van de waarnemingen van hun rekenkundig gemiddelde (x̅) kan positief (+) of negatief (-) zijn. In statistieken duiden de tekenen van afwijkingen van het rekenkundig gemiddelde alleen op de richting van de waarneming vanuit de centrale tendens (x̅) en worden daarom genegeerd. De negatieve (-) tekens tussen de afwijking van de x kunnen ook worden vermeden als in plaats van de absolute waarden de vierkanten van de afwijkingen worden genomen als onder:

Aangezien de maat van de variabiliteit in dezelfde eenheid moet zijn als de oorspronkelijke waarnemingen, wordt de standaardafwijking berekend met de volgende formule:

Voor een frequentieverdeling, met x 1 x 2, ..., x n als de middelste waarden van de klassen en f 1 f 2, ..., f n als de frequenties, wordt de standaarddeviatie (SD) berekend door de volgende verbetering van de bovenstaande formule:

De standaarddeviatie is veruit de meest gebruikte maatstaf voor variabiliteit in statistieken. Het heeft vele eigenschappen waardoor het de meest geprefereerde maatstaf is voor statistische problemen.

Voorbeeld:

IQ-niveaus van vijf studenten Business Management zijn als onder:

daarom is de standaarddeviatie: 13.22

13.22 is de standaardafwijking uitgedrukt in dezelfde eenheden als de waarnemingen zelf. De waarde 13.22 is een punt op dezelfde numerieke schaal.

De bovenstaande standaardafwijking is uitgewerkt vanuit de variaties van een populatie van 5 studenten. In de praktijk kan standaardafwijking echter vaak niet worden berekend op basis van de populatie, omdat de populatie meestal zo groot is dat het monster meestal wordt genomen met het doel de afwijking te berekenen.

Voor steekproefgegevens wordt de variabiliteit gemeten aan de hand van de steekproefvariantie en wordt de standaarddeviatie berekend met behulp van de volgende formule:

Er moet worden opgemerkt dat, aangezien de steekproefgegevens zijn gebruikt, 'n' de steekproefomvang aangeeft in plaats van 'N' die de populatie-observantie aangeeft.

Concept van de waarschijnlijkheid:

Vaak voorspellen we in ons dagelijks leven bepaalde toekomstige gebeurtenissen met woorden als - dit zal waarschijnlijk gebeuren ', ' de waarschijnlijkheid dat dit erg groot is ', of' dit zal naar alle waarschijnlijkheid gebeuren ', met een zekere mate van vaagheid in dergelijke statements. Deze uitspraken zijn voor een groot deel subjectief en grotendeels afhankelijk van onze kracht om soortgelijke situaties in het verleden te analyseren. Het belang van het idee van de waarschijnlijkheid van een gebeurtenis en een middel om het te meten met statistische hulpmiddelen is immens voor de commerciële banken.

Bij het verstrekken van een lening aan een klant zou de bankier graag de kans op wanbetaling door de genoemde klant willen weten, die wordt gemeten op basis van de waarschijnlijkheidsstudie met behulp van de statistische berekeningen. Hoewel het heel moeilijk is om de waarschijnlijkheid precies op een elementair niveau te definiëren, kan een poging worden gedaan om hetzelfde te voorspellen door de technieken van willekeurig experiment en frequentiedefinitie te gebruiken.

Willekeurig experiment: een experiment waarvan alle mogelijke uitkomsten bekend zijn en dat onder identieke omstandigheden kan worden herhaald, maar een exacte voorspelling van de uitkomst is onmogelijk. De prijs van een artikel op verschillende dagen kan worden beschouwd als uitkomst van een willekeurig experiment. De uitkomsten worden meestal aangeduid met E 1, E 2, E 3 ..., E n en er wordt verondersteld dat ze eindig in aantal zijn.

Frequentieverdeling:

Als het resultaat E 1 r keer voorkomt wanneer het willekeurige experiment n keer wordt herhaald, dan wordt de waarschijnlijkheid van E1 bepaald door de verhouding 'r / n', omdat het aantal herhalingen voor onbepaalde tijd wordt verhoogd. De waarschijnlijkheid wordt dus gedefinieerd als een limiet van de relatieve frequentie wanneer het experiment een oneindig aantal keren wordt herhaald.

Tijdreeksen:

Een reeks waarnemingen op verschillende tijdstippen op een variabele - die afhankelijk is van de tijd - vormen een tijdreeks. Dergelijke reeksen waarnemingen geven dus de veranderingen of variaties van een kwantiteit over een tijdsperiode en worden vaak historische of chronologische gegevens genoemd. Voor dit type gegevens is een van de variabelen de tijd die wordt weergegeven door 't' en de andere, die afhankelijk is van de tijd, wordt weergegeven met 'Yt.'

Bijvoorbeeld opbrengst van gewassen in verschillende seizoenen, de productie van staal in verschillende maanden, driemaandelijkse export van thee, de verkoop van consumptie-ijs in verschillende maanden van het jaar, enz. Alle hierboven vermelde voorbeelden verwijzen naar sommige economische of zakelijke activiteiten en een reeks waarnemingen van dergelijke variabelen worden gewoonlijk economische tijdreeksgegevens genoemd. Een ander voorbeeld van tijdreeksgegevens is de regenval in inches op verschillende dagen van het jaar.

Het is dus duidelijk dat elke variabele, die afhankelijk is van tijd, de tijdreeksgegevens vormt. Waardevolle conclusies die getrokken worden door de geïnteresseerde partijen zoals het bedrijfsleven, bankiers, industriëlen, etc., uit de tijdreeksen leiden tot trendmeting uit de gegevens, die hun beslissingen aanzienlijk beïnvloeden.