Statistics

UPSC Statistics 2025 — Paper II

All 8 questions from UPSC Civil Services Mains Statistics 2025 Paper II (400 marks total). Every stem reproduced in full, with directive-word analysis, marks, word limits, and answer-approach pointers.

8Questions
400Total marks
2025Year
Paper IIPaper

Topics covered

Statistical Quality Control and Operations Research (1)Statistical Quality Control and Reliability Theory (1)Operations Research and Simulation (1)Game Theory, Linear Programming and Quality Control (1)Regression diagnostics and demographic statistics (1)Demographic statistics and econometric identification (1)Index numbers, logistic growth model, agricultural statistics (1)Time series, T-score analysis, 2SLS estimation (1)

A

Q1
50M Compulsory solve Statistical Quality Control and Operations Research

(a) State the significance of operating characteristic (OC) curves in control chart analysis. Obtain the general expression for the OC function corresponding to the mean (X̄) chart under the assumption of normal distribution for a quality characteristic. Using the expression, find the probability that a shift will be detected from μ₀ to μ₁ = μ₀ + 2σ, when an X̄ chart is used with 3σ limits, where the subgroup size is n = 6. (Standard normal table is provided.) 10 marks (b) What is meant by rectifying inspection? Explain the measures associated with rectifying inspection and derive the expressions of such measures in the case of a single sampling plan by attributes. 10 marks (c) The lifetime of a semiconductor laser has a log-normal distribution with parameters μ = 10 hours and σ = 1·5 hours. (i) Find the probability that the lifetime exceeds 10000 hours. (ii) What lifetime is exceeded by 99% of lasers? (Standard normal table is provided.) 5+5=10 marks (d) A stockist has to supply 400 units of a product every Monday to his customers. He gets the product at ₹ 50 per unit from the manufacturer. The cost of ordering and transportation from the manufacturer is ₹ 75 per order. The cost of carrying inventory is 7·5% per year of the cost of the product. Find (i) the economic lot size, (ii) the total optimal cost (including the capital cost) and (iii) the total weekly profit, if the item is sold for ₹ 55 per unit. 10 marks (e) On the average, 96 patients per 24-hour day require the service of an emergency clinic. Also, on the average, a patient requires 10 minutes of active attention. Assume that the facility can handle only one emergency at a time. Suppose that it costs the clinic ₹ 1,000 per patient treated to obtain an average serving time of 10 minutes, and that each minute of decrease in this average time would cost the clinic ₹ 100 per patient treated. How much would have to be budgeted by the clinic to decrease the average size of the queue from 1 1/3 patients to 1/2 patient? 10 marks

हिंदी में पढ़ें

(a) नियंत्रण सांचित्र (चार्ट) विश्लेषण में संकारक अभिलक्षण (ओ. सी.) वक्रों के महत्व को बताइए। एक गुणवत्ता विशेषता के लिए प्रसामान्य बंटन की मान्यता के अंतर्गत, माध्य (X̄) चार्ट के तहत, ओ. सी. फलन का सामान्य व्यंजक प्राप्त कीजिए। व्यंजक का उपयोग करके एक शिफ्ट μ₀ से μ₁ = μ₀ + 2σ में खोजे जाने की प्रायिकता निकालिए, जबकि एक X̄ चार्ट का उपयोग 3σ सीमाओं के साथ किया जाता है, जहाँ उपसमूह का आमाप n = 6 है। (मानक प्रसामान्य तालिका प्रदान की गई है।) 10 अंक (b) सुधारात्मक निरीक्षण का क्या मतलब है? सुधारात्मक निरीक्षण से संबंधित मापों की व्याख्या कीजिए तथा गुणों के लिए एकल प्रतिदर्शन आयोजना के तहत ऐसे मापों के व्यंजक व्युत्पन्न कीजिए। 10 अंक (c) एक अर्धचालक लेजर के जीवन-काल का बंटन लघुगणकीय प्रसामान्य है, जिसके प्राचल μ = 10 घंटे तथा σ = 1·5 घंटे हैं। (i) जीवन-काल 10000 घंटे से अधिक होने की प्रायिकता ज्ञात कीजिए। (ii) 99% लेजरों का जीवन-काल किस जीवन-काल से अधिक है? (मानक प्रसामान्य तालिका प्रदान की गई है।) 5+5=10 अंक (d) एक शेष व्यापारी को एक उत्पाद की 400 इकाइयाँ प्रत्येक सोमवार को अपने ग्राहकों को भेजनी होती हैं। वह उत्पादक से उत्पाद ₹ 50 प्रति इकाई के हिसाब से प्राप्त करता है। उत्पादक से आदेश तथा परिवहन की कीमत ₹ 75 प्रति ऑर्डर है। मालसूची (इन्वेंट्री) ले जाने की कीमत, उत्पाद की कीमत का 7·5% प्रति वर्ष है। ज्ञात कीजिए (i) मितव्ययी प्रचय परिमाण, (ii) कुल इष्टतम लागत (पूँजीगत लागत सम्मिलित) और (iii) कुल साप्ताहिक लाभ, यदि मद ₹ 55 प्रति इकाई के हिसाब से बेची जाती है। 10 अंक (e) औसतन 96 मरीजों को 24 घंटे प्रतिदिन आपातकालीन चिकित्सालय की सेवा की आवश्यकता है। औसतन एक मरीज को 10 मिनट के सक्रिय ध्यान की भी आवश्यकता है। मान लीजिए कि इस तरह की सुविधा एक समय में केवल एक आपातकालीन स्थिति को संभाल सकती है। मान लीजिए कि 10 मिनट का औसत सेवा समय प्राप्त करने के लिए इलाज किए गए प्रति रोगी पर चिकित्सालय ₹ 1,000 खर्च करता है, और इस औसत समय में कमी के प्रत्येक मिनट के लिए चिकित्सालय में इलाज किए गए प्रति रोगी पर ₹ 100 खर्च आता है। पंक्ति के औसत आमाप को 1 1/3 रोगियों से 1/2 रोगी तक कम करने के लिए चिकित्सालय द्वारा कितना बजट किया जाना चाहिए? 10 अंक

Answer approach & key points

Solve each sub-part systematically with clear problem identification and step-by-step working. For (a), derive the OC function and compute detection probability; for (b), define rectifying inspection and derive AOQ, AOQL, ATI expressions; for (c), apply log-normal transformation and use standard normal tables; for (d), apply EOQ model with all cost components; for (e), use M/M/1 queuing formulas to find service rate changes and budget implications. Allocate approximately 20% time each to parts (a), (b), (c), (d), and (e) respectively, with extra care on derivations in (a) and (b) where method rigor matters most.

  • (a) Significance of OC curves in assessing Type I/II errors and chart sensitivity; correct derivation of OC function P(|X̄-μ₀|<3σ/√n | μ=μ₁) using normal distribution; calculation of β = P(Z < 1) - P(Z < -5) ≈ 0.1587 for n=6, μ₁-μ₀=2σ
  • (b) Definition of rectifying inspection as 100% inspection of rejected lots; derivation of AOQ = p·Pa·(N-n)/N, AOQL, and ATI = n·Pa + N(1-Pa) for single sampling plan; explanation of process average quality improvement
  • (c)(i) Log-normal transformation: ln(10000)=9.2103, Z=(9.2103-10)/1.5=-0.526, P(T>10000)=1-Φ(-0.526)=0.7009
  • (c)(ii) Find t where P(T>t)=0.99: Φ⁻¹(0.01)=-2.326, ln(t)=10-3.489=6.511, t=671.5 hours
  • (d) EOQ calculation: D=400×52=20800, S=75, H=3.75, EOQ=√(2×20800×75/3.75)=912 units; total cost=₹2,08,000+₹17,100+₹17,100=₹2,42,200; weekly profit=400×5-₹4,658=₹1,342
  • (e) M/M/1 queue: λ=4/hr, current μ=6/hr (Lq=4²/(6×2)=1.33), target μ=8/hr (Lq=16/32=0.5); budget increase from ₹1,000 to ₹1,200 per patient, total budget ₹1,20,000 for 100 patients/day
Q2
50M derive Statistical Quality Control and Reliability Theory

(a) (i) What are control charts by variables and control charts by attributes? 5 marks (ii) Derive the control limits for the construction of control charts for the mean and variability based on sample standard deviation. 15 marks (b) (i) State the assumptions involved under sampling inspection plans by variables and describe the operating procedure of a single sampling plan by variables under the assumption of normal distribution for a quality characteristic. 5 marks (ii) Establish the relationship between the fraction defective and the acceptance probability under a single sampling plan by variables when the quality characteristic follows a normal distribution with mean μ and variance σ², where σ² is unknown, and when an upper specification limit is specified. Using the relationship, obtain the formula for finding the parameters of the sampling plan. 10 marks (c) (i) Given a system consisting of n components, define the state vector and the structure function of the system. What do they indicate? 5 marks (ii) Defining (1) a series system, (2) a parallel system and (3) a k-out-of-n system, obtain the associated expressions for the structure functions and the reliability functions. 10 marks

हिंदी में पढ़ें

(a) (i) चरों के लिए नियंत्रण संचित्र (चार्ट) तथा गुणों के लिए नियंत्रण संचित्र (चार्ट) क्या हैं? 5 अंक (ii) प्रतिदर्श मानक विचलन के आधार पर माध्य और परिवर्तनशीलता के लिए नियंत्रण संचित्रों के निर्माण के लिए नियंत्रण सीमाओं को व्युत्पन्न कीजिए। 15 अंक (b) (i) चरों द्वारा प्रतिदर्शी निरीक्षण आयोजनाओं के अंतर्गत मान्यताओं को बताइए तथा गुणता अभिलक्षण के लिए प्रसामान्य बंटन की कल्पना के अंतर्गत, चरों द्वारा एकल प्रतिचयन आयोजना की संचालन प्रक्रिया का वर्णन कीजिए। 5 अंक (ii) चरों द्वारा एकल प्रतिचयन आयोजना के अंतर्गत दुषितानुपात और स्वीकरण प्रायिकता के बीच संबंध स्थापित कीजिए, जबकि गुणता अभिलक्षण एक प्रसामान्य बंटन का अनुसरण करता है, जिसका माध्य μ और प्रसरण σ² है (σ² ज्ञात नहीं है), तथा जबकि ऊपरी विनिर्देश सीमा निर्दिष्ट है। संबंध का उपयोग करते हुए प्रतिचयन आयोजना के प्राचलों को ज्ञात करने के लिए सूत्र प्राप्त कीजिए। 10 अंक (c) (i) n घटकों की एक प्रणाली के लिए जाने पर, उसके अवस्था सदिश तथा संरचना फलन को परिभाषित कीजिए। ये क्या संकेत देते हैं? 5 अंक (ii) (1) एक श्रृंखला प्रणाली, (2) एक समांतर प्रणाली तथा (3) एक n-में-से-k प्रणाली को परिभाषित करते हुए संरचना फलनों और विश्वसनीयता फलनों के लिए संबंधित व्यंजकों को प्राप्त कीजिए। 10 अंक

Answer approach & key points

Begin with clear definitions for (a)(i) distinguishing variables/attributes charts, then rigorously derive control limits for x̄ and s charts using sample standard deviation with proper statistical assumptions. For (b), state assumptions of normality and known/unknown variance, outline the operating procedure, then establish the OC function relationship showing how fraction defective links to acceptance probability via non-central t-distribution when σ² is unknown. For (c), define state vector and structure function mathematically, then derive expressions for series, parallel, and k-out-of-n systems using indicator functions and reliability theory. Allocate approximately 35% time to (a)(ii) derivation, 25% to (b)(ii) relationship establishment, 20% to (c)(ii) system derivations, and remaining 20% to definitional parts.

  • (a)(i) Clear distinction: variables charts for measurable characteristics (x̄, R, s charts) vs attributes charts for countable defects (p, np, c, u charts) with examples from Indian manufacturing
  • (a)(ii) Derivation of x̄ chart limits using s/c₄ as σ estimator: UCL/LCL = x̄̄ ± A₃s̄; s chart limits: UCL = B₄s̄, LCL = B₃s̄ with constants derived from χ² distribution
  • (b)(i) Assumptions: normality, single upper/lower specification limit, known or unknown σ; operating procedure: sample selection, computation of sample mean, comparison with acceptance criterion
  • (b)(ii) Relationship: p = P(X > U) = 1 - Φ((U-μ)/σ) for upper specification; acceptance probability Pa = P(accept|p) via non-central t when σ unknown; derivation of n and k parameters via producer/consumer risk points
  • (c)(i) State vector x = (x₁,...,xₙ) where xᵢ ∈ {0,1} indicates component state; structure function φ(x) ∈ {0,1} indicates system state; φ(x) = 1 iff system functions
  • (c)(ii) Series: φ(x) = Πxᵢ, Rₛ(t) = ΠRᵢ(t); Parallel: φ(x) = 1 - Π(1-xᵢ), Rₚ(t) = 1 - Π(1-Rᵢ(t)); k-out-of-n: φ(x) = 1 if Σxᵢ ≥ k, reliability via binomial/Beta or recursive formula
Q3
50M solve Operations Research and Simulation

(a) A company manufactures 30 items per day. The sale of those items depends upon demand which has the following distribution : | Sale (units) | 27 | 28 | 29 | 30 | 31 | 32 | |-------------|----|----|----|----|----|----| | Probability | 0·10 | 0·15 | 0·20 | 0·35 | 0·15 | 0·05 | The production cost and selling price of each unit are ₹ 400 and ₹ 500 respectively. Any unsold product is to be disposed off at a loss of ₹ 150 per unit. There is a penalty of ₹ 50 per unit if the demand is not met. Use the following random numbers to estimate total profit/loss for the company for the next 10 days : 23, 99, 65, 99, 95, 01, 79, 11, 16, 10 If the company decides to produce 20 items per day, what is the advantage or disadvantage to the company? (15 marks) (b) A company has four plants P₁, P₂, P₃ and P₄ from which it supplies to three markets M₁, M₂ and M₃. Determine the optimal transportation plan from the following data giving the plant to market shifting costs, quantities available at each plant and quantities required at each market : | Market ↓ | P₁ | P₂ | P₃ | P₄ | Required at market | |:---|:---:|:---:|:---:|:---:|:---:| | M₁ | 19 | 14 | 23 | 11 | 11 | | M₂ | 15 | 16 | 12 | 21 | 13 | | M₃ | 30 | 25 | 16 | 39 | 19 | | Available at plant | 6 | 10 | 12 | 15 | 43 | (15 marks) (c) On January 1 (this year), brands A, B and C of a commodity had 40, 40 and 20 percent of the market share. Basing upon a market research, it is compiled that brand A retains 90 percent of its customers, while gaining 5 percent of B's customers and 10 percent of C's customers. Brand B retains 85 percent of its customers, while gaining 5 percent of A's customers and 7 percent of C's customers. Brand C retains 83 percent of its customers and gains 5 percent of A's customers and 10 percent of B's customers. What will be each brand's share on January 1 (next year) and what will be each brand's share in the market at equilibrium? (20 marks)

हिंदी में पढ़ें

(a) एक कंपनी प्रतिदिन 30 मदों का निर्माण करती है। उन मदों की बिक्री मांग पर निर्भर करती है, जो निम्नलिखित बंटन का अनुसरण करती है : | बिक्री (इकाई) | 27 | 28 | 29 | 30 | 31 | 32 | |-------------|----|----|----|----|----|----| | प्रायिकता | 0·10 | 0·15 | 0·20 | 0·35 | 0·15 | 0·05 | उत्पादन लागत तथा विक्रय मूल्य प्रति इकाई क्रमशः : ₹ 400 और ₹ 500 है। किसी भी अनबिके उत्पाद का निपटान ₹ 150 प्रति इकाई की हानि पर किया जाता है। यदि मांग पूरी नहीं हुई, तो ₹ 50 प्रति इकाई का जुर्माना है। निम्न यादृच्छिक संख्याओं का उपयोग करके अगले 10 दिनों के लिए कंपनी के/की कुल लाभ/हानि का आकलन कीजिए : 23, 99, 65, 99, 95, 01, 79, 11, 16, 10 यदि कंपनी प्रतिदिन 20 मदों का उत्पादन करने का निर्णय करती है, तो कंपनी को क्या लाभ या हानि है? (15 अंक) (b) एक कंपनी के पास चार प्लांट P₁, P₂, P₃ और P₄ हैं, जिनमें से यह तीन बाजारों M₁, M₂ तथा M₃ में आपूर्ति करती है। निम्न दिए गए आंकड़ों, जिसमें प्लांट से बाजार तक स्थानांतरण लागत, प्रत्येक प्लांट पर उपलब्ध मात्रा तथा प्रत्येक बाजार में आवश्यक मात्राएं हैं, का उपयोग करके इष्टतम परिवहन योजना प्राप्त कीजिए : | बाजार ↓ | प्लांट | | | | बाजार में आवश्यक | |---------|--------|--------|--------|--------|---------------| | | P₁ | P₂ | P₃ | P₄ | | | M₁ | 19 | 14 | 23 | 11 | 11 | | M₂ | 15 | 16 | 12 | 21 | 13 | | M₃ | 30 | 25 | 16 | 39 | 19 | | प्लांट पर उपलब्ध | 6 | 10 | 12 | 15 | 43 | (15 अंक) (c) जनवरी 1 (इस वर्ष) को एक वस्तु के ब्रांड A, B और C के पास बाजार शेयर के 40, 40 तथा 20 प्रतिशत थे। बाजार अनुसंधान के आधार पर यह संकलन किया गया कि ब्रांड A अपने 90 प्रतिशत ग्राहकों को बनाए रखता है, जबकि उसमें 5 प्रतिशत B के ग्राहक और 10 प्रतिशत C के ग्राहक बढ़ जाते हैं। ब्रांड B अपने 85 प्रतिशत ग्राहकों को बनाए रखता है, जबकि उसमें 5 प्रतिशत A के ग्राहक और 7 प्रतिशत C के ग्राहक बढ़ जाते हैं। ब्रांड C अपने 83 प्रतिशत ग्राहकों को बनाए रखता है, जबकि उसमें 5 प्रतिशत A के ग्राहक और 10 प्रतिशत B के ग्राहक बढ़ जाते हैं। प्रत्येक ब्रांड के शेयर जनवरी 1 (अगले वर्ष) क्या होंगे और प्रत्येक ब्रांड के शेयर संतुलित बाजार में क्या होंगे? (20 अंक)

Answer approach & key points

Solve all three sub-parts systematically: for (a) set up the Monte Carlo simulation with correct random number intervals and profit/loss calculations; for (b) apply the transportation algorithm (VAM for IBFS then MODI/UV method for optimization); for (c) construct the transition probability matrix and compute next year's shares, then solve for steady-state equilibrium using πP = π. Allocate approximately 30% time to (a), 30% to (b), and 40% to (c) given the 20 marks weightage for part (c). Present all working clearly with tabular formats where appropriate.

  • For (a): Correctly establish random number intervals for demand simulation (00-09→27, 10-24→28, 25-44→29, 45-79→30, 80-94→31, 95-99→32) and calculate profit/loss for each of 10 days using given random numbers
  • For (a): Compute total profit for 10 days with production=30, then recompute for production=20 to compare advantage/disadvantage with clear numerical conclusion
  • For (b): Obtain initial basic feasible solution using Vogel's Approximation Method (VAM) and verify degeneracy condition (m+n-1=6 basic cells)
  • For (b): Apply MODI/UV method to test optimality and iterate if needed to reach optimal transportation schedule with minimum total cost
  • For (c): Construct correct transition probability matrix from customer retention and switching data, then compute January 1 next year shares by matrix multiplication
  • For (c): Set up and solve system of linear equations πA=π, πB=π, πC=π with πA+πB+πC=1 to find equilibrium market shares
Q4
50M solve Game Theory, Linear Programming and Quality Control

(a) Solve the game whose payoff matrix is $$ \begin{bmatrix} -1 & -2 & 8 \\ 7 & 5 & -1 \\ 6 & 0 & 12 \end{bmatrix} $$ (15 marks) (b) Use the penalty (Big M) method to solve the following linear programming problem : Minimize Z = 5x₁ + 3x₂ subject to the constraints 2x₁ + 4x₂ ≤ 12 2x₁ + 2x₂ = 10 5x₁ + 2x₂ ≥ 10 x₁, x₂ ≥ 0 (15 marks) (c) (i) Distinguish between a nonconforming unit and a nonconformity. State the appropriate conditions for constructing a control chart for nonconformities and derive the control limits for a control chart based on the average number of nonconformities per inspection unit. (2+8=10 marks) (ii) Describe the operating procedure of unit-by-unit sequential sampling plan by attributes. What is the unique feature of a sequential sampling plan? (5 marks) (iii) The time to failure for an electronic component used in a flat panel display unit is satisfactorily modelled by a Weibull distribution with the shape parameter β = ½ and the scale parameter θ = 5000 hours. Find the mean time to failure and the fraction of component that is expected to survive beyond 20000 hours. (2+3=5 marks)

हिंदी में पढ़ें

(a) उस खेल को हल कीजिए, जिसका भुगतान आव्यूह है $$ \begin{bmatrix} -1 & -2 & 8 \\ 7 & 5 & -1 \\ 6 & 0 & 12 \end{bmatrix} $$ (15 अंक) (b) पेनाल्टी (बिग M) विधि का उपयोग करके निम्नलिखित रैखिक प्रोग्रामन समस्या को हल कीजिए : न्यूनतमीकरण कीजिए, Z = 5x₁ + 3x₂ निम्न प्रतिबंधों के अंतर्गत 2x₁ + 4x₂ ≤ 12 2x₁ + 2x₂ = 10 5x₁ + 2x₂ ≥ 10 x₁, x₂ ≥ 0 (15 अंक) (c) (i) गैर-अनुकूल इकाई तथा गैर-अनुकूलता के बीच अंतर बताइए। गैर-अनुकूलताओं के लिए एक नियंत्रण संचित्र (चार्ट) के निर्माण हेतु उपयुक्त शर्तों को बताइए तथा प्रति निरीक्षण इकाई में गैर-अनुकूलताओं की औसत संख्या पर आधारित नियंत्रण संचित्र के लिए नियंत्रण सीमाओं को न्यूनतम कीजिए। (2+8=10 अंक) (ii) गुणों के आधार पर इकाई-दर-इकाई अनुक्रमिक प्रतिचयन आयोजना की संचालन प्रक्रिया का वर्णन कीजिए। एक अनुक्रमिक प्रतिचयन आयोजना की अद्वितीय विशेषता क्या है? (5 अंक) (iii) एक फ्लैट पैनल डिस्प्ले यूनिट में उपयोग किए गए एक इलेक्ट्रॉनिक घटक की विफलता का समय संतोषजनक तरीके से एक वेबुल बंटन द्वारा मॉडल किया गया, जिसका आकृति प्राचल β = ½ और मापक्रम प्राचल θ = 5000 घंटे हैं। विफलता का माध्य समय तथा घटक का अंश, जो 20000 घंटों से अधिक जीवित रहने की आशा रखता है, प्राप्त कीजिए। (2+3=5 अंक)

Answer approach & key points

The directive 'solve' demands complete working with optimal strategies and values for (a) and (b), while (c) requires theoretical exposition with derivations and calculations. Allocate approximately 35-40% time to part (a) given its 15 marks and computational complexity, 30% to part (b) for the Big M method iterations, and 30% to part (c) distributed as 10 marks for (c)(i), 5 marks for (c)(ii), and 5 marks for (c)(iii). Structure with clear part-wise headings, showing all matrix operations, simplex tableaus, and control limit derivations.

  • For (a): Identify the game has no saddle point, check for dominance, reduce using graphical method or solve 2×2 subgames, verify mixed strategy solution with value of game V = 17/5 ≈ 3.4
  • For (b): Convert to standard form by adding slack, surplus and artificial variables; use Big M penalty method with correct simplex iterations showing entering and leaving variables
  • For (c)(i): Define nonconforming unit as item with ≥1 nonconformity vs nonconformity as specific instance of non-fulfilment; state Poisson assumption for c-chart; derive UCL = c̄ + 3√c̄, LCL = max(0, c̄ - 3√c̄)
  • For (c)(ii): Describe sequential sampling with acceptance/rejection/continue regions; unique feature is ASN (average sample number) being smaller than fixed sampling for same protection
  • For (c)(iii): Calculate MTTF = θΓ(1+1/β) = 5000×Γ(3) = 10000 hours; survival probability S(20000) = exp[-(20000/5000)^0.5] = e^(-2) ≈ 0.1353 or 13.53%

B

Q5
50M Compulsory explain Regression diagnostics and demographic statistics

(a) Explain the multicollinearity problem in a regression model. What are its consequences? State the different indicators of multicollinearity and explain. 10 marks (b) Establish the relationship among crude birthrate, general fertility rate and total fertility rate in the context of continuous data. Also, mention the properties of these fertility rates. 10 marks (c) What are the implications of using stable versus quasi-stable population assumption in demographic modelling? 10 marks (d) Discuss the problem of heteroscedasticity. Given that $Y_i = \alpha + \beta X_i + U_i$ with $E(U_i^2) = K^2X_i^2$, prove that OLS estimates of $\alpha$ and $\beta$ possess greater variance than OLS estimates of the transformed version of original model. 10 marks (e) What does it imply by validity of a test? Distinguish between the concepts of validity and reliability. 10 marks

हिंदी में पढ़ें

(a) एक समाश्रयण निदर्श में बहुसंरेखता समस्या की व्याख्या कीजिए। इसके नतीजे क्या हैं? बहुसंरेखता के विभिन्न संकेतकों को बताइए तथा उनकी व्याख्या कीजिए। 10 (b) संतत आँकड़ों के संदर्भ में अशोधित जनदर, सामान्य प्रजनन दर और कुल प्रजनन दर के बीच संबंध स्थापित कीजिए। इन प्रजनन दरों के गुणों का भी उल्लेख कीजिए। 10 (c) जनसांख्यिकीय मॉडलिंग में स्थिर बनाम अर्ध-स्थिर जनसंख्या अनुमान का उपयोग करने के तात्पर्य क्या हैं? 10 (d) विषम विचलितता (हेटेरोस्केडेस्टिसिटी) की समस्या की विवेचना कीजिए। दिया गया है कि $Y_i = \alpha + \beta X_i + U_i$ साथ में $E(U_i^2) = K^2X_i^2$, तो सिद्ध कीजिए कि $\alpha$ और $\beta$ के साधारण न्यूनतम वर्ग (ओ० एल० एस०) आकलकों के प्रसरण, मूल मॉडल के रूपांतरित संस्करण के साधारण न्यूनतम वर्ग आकलकों के प्रसरण से अधिक हैं। 10 (e) एक परीक्षण की वैधता से क्या अर्थ मिलता है? वैधता तथा विश्वसनीयता की अवधारणाओं के बीच का अंतर बताइए। 10

Answer approach & key points

Begin with a brief introduction acknowledging that regression diagnostics and demographic measures are foundational to applied statistical analysis in Indian economic planning and population studies. Allocate approximately 20% time to each sub-part given equal 10-mark weighting: for (a) explain multicollinearity with consequences and indicators like VIF and condition index; for (b) derive the mathematical relationship CBR = GFR × (P_F/P) and connect to TFR via GFR = TFR × (1/m) where m is mean age of childbearing; for (c) contrast stable population (constant fertility/mortality, fixed age distribution) versus quasi-stable (gradually changing vital rates) with implications for Indian population projections; for (d) prove the variance inequality using weighted least squares transformation with weights 1/X_i; for (e) define validity (measuring what it claims) versus reliability (consistency) with psychometric examples. Conclude by synthesizing how diagnostic rigor ensures robust policy-relevant demographic modeling.

  • For (a): Definition of multicollinearity as near-linear dependence among regressors; consequences including inflated variances, unstable coefficients, t-statistic deflation; indicators—VIF > 10, condition number > 30, high R² but insignificant t-ratios, correlation matrix examination
  • For (b): Derivation showing CBR = GFR × (proportion of women in reproductive ages) = TFR × (1/m) × (P_F/P); properties—CBR is crude and age-structure dependent, GFR refines by restricting to women 15-49, TFR is age-standardized and period synthetic
  • For (c): Stable population implies Lotka's equation with constant rates leading to fixed age distribution and exponential growth; quasi-stable allows slowly changing rates with nearly stable age distribution; implications for Indian Census projections, intercensal estimation, and momentum effects
  • For (d): Heteroscedasticity as non-constant error variance; transformation to Y_i/X_i = α/X_i + β + U_i/X_i with homoscedastic errors; proof that Var(β̂_OLS) > Var(β̂_WLS) using Gauss-Markov theorem or direct variance comparison
  • For (e): Validity as accuracy of measurement (content, criterion, construct validity); reliability as precision/repeatability (test-retest, internal consistency); distinction—validity concerns systematic error, reliability concerns random error; trade-offs in educational testing and NSSO survey instruments
Q6
50M calculate Demographic statistics and econometric identification

(a) On the basis of the figures given below, calculate the age-specific death rates (ASDRs) for all the age groups. Also, calculate the crude death rate (CDR) on the basis of ASDRs: | Age group (in years) | 0-10 | 10-30 | 30-50 | 50-70 | 70 and above | |---|---|---|---|---|---| | Population | 10000 | 18000 | 26000 | 20000 | 5000 | | Number of deaths | 220 | 40 | 62 | 350 | 2000 | It was later discovered that two individuals, aged 47 and 54, were incorrectly recorded as being 37 and 45, while compiling the above table. Recalculate the ASDRs and CDR based on the corrected age data. (All calculations are up to 3 decimals only.) 15 marks (b) Discuss the problem of identification with an example. State the rank and order conditions of identification. Check the identifiability of the following structural model: y₁ = α₁ + β₁₂y₂ + β₁₃y₃ + γ₁₁x₁ + γ₁₂x₂ + u₁ y₂ = α₂ + β₂₃y₃ + γ₂₁x₁ + γ₂₂x₂ + u₂ y₃ = α₃ + β₃₁y₁ + γ₃₁x₁ + γ₃₂x₂ + u₃ y₄ = β₄₁y₁ + β₄₂y₂ + β₄₃x₃ + u₄ 15 marks (c) Prepare a life table for an age group from age 50 to age 60 of a specific population. Assume that there are 10000 persons living at age 50 and the probability of death within age x to x+1 is given as qₓ = 0·001+0·0002x for x = 50, 51, ..., 60. Prepare the life table with columns x, lₓ, qₓ, dₓ and Lₓ for x = 50, 51, 52, ..., 60. 20 marks

हिंदी में पढ़ें

(a) निम्न दिए गए आँकड़ों के आधार पर, सभी आयु-वर्गों के लिए, आयु-विशिष्ट मृत्यु दर (ए० एस० डी० आर०) की गणना कीजिए। ए० एस० डी० आर० के आधार पर अशोधित मृत्यु दर (सी० डी० आर०) की भी गणना कीजिए: जब उपर्युक्त सारणी को संकलित किया गया, तो यह बाद में पता चला कि दो व्यक्ति जिनकी आयु 47 और 54 थी, उनको गलती से 37 और 45 अंकित कर लिया गया। सही आयु आँकड़ों पर आधारित पुनः ए० एस० डी० आर० तथा सी० डी० आर० की गणना कीजिए। (सभी गणनाएँ केवल 3 दशमलव तक हैं।) 15 (b) एक उदाहरण के साथ अभिनिश्चयण की समस्या की चर्चा कीजिए। अभिनिश्चयण की कोटि एवं क्रम प्रतिबंधों को बताइए। नीचे दिए गए संरचनात्मक मॉडल की अभिज्ञेयता की जाँच कीजिए: y₁ = α₁ + β₁₂y₂ + β₁₃y₃ + γ₁₁x₁ + γ₁₂x₂ + u₁ y₂ = α₂ + β₂₃y₃ + γ₂₁x₁ + γ₂₂x₂ + u₂ y₃ = α₃ + β₃₁y₁ + γ₃₁x₁ + γ₃₂x₂ + u₃ y₄ = β₄₁y₁ + β₄₂y₂ + β₄₃x₃ + u₄ 15 (c) किसी विशिष्ट जनसंख्या के 50 से 60 वर्ष के आयु-वर्ग के लिए वय सारणी तैयार कीजिए। मान लीजिए कि 10000 व्यक्ति 50 वर्ष की आयु में जीवित हैं और आयु x से x+1 के बीच मृत्यु की प्रायिकता इस प्रकार दी गई है, qₓ = 0·001+0·0002x; x = 50, 51, ..., 60 के लिए। x = 50, 51, 52, ..., 60 के लिए स्तंभों x, lₓ, qₓ, dₓ और Lₓ के साथ वय सारणी तैयार कीजिए। 20

Answer approach & key points

Begin with precise calculations for part (a), allocating approximately 30% of time to compute original and corrected ASDRs/CDR with proper data reallocation. Devote 30% to part (b) discussing identification using a concrete econometric example (e.g., supply-demand model), stating order and rank conditions clearly, then systematically checking each equation's identifiability. Reserve 40% for part (c) constructing the complete life table with all five columns, showing iterative calculations for lₓ, dₓ and Lₓ. Present each part separately with clear headings and maintain 3-decimal precision throughout.

  • Part (a): Calculate original ASDRs (deaths/population × 1000) for all five age groups and CDR (total deaths/total population × 1000); then recalculate after correctly reassigning deaths from 30-50 to 50-70 age group (47-year-old to 50-70, 54-year-old from 30-50 to 50-70)
  • Part (b): Explain identification problem using simultaneous equations bias example (e.g., price-quantity in agricultural markets); state order condition (K ≥ k-1) and rank condition (at least one non-zero determinant of order M-1)
  • Part (b): Apply order and rank conditions to check identifiability of all four structural equations, noting M=4 endogenous, K=3 exogenous variables; identify y₁ as overidentified, y₂ and y₃ as unidentified, y₄ as exactly identified
  • Part (c): Construct life table using l₅₀=10000, computing qₓ=0.001+0.0002x for x=50 to 60, then dₓ=lₓ×qₓ, lₓ₊₁=lₓ-dₓ, and Lₓ=(lₓ+lₓ₊₁)/2 for each age
  • Part (c): Present final life table with all five columns (x, lₓ, qₓ, dₓ, Lₓ) showing declining survivorship pattern typical of Indian mortality experience in 50-60 age range
Q7
50M calculate Index numbers, logistic growth model, agricultural statistics

(a) Explain the concept of index number. Calculate the Fisher's ideal index number from the following data and verify that whether it satisfies time reversal and factor reversal tests : (10 marks) (b) The population growth of a city is modelled using logistic growth model with a carrying capacity of K = 10000000. The population data (in thousands) is provided at 2-year intervals from 2014 (taken as t = 0) to 2024 (t = 10) : (i) Estimate the two parameters of the logistic growth model. (16 marks) (ii) Using the estimated model, predict the population of the city for the year 2026. (4 marks) (16+4=20 marks) (c) Discuss the agricultural statistics relating to area and yield in our country. Also, point out the need and importance of agricultural statistics. (15 marks)

हिंदी में पढ़ें

(a) सूचकांक की संकल्पना की व्याख्या कीजिए। निम्नलिखित आँकड़ों से फिशर के आदर्श सूचकांक की गणना कीजिए और सत्यापित कीजिए कि क्या यह कालोत्क्रमण तथा उपादान उत्क्रमण परीक्षणों को संतुष्ट करता है : (10 अंक) (b) बृद्धियत बृद्धि मॉडल, जिसकी वहन क्षमता K = 10000000 है, का उपयोग करते हुए किसी शहर की जनसंख्या बृद्धि का मॉडल तैयार किया गया। जनसंख्या आँकड़े (हजारों में), 2 वर्ष के अंतराल पर 2014 (t = 0) से 2024 (t = 10) तक दिए गए हैं : (i) बृद्धियत बृद्धि मॉडल के दो प्राचलों का आकलन कीजिए। (16 अंक) (ii) आकलित मॉडल का उपयोग करते हुए वर्ष 2026 के लिए शहर की जनसंख्या का प्रक्षेपण कीजिए। (4 अंक) (16+4=20 अंक) (c) हमारे देश में क्षेत्रफल तथा उपज से संबंधित कृषि सांख्यिकी की विवेचना कीजिए। कृषि सांख्यिकी की आवश्यकता तथा महत्व को भी इंगित कीजिए। (15 अंक)

Answer approach & key points

Begin with a concise definition of index numbers for part (a), then proceed to calculate Fisher's ideal index with proper data tabulation and test verification. For part (b), set up the logistic model linearization, estimate parameters using regression on transformed data, then predict for 2026. For part (c), structure the discussion around India's agricultural statistical system—mentioning Land Use Statistics, Area and Production Statistics, and agencies like DES and NSSO. Allocate approximately 20% time to (a), 45% to (b), and 35% to (c) based on marks distribution.

  • Part (a): Correct formula for Fisher's ideal index as geometric mean of Laspeyres and Paasche; proper calculation with given data; verification of time reversal (P01 × P10 = 1) and factor reversal (P01 × Q01 = Value ratio)
  • Part (b)(i): Linearization of logistic model as ln[(K-P)/P] = lnβ - αt; estimation of α and β via least squares on transformed variables; correct handling of K=10000 (in thousands)
  • Part (b)(ii): Substitution of t=12 (for year 2026) into estimated logistic equation; proper back-transformation to obtain population prediction
  • Part (c): Discussion of area statistics—gross sown area, net sown area, cropping intensity; yield statistics—yield per hectare, production estimates; mention of Timely Reporting Scheme and Crop Cutting Experiments
  • Part (c): Need for agricultural statistics—food security planning, MSP fixation, crop insurance (PMFBY), export-import policy; importance for Sustainable Development Goals and Doubling Farmers' Income initiative
Q8
50M describe Time series, T-score analysis, 2SLS estimation

(a) Define time series. For a moving-average process with weights {a₁, a₂, ..., aₘ} of random components {eᵢ, i = 1, 2, ...}, where eᵢ's are i.i.d. N(0, σ²), obtain the correlogram function. Find its form, when all the weights are equal and their sum is 1. (15 marks) (b) The marks obtained by student A in Mathematics and Language tests of maximum marks 150 each are 120 and 105 respectively. Find out in which subject, student A is more able as compared to other students based on the measure of T score. The following table gives a sample of marks obtained by 15 students of the same class : Score in Mathematics | Score in Language ---|--- 100 | 67 75 | 63 88 | 73 85 | 77 92 | 60 94 | 53 93 | 50 84 | 48 67 | 38 96 | 73 100 | 36 102 | 45 94 | 47 73 | 39 83 | 56 (15 marks) (c) Describe the 2-stage least squares (2SLS) method of estimation of parameters in linear regression model. Also, state the assumptions and discuss its properties. (20 marks)

हिंदी में पढ़ें

(a) काल श्रेणी को परिभाषित कीजिए। एक गतिमान-माध्य प्रक्रम, जिसमें यादृच्छिक घटकों {eᵢ, i = 1, 2, ...} के भार {a₁, a₂, ..., aₘ} हैं, जहाँ eᵢ स्वतंत्र और समान रूप से N(0, σ²) के अनुसार बंटित हैं, के लिए सहसंबंध-चित्र फलन प्राप्त कीजिए। इसके रूप को ज्ञात कीजिए, जबकि सभी भार बराबर हैं और उनका योग 1 है। (15 अंक) (b) एक विद्यार्थी A ने गणित तथा भाषा की परीक्षा में, जिनमें प्रत्येक में अधिकतम अंक 150 हैं, क्रमशः 120 और 105 अंक प्राप्त किए। बताइए कि किस विषय में विद्यार्थी A, T-स्कोर के माप के आधार पर दूसरे विद्यार्थियों की अपेक्षा अधिक योग्य है। निम्नलिखित सारणी में उसी कक्षा के 15 विद्यार्थियों द्वारा प्राप्त अंकों का एक प्रतिदर्श दिया गया है : | गणित में प्राप्तांक | भाषा में प्राप्तांक | |---|---| | 100 | 67 | | 75 | 63 | | 88 | 73 | | 85 | 77 | | 92 | 60 | | 94 | 53 | | 93 | 50 | | 84 | 48 | | 67 | 38 | | 96 | 73 | | 100 | 36 | | 102 | 45 | | 94 | 47 | | 73 | 39 | | 83 | 56 | (15 अंक) (c) रैखीय समाश्रयण मॉडल में, प्राचलों के आकलन की द्विचरण न्यूनतम वर्ग (2 एस० एल० एस०) विधि का वर्णन कीजिए। इसकी कल्पनाओं को भी बताइए तथा इसके गुणों की चर्चा कीजिए। (20 अंक)

Answer approach & key points

The directive 'describe' demands systematic exposition with technical precision. Structure: (a) 30% time/space—define time series rigorously, derive MA(m) autocorrelation structure, and simplify to uniform weights case showing the triangular decay pattern; (b) 30%—calculate sample means and standard deviations, compute T-scores for both subjects, and interpret relative standing; (c) 40%—detail 2SLS algorithm (first-stage reduced form, second-stage structural), list full assumptions (instrument relevance, exogeneity, rank condition), and prove consistency/asymptotic normality. Conclude with comparative assessment of 2SLS vs OLS in simultaneous equations contexts relevant to Indian economic policy evaluation.

  • For (a): Formal definition of time series as ordered sequence of random variables; derivation of autocovariance γ(k) = σ²Σaᵢaᵢ₊ₖ for MA(m) with truncation; correlogram ρ(k) = γ(k)/γ(0); special case aᵢ = 1/m yielding ρ(k) = (m−|k|)/m for |k| < m and zero otherwise
  • For (b): Correct computation of sample mean (x̄_M = 87.4, x̄_L = 54.2) and sample standard deviation (s_M ≈ 10.47, s_L ≈ 12.38); T-score formula T = 50 + 10×(X−X̄)/S; calculation yielding T_M ≈ 81.2 and T_L ≈ 91.1; correct interpretation that higher T-score in Language indicates better relative performance despite lower absolute marks
  • For (c): Complete 2SLS procedure—stage 1 regress endogenous regressors on all exogenous/instrumental variables, stage 2 use fitted values in structural equation; explicit assumptions (linearity, instrument exogeneity E(Z'u)=0, relevance rank E(Z'X) full column, no perfect multicollinearity)
  • For (c): Properties derivation—consistency via law of large numbers and continuous mapping theorem, asymptotic normality with variance σ²(X'P_ZX)⁻¹ where P_Z is projection matrix, comparison with OLS inconsistency under simultaneity
  • For (c): Practical illustration such as estimating agricultural supply response where price is endogenous—using rainfall/transport cost as instruments, relevant to Indian agricultural policy analysis

Practice Statistics 2025 Paper II answer writing

Pick any question above, write your answer, and get a detailed AI evaluation against UPSC's standard rubric.

Start free evaluation →