線性回歸分析講義



《線性回歸分析講義》由會員分享,可在線閱讀,更多相關《線性回歸分析講義(18頁珍藏版)》請在裝配圖網上搜索。
1、線性回歸分析一、變量間的兩類關系在現實世界的許多問題中,普遍存在著變量之間的關系一般來說,變量之 間的關系分為確定性與非確定性兩類確定性關系是指變量間的關系是完全已 知、可以用函數關系來描述的,例如電學中的歐姆定律V = IR等而非確定性 關系是指變量間有關系,但不是確切的函數關系,例如人的年齡和血壓之間的關 系,一般來講,人的年齡大一些,血壓就高一些,但這兩者間的關系不是確定的 函數關系再如人的身高與體重,農作物的畝產量與施肥量之間等等都屬于非確 定性關系這種不呈現確定性關系的變量間關系又稱為相關關系回歸分析是研 究相關關系的一種數學工具,也是一種最常用的統計方法本書只討論簡單的一 元線性回
2、歸分析變量本身也可分為兩類,若一個變量是人力可以控制的、非隨機的,稱為控 制變量或可控變量,另一類變量是隨機的、且隨著控制變量的變化而變化,則這 個變量稱為隨機變量或不可控變量控制變量與隨機變量之間的關系稱為回歸關 系,若兩個變量都是隨機的,則它們之間的關系稱作是相關關系兩者的差別在 于把自變量當作控制變量還是隨機變量,這就是回歸與相關的不同之處但在解 決實際時常常把不可控的自變量當作可控變量處理一般對自變量不加區分二、一元線性回歸模型設變量Y與x之間具有相關關系,其中x為可控變量,作為自變量;Y為隨 機變量,作為因變量(也稱響應變量).當x固定時,Y是一個隨機變量,因此 有一個分布,如果該分
3、布的期望存在,其期望值應為x的函數,記為卩(x),稱之 為Y關于x的回歸函數,卩(x)就是我們要尋找的相關關系的表達式.當卩(x)為關于x的線性函數時,稱為線性回歸,否則稱為非線性回歸.進行 回歸分析時首先是回歸函數卩(x)形式的選擇,這需要通過專業知識、實際經驗 和具體的觀測才能確定,當只有一個自變量時,通??刹捎卯嬌Ⅻc圖的方法進行 選擇請看下例:例1在某種產品表面進行腐蝕刻線試驗,得到腐蝕深度Y與腐蝕時間X對 應得一組數據,如表 9-4所示表9-4腐蝕深度Y與腐蝕時間x的數據x / s5101520304050507090120Y / pm610101316171923252946一般地,
4、 對于 x 取定一組不 完全相同 的值 x,x , ,x ,設 Y 為在 對應1 2 n ix (i = 1,2, n)處Y的觀測結果,稱(x , Y),(x , Y ),(x , Y ),是一個樣本,相應i1 122n n 地,稱(x , y ),(x , y ),(x , y )為樣本觀測值一般以表格給出1122n nxny2yn我們把每一數對(x,y.)看作直角坐標系中的一個點,在圖上畫出這n個點, 稱該圖為散點圖例 1 的散點圖見圖 9-1050505544332度深蝕腐105020 40 60 80腐蝕時間100 120圖 9-1 腐蝕深度及腐蝕深度的散點圖從散點圖我們發現11 個點
5、基本上在一條直線附近,這說明兩個變量有一個線性關系,即卩(x) = a+bx,記y 軸方向上的誤差為e,進一步假定 N(。,2),這里a,b,& 2均為與x無關的常數.則上述假設可寫為Y 二 a + bx + sV N(0,02)a,b,& 2 為常數(2.1) 我們稱(2.1)為一元線性回歸模型研究一元線性回歸模型的主要內容有:參 數估計、顯著性檢驗、預測與控制等三、回歸系數的最小二乘估計取 x 的 n 個不完全相等的值 x,x, ,x , 得到一組獨立觀測樣本1 2 n(x,Y),(x,Y), ,(x ,Y ),在模型(2. 1)下,可得如下數據結構1 1 2 2 n nY = a + b
6、x +8Viii8N(Oq2)且相互立V i通常采用最小二乘法估計a,b,記各次擬合誤差的平方和為Q(a, b) = (Y 一 a 一 bx )2iii=1尋找a,b,使Q(a,b)達到最小,即八Q(a, b) = min Q (a, b)a,b2.2)這樣得到的a,b稱為a, b的最小二乘估計,可通過對Q(a,b)求偏導數并令它們等于 O 求出,即Q = -2工(Y - a - bx ) = 0 daiii=1Q = -2工(Y - a - bx )x = 0 dbii ii =1這組方程稱為正規方程組,經過整理可得2.3)記Lxyna + (工 x )b =工 Yiii =1i =1(工
7、x )a + (工 x2)b =工 x Yiii ii =1i=1i =12.4)=1L (x - x )(Y - Y)= x Y - nx Y = KxY -丄疋x )(Y) iii ii=1i=1x Y 一i i n i=1i=1ii=1L =工(x 一 x )2 =工 x2 一 nx 2 =工 x2 - (工 x )2xxiii n ii=1i =1i=1i =1L =工(Y - Y)2 =工 yy i=1解(2.4)Y2 一 nY2 =工 Y2 一 丄(工Y )2 i i=1i n i i=1i =1可得b = L /L 入xy!入xx a = Y - bx2.5)稱方程八八7y =
8、a + bx為線性回歸方程,其圖形稱為回歸直線除了估計回歸系數a,b外,還需估計未知參數b 2 .注意到c2反映出觀測誤差的大小,樣本中有關b 2的信息可由回歸方程的殘差來體現,稱為殘差平方和=工 e2 =工(Y Y )2 =工(Y a 一 bx )2iS =厶 e 2eiii=1i=1可以證明:S /a 2 咒 2(n - 2)eii=12.6)Sb于是E啟=b 2,這說明b 2 =荷是的一個無偏估計.為便于計算,通常將 S 作如下分解:eS =工(Y - Y )2 =工Y - Y - (Y - Y )2ei iiii =1i =1= Y 一 Y 一 b(x 一 x)2ii i=1=X (Y
9、 - Y )2 -2bX (Y Y)(x x) + (b )2X (x x )2iiiii=1i =1i=1=L - 2bL + (b)2 L = L - bLyy xyxx yy xy2.7)S = L - bLe yy xy例2求例1中Y關于x的回歸方程,并求b2的無偏估計b2.解 經計算得L = 12922.72xxLxy= 3952.72 L =1258.72yyx = 45.45 y = 19.45代入得La = y 一 bx = 5.551b = xy = 0.306 L于是 回歸直線為扌=5.551 + 0.306x 2的估計值為11 2 = S =(L - bL ) = 5.5
10、2n 一 2 e n 一 2 yy xy四、線性假設的顯著性檢驗 從以上求回歸直線的過程可以看出,對任意給出的 n 對觀測數據(x , y )(i = 1,2, n),不管Y與x是否真的有線性關系,都可以求出Y對x的回歸ii直線,但這樣給出的回歸直線不一定有意義要判斷回歸直線是否有意義,就必須對回歸方程是線性的假設作顯著性檢 驗注意到在線性回歸方程E(Y)二卩(x) = a + bx中,如果b = 0 ,則表示Y不依賴x而變化,那么這時求出的回歸方程就沒有意義, 稱回歸方程不顯著;如果b主0,那么當x變化時,E(Y)隨x的變化而線性變化, 這時稱回歸方程是顯著的因此,對回歸方程是否有意義作判斷
11、 就是要作如下 的顯著性檢驗:H : b = 0 o H : b 主 0(2 8)01考慮b的最小二乘估計b,可以證明b N(b, 2/L )r xx又由( 2.6)式,知(n - 2)6 2 2=丄X2(n-2)26 2且b與S相互獨立,故統計量e2.9 )在 H 為真時,檢驗統計量可取0b 2.10)t =t (n - 2)c xx在水平 a 下,檢驗的拒絕域為八blW:L t (n 一 2)xx a2.11)該檢驗稱為t檢驗.當拒絕H時,回歸方程是顯著的,表明回歸方程有意義.反0之,就認為回歸方程是不顯著的由于若tt(n 一2),有12 F(l,n - 2),因此檢驗統計量也可以取八bL
12、xyF蘭仿照方差分析的做法,數據總的偏差平方和記為S =蘭(Y Y )2 = LTiyyi=1S = (Y Y)2 = bL Rii=1xy為回歸平方和,由(2.7) 式,平方和有分解式S = S + S .利用上述記號, TRe則在 H 為真時,檢驗統計量0SF =嚴)F( 2)2.12)在水平a下,檢驗的拒絕域為W: F F (1,n 2)a顯然它與t檢驗是等價的.我們還可得到參數b的置信度為1 a的置信區間:2.13)該檢驗稱為 F 檢驗 利用(2.9)式cb t (n 2), b +I廠a;、V xxcft /(n - 2) 嚴丿 xx/2.14)l2 / lSxy xx =1Syy另
13、外,評價回歸方程好壞的有一個常用指標:回歸決定系數(復行列式系數) 定義如下:l2R 2 =T7yy顯然,0R2 t (9) = 2.2620.025故拒絕H,即認為回歸方程是顯著的.0回歸決定系數R2 = 0.96五、用回歸模型作預測 當回歸方程經過檢驗是顯著的后,可以用它來作預測.所謂預測是指在給定的x = x處,而這一點處并未進行觀測或者暫時無法觀測,需要以一定的置信度 0預測對應的因變量Y的取值范圍,這種預測的取值范圍稱為預測區間.下面我們0來討論該預測區間的構造,由(2.1)式Y = a + bx +8 ,& N(0Q2)0 0 0 0八八./知Y的取值應在回歸值Y = a + bx
14、附近,于是,我們可以取一個以丫為中心 0 0 0 0 的區間C 5,Y +5)來作為Y的預測區間,為確定5的值,需要利用如下結果: 0 0 0(1 (x x )2Y Y N0,1 + +06 200nLxx丿且&2與Y Y相互獨立,再由00(n 2)6 2C 2=6e x 2(n 2)62因此,可以構造隨機變量(Yo 迂)畀+n+ t=(X - X )2 0LXX(n 一 2)6 26 2(n - 2) (Y- Y)0 0 1(X - X)2t (n 一 2) :1 + +-XX以t作為Y的預測區間的樞軸量o1-了的預測區間為:、C -,Y +丿 6=6 11 + 二+ n LXX從(2.15
15、)式可以看出,預測區間的長度26與樣本量n , x的偏差平方和L ,XX(類似于置信區間的處理),則Y的置信水平為01(X 一X)2 t (n - 2)2.15)X到X的距離lx - X有關.0 1 0x越靠近x,預測的精度就越高;另外,若樣本中0X ,x ,x的取值較為集中,那么L就較小,就會導致預測精度的降低因此,12 nXX在收集數據或安排試驗時,要使控制變量的取值X ,X ,X盡量分散,以提高回12 n歸方程的預測精度.當n較大(如n 30 )時,t分布可以用正態分布近似,進一步,若x與X相 o距不遠時, 6 可近似取為:66 -z ”,(2.16)2線性回歸模型除了預測外還可以用來控
16、制,這里不再討論.例4利用例1中的試驗結果,預測腐蝕時間為75s時,腐蝕深度Y的范圍. 解將x = 75代入回歸方程,得oY = 5.551 + 0.306 x 75 = 28.501o取 1 -a = 0.95,則 t (n-2) = t (9) = 2.262,又由例 2、例 3 知: 篤0-025X = 45.45 6 =空552 = 2.35,L = 12922.72, 應用(2.16)式,XXI (75 - 45.45)26 = 2.35x 1 +x 2.262 = 5.721II 12922.72則當腐蝕時間為75s時,腐蝕深度的置信水平為0.95的預測區間為:(28.501-5.
17、721,28.501 + 5.721)=(22.78,34.22).六、非線性回歸的線性化處理在實際中常會遇到更為復雜的非線性回歸問題,此時一般是采用變量代換法將非線性回歸模型線性化,再按線性回歸方法處理。舉例如下:1b1、模型-=a + - + , N (Oq 2)1 1令亍=八I =則有y = a + bx +, N (0, c 2)2、模型 y - a + b In x + ,N(0,c 2)ln x = x,則有y = a + bx +, N (0, c 2)3、模型 y = axb + 込 N(0,c 2)ln x = x,ln y = y,ln a = a,則有y = a +bx
18、+,N(0,c2)4、模型 y = a + bt + ct2 +, N(0,c2)令t =珥,12 = x2,則化為多元線性回歸模型y = a +bx + cx +, N(0,c 2) 12七、多元線性回歸分析在實際問題中影響隨機變量Y的自變量不是一個而是多個,先看一例子例:某種水泥在凝固時放出的熱量Y(cal/g)與水泥中的4種化學成分有 關:x1 : 3Ca0.Al2O3y*/V2 .3 . 4 .現記錄了 13組觀測值,試求Y對4種化學成分的回歸方程編號x1x2x3x4y172666078.52129155274.331156820104.34113184787.6575263395.6
19、61155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4x x , x一般地,如自變量有 p 個: 1, 2,p, 模型為Y P + 卩 x + 卩 x + 卩 x +01122p p8N(0,Q 2),x. , y ),(i 1,2, n),數設有n組不同的樣本觀測值(x訂,二2,據一般以如下表格給出:編號XX2 XpY1XX12X1 pY2X 21X 22*X 2 py*tnX”1Xn 2XpYn數據結構為:+ P x + 8p 1p1+P
20、 x +8p 2p 2Y =p +p x +B x +101 112 12Y =p +px +p x +201 212 22Y = P + P x + P x + + B x + 8n 0 1 n12 n 2p np n為了方便,常采用矩陣表達式,記jxxyP18 1111 p1001xxy,P =P8X 二212 p ,Y =21,8 =11xixyP8n1npnpn則模型可寫為:Y 二 X P+8 F (p,n- p -1), a則拒絕 H ,即認為回歸效果顯著;否則,接受 H ,認為回歸效果不顯著。 00同樣,多元回歸也有:回歸決定系數,定義是相同的:R2 = RST3、單個回歸系數的顯
21、著性檢驗當回歸方程顯著時,僅說明卩,卩昇,卩不全為0但并不排出某一個或幾12p個片= ,若某個片= ,這意味著Y與x無關或X地作用被其它的vviiX (j 豐 i)j的作用所代替,因而可將這個X從回歸方程里剔出掉。這就是說當檢驗整個回i歸方程顯著時,還必須檢驗每個變量x對Y有無顯著性影響,這相當于檢驗iH :卩二 (i = 1,2, p) ii檢驗統計量為it (n - p -1)其中c ii是C = (X X)-1對角線上第i +1個元素(對應于卩.)。iiit對于給定的顯著水平a,由樣本觀測值算得i的值,若Il - Jn - P - 1),則拒絕化,認為xi對Y有顯著性影響;否則,接受H,
22、認為x對Y無顯著性影響,應從回歸方程中剔出x。 iii回歸系數卩.的置信水平為1-a的置信區間為:i(0.-6,0. +),苴中ii4、預測假設已由樣本算得回歸方程為Y P + P x + P x + P x0 1 1 2 2 p p經檢驗,回歸效果及各回歸系數都是顯著的。當給定一組固定值(XO1 X02 X0p ),對應y 0的估計值為:y + P x +P x +0 0 1 01 2 02+P xp 0 p0的置信水平為1-a的置信區間為:(y -3(x ),y +5(x ),0 0 0 0甘中 5(x ) t (n-pI 求回歸方程 + 丄 + w(x x)(y y)其中 0 an0i0
23、 j2 i j5、逐步回歸6、練習題多元回歸分析 已知煤的有機成分主要為碳(C)、氫(H)、氧(0)、氮(N)等元素,由于 變質程度不同,它們的含量(%)也不同,煤的性能也不同。今搜集各種煤的樣品10 塊, 分別測得碳、氫、氧、氮與高發熱量(卡/克)的含量如下表,試求高發熱量與碳、氫、氧 氮的關系。CH0N咼發熱量695.5241.567005763525200824.3121.98400774.8171.37500596331.95400804.6141.78000645.8291.76000675.7261.66300625.9301.95700735211.670002) 回歸方程的顯著性檢驗3) 單個回歸系數的顯著性檢驗4) 回歸系數的置信水平為1的置信區間可參考課件: 598 466.html
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新DOC
最新PPT
最新RAR
- 轉速器盤零件的機械加工工藝規程及專用夾具
- 法蘭盤1加工工藝及鏜孔夾具設計【4張CAD圖紙+畢業論文+工藝卡】
- 轉子系統摩擦磨損實驗臺設計圖紙8張
- 汽車鈑金修復夾具裝配圖
- 梳子注塑模具CAD裝配圖
- 操縱桿支架鉆孔夾具CAD裝配圖
- 履帶式推土機SolidWorks三維圖
- 基于單片機控制的智能窗簾系統SolidWorks三維圖
- 單邊輥自動送料裝置CAD裝配圖
- 大型圓柱形容器的旋轉支承裝置結構設計【9張CAD圖紙+畢業論文+SolidWorks三維圖】
- 頸部康復拉伸機CAD裝配圖
- 路錐自動裝車裝置CAD裝配圖
- 汽車變速箱鏜孔組合機床多軸箱CAD裝配圖
- 減震沖壓件模具CAD裝配圖
- 輪足復合式機器人的設計與研究【10張CAD圖紙+SolidWorks三維圖+開題報告+任務書】