Chương 5 & 6 Tương Quan Và Hồi Quy

Published on

Chương 5 & 6 Tương Quan Và Hồi Quy

2. Giá trị của biến độc lập X được cho là cố định (không ngẫu nhiên), yếu tố ngẫu nhiên trong giá trị của Y là do sai số ε. ε ~ N (0, σ2 ) (phân phối chuẩn) 2. Phương trình hồi quy tuyến tính mẫu XY βα += Trong đó α, β được xác định theo phương pháp bình phương bé nhất ∑ ∑ = = − − = n i i n i ii XnX YXnYX 1 22 1 β XY βα −= Ví dụ: Một công ty sản xuất hàng điện tử định các tỷ lệ tăng giá sản phẩm khác nhau ứng với 8 khu vực bán hàng, ghi nhận sự thay đổi về doanh số trong năm như sau: Thay đổi về giá cả (%) 6 5 4 7 7 6 10 8 Thay đổi về doanh số (%) 5.1 7.3 7.4 4.6 5.3 5 -1 2.9 Gọi y = a + bx là phương trình hồi quy tuyến tính thể hiện mối liên hệ giữa sự thay đổi về giá cả (x) và thay đổi về doanh số (y). Khu vực bán hàng X Y XY X2 1 6 5.2 36 31.2 2 5 7.3 25 36.5 2

3. 3 4 7.4 16 29.6 4 7 4.6 49 32.2 5 7 5.3 49 37.1 6 6 5 36 30 7 10 -1 100 -10 8 8 2.9 64 23.2 Tổng 53 36.7 375 209.8 625.6 8 531 1 === ∑= n i iX n X 5875.4 8 7.361 1 === ∑= n i iY n Y 3963.1 875.23 3375.33 )625.6(8375 )5875.4)(625.6(88.209 2 1 22 1 −== − − = − − = ∑ ∑ = = n i i n i ii XnX YXnYX β 8382.13)625.6)(3963.1(5875.4 =−−=−= XY βα Vậy phương trình hồi quy tuyến tính mẫu thể hiện mối liên hệ giữa sự thay đổi giá và sự thay đổi về doanh số là : Y= 13.8382 – 1.3963X 3. Các dạng tương quan Mô hình hồi quy tuyến tính được áp dụng chỉ khi mối tương quan thực giữa 2 biến X và Y là tương quan đường thẳng. Nếu mối tương quan này không tuyến tính, ta phải dùng những mô hình khác. Hệ số xác định (Coefficient of Ditermination) ∑ ∑ ∑ − −= n Y Y e r i i i 2 2 2 2 )( 1 102 ÷=r Hệ số r2 được dùng để đánh giá mức độ phù hợp của mô hình hồi quy đối với những dữ liệu có sẵn. 3

4. r2 = 1 : 100% điểm quan sát được nằm trên đường hồi quy, không có sai số. Đường hồi quy tyuến tính hoàn toàn phù hợp với những dữ liệu có sẵn. r2 = 0 : không có mối quan hệ tuyến tính giữa X và Y. Hệ số tương quan 2 rr = Gía trị tuyệt đối của hệ số xác định Sự thể hiện 0.90 – 1.00 Tương quan rất cao 0.70 – 0.89 Tương quan cao 0.40 – 0.69 Tương quan trung bình 0.20 – 0.39 Tương quan thấp 0.00 – 0.19 Tương quan rất thấp Lưu ý: * r ở đây chỉ là hệ số tương quan thẳng (tuyến tính), r = 0 nhưng X và Y cũng có thể tương quan chặt chẽ theo cách khác (logarit, luỹ thừa…). 4

5. * r ∼ 1 nhưng có thể X và Y không có liên hệ gì cả. Ví dụ: số lượng bán xe gắn máy ở Việt Nam trong khoảng thời gian 1985 – 1995 thì tương quan rấy chặt chẽ với số liệu dĩa máy vi tính bán ra trong từng thời kỳ. Thật ra đây là 2 hiện tượng gần như hoàn toàn độc lập. Vì vậy ta cần nghiên cứu sự tương quan về ý nghĩa kinh tế, vật lý,… của nó. III. Mô hình hồi qui bội k biến 1. Phương trình hồi quy tuyến tính giữa biến phụ thuộc Y và các biến độc lập Xi là: εβββα +++++= kk XXXY 2211 Trong đó: kXXX ,, 21 biến độc lập α: thể hiện giá trị ước lượng của y khi giá trị biến kXXX ,, 21 = 0, nghĩa là giá trị của Y không phụ thuộc vào X. iβ , i = 0,…, k: gọi là các hệ số hồi quy riêng, thể hiện mức thay đổi của biến Y khi biến Xi thay đổi một đơn vị, các biến còn lại không đổi. Hay nói cách khác, iβ cho thấy ảnh hưởng của riêng biến Xi đến Y. ε: sai số ngẫu nhiên thể hiện ảnh hưởng của các yếu tố khác đến y. Những tham số hồi quy được tính bằng phương pháp bình phương cực tiểu 5

8. 9382 = 123α + 1615β1+ 869β2 5040 = 65α + 869β1 + 509β2 Giải hệ phương trình ta được: α = 47.16492 β1 = 1.59904 β2 = 1.148748 2. Bảng phân tích phương sai ANOVA (ANalysis Of VAriance) Bảng phân tích ANOVA trên Excel SUMMARY OUTPUT Regression Statistics Multiple R 0.980326323 R Square 0.961039699 Adjusted R Square 0.949908185 Standard Error 1.910940432 Observations 10 ANOVA df SS MS F Significance F Regression 2 630.5381466 315.2691 86.335035 1.16729E-05 Residual 7 25.56185335 3.651693 Total 9 656.1 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 47.16494227 2.470414433 19.09191 2.692E-07 41.32334457 53.00654 X1 1.599040336 0.280963057 5.691283 0.000742 0.934668753 2.2634119 X2 1.148747938 0.30524885 3.763316 0.0070442 0.426949621 1.8705463 8

10. Chương VI: ỨNG DỤNG MICROSOFT EXCEL TRONG CÔNG TÁC DỰ BÁO Có thể sử dụng các phần mềm thống kê như Excel, SPSS hay các phần mềm chuyên dụng khác. Trong chương trình giảng dạy môn học sẽ sử dụng Excel do tính phổ biến của chương trình này. 1. Moving Average Hình VI.1: Trình bày số liệu sử dụng Moving Average trên Excel 10

11. Ô Công thức Ghi chú C5 =AVERAGE(B3:B4) Tương tự cho C6:C26 C28 =SUMXMY2(B5:B26;C5:C26)/COUNT(C5:C26) Tính MSE D7 =AVERAGE(B3:B6) Tương tự cho D8:D26 D27 =SUMXMY2(B7:B26;D7:D26)/COUNT(D7:D26 ) Tính MSE Hoặc có thể dùng công cụ Moving Average theo các bước sau: Tools/Data Analysis Chọn Moving Average trong của sổ Data Analysis và chọn OK Hình VI.2: Cửa sổ Data Analysis Chọn dãy số liệu cần dự báo vào hộp thoại Input Range Chọn vị trí xuất dữ liệu cần dự báo tại hộp thoại Output Range Nếu muốn vẽ đồ thị hoặc tính sai số thì chọn Chart Output hoặc Standard Errors. Chọn số chu kỳ muốn dịch chuyển trong hộp thoại Interval. 11

12. Hình VI.3: Hộp thoại Moving Average Nếu trong đơn lệnh Tools không thấy công cụ Data Analysis, gọi công cụ này bằng cách nhấp lần lượt đơn lệnh Tools và lệnh Add-Ins, sau đó chọn mục Analysis ToolPak rồi nhấp OK. Nều trong đơn lệnh Tools cũng không thấy lệnh Add-Ins, bạn phải chạy chương trình Setup, chọn lệnh Add/Remove … rồi tiếp tục thực hiện các tuỳ chọn trong hộp thoại. 2. Phương pháp bình quân di động có trọng số (Weighted Moving Average) Công thức tính: ntntttt DwDwDwDwF −−−−− ++++= 1322110 … wt: trọng số ở từng thời điểm t, ∑ − = = 1 0 1 n i iw Ô Công thức Ghi chú C4 =$F$2*B3+$F$3*B2 Tương tự cho C5:C25 C27 =SUMXMY2(B4:B25,C4:C25)/COUNT(C4:C25) Tính MSE F5 =SUM(F2:F3) 12

13. Hình VI.4: Số liệu và cách dùng Excel hỗ trợ thông thường cho Weighted Moving Average Hình VI.5: Cửa sổ Solve Parameters 13

14. Hộp thoại Set Target Cell: vị trí hàm mục tiêu ($C$27 thể hiện giá trị MSE) Mục tiêu cần đạt Min Hộp thoại By Changing Cells: các giá trị sẽ thay đổi sao cho đạt mục tiêu trên Hộp thoại Subject to the Contraints: các điều kiện ràng buộc. Hình VI.6: Nhập vào điều kiện ràng buộc Hình VI.7: Chọn lựa báo cáo kết quả Khi thực hiện các bước này, chương trình sẽ tự động tìm ra các trọng số sao cho MSE là nhỏ nhất. 3. Mô hình san bằng số mũ (Exponential Smoothing) Ft = Ft-1 + α(Dt-1 – Ft-1) Ô Công thức Ghi chú C2 =B2 F1 = D1 C3 =C2+$F$3*(B2-C2) Tương tự cho 14

15. C4:C25 C27 =SUMXMY2(B2:B25,C2:C25)/COUNT( C2:C25) Tính MSE Hình VI.8: Số liệu và cách dùng Excel hỗ trợ thông thường cho Exponential Smoothing Dùng công cụ Solve để tìm giá trị α sao cho MSE nhỏ nhất. Hoặc có thể dùng công cụ Exponential Smoothing theo các bước sau: Tools/Data Analysis Chọn Exponential Smoothing trong cửa sổ Data Analysis và chọn OK 15

16. Hình VI.9: Chọn Exponential Smoothing trong Data Analysis Hình VI.10: Cửa sổ Exponential Smoothing 4. Phân tích hồi quy (Regression) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis. Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp nút OK. Trong hộp thoại Data Analysis lần lượt ấn định các chi tiết: * Phạm vi của biến số Y (Input Y Range) * Phạm vi của biến số X (Input X Range) * Nhãn dữ liệu (Labels) * Mức tin cậy (Confidence level) 16

17. * Toạ độ đầu ra (Output Range), * Một số tuỳ chọn khác như đường hồi quy (Line Fit Plots), biểu đồ sai số (Residuals Plots)… Hình VI.11: Cửa sổ Data Analysis Hình VI.12: Cửa sổ Regression SUMMARY OUTPUT Regression Statistics Multiple R 0.984444276 R Square 0.969130533 Adjusted R Square 0.96527185 17

18. Standard Error 20.42132374 Observations 10 ANOVA df SS MS F Signific F Regression 1 104739.6003 104739.6 251.1558 2.5142 Residual 8 3336.243706 417.0305 Total 9 108075.844 Coefficients Standard Error t Stat P-value Lower Intercept 36.34235294 21.98328259 1.653181 0.136894 -14.351 X Variable 1 5.550294118 0.350222813 15.84789 2.51E-07 4.74267 Bảng phân tích sau khi chạy Regression 5. Thể hiện đồ thị đường hồi quy Hình VI.13: Số liệu và đồ thị đường hồi quy 18