PHÂN TÍCH DỮ LIỆU VỚI R

Tôi siêu hân hạnh giới thiệu đến chúng ta một cuốn sách mới tất cả tựa đề là “Mô hình hồi qui và tò mò khoa học” (có thể dịch sang trọng tiếng Anh là “Regression models for discoveries“) do Nhà xuất phiên bản TPHCM mới xuất bản. Tôi tin rằng các bạn sinh viên, nghiên cứu sinh, nhà nghiên cứu và phân tích khoa học sẽ tìm thấy sinh sống cuốn sách một trong những ý tưởng với phương pháp bổ ích cho vấn đề làm đa dạng mẫu mã và nâng cao chất lượng phân tích của những bạn.

Bạn đang xem: Phân tích dữ liệu với r

*

Đa số rất nhiều ai làm nghiên cứu và phân tích khoa học tập cũng đều biết đến hay nghe qua mô hình hồi qui đường tính. Đó là một quy mô rất thông dụng trong phân tích khoa học, và ý tưởng bắt nguồn từ rứa kỉ 19 lúc nhà kỹ thuật trứ danh Francis Galton ý muốn định lượng mối tương quan giữa độ cao và nhân tố di truyền. Tính từ lúc đó mang đến nay, quy mô hồi qui đường tính đang được phát triển và ứng dụng trong vô số chuyên ngành khoa học. Trong cuốn sách này, các bạn đọc không chỉ học về mô hình hồi qui tuyến đường tính, mà còn khiến cho quen với những quy mô hồi qui không nhiều được đề cập trong số sách giáo khoa căn bản như quy mô hồi qui logistic, hồi qui Cox, hồi qui nhị phân, hồi qui Poisson, v.v. Mỗi quy mô hồi qui thích hợp cho một tình huống cụ thể, cùng biết qua những ý tưởng phát minh đằng sau của mỗi quy mô giúp cho vấn đề định lượng hoá những thắc mắc nghiên cứu giỏi hơn.

Trong thời hạn gần đây, hầu như thuật ngữ bắt đầu như ‘data science‘ (khoa học tập dữ liệu), ‘machine learning‘ (máy hoá mô hình), ‘artificial intelligence‘ (trí năng nhân tạo), v.v. Mở ra ngày càng um tùm trong quả đât khoa học. Nhưng ít ai biết giỏi ghi nhấn rằng một phần lớn đằng sau các danh từ ‘hào nhoáng’ sẽ là các mô hình hồi qui, lí thuyết và cách thức thống kê học. Mặc dù nhiên, những cách tiếp cận vừa kể tạo nên ứng dụng của các mô hình hồi qui thêm phong phú. Vào sách này, một số quy mô hồi qui cũng được triển khai theo tế bào thức của machine learning, và độc giả sẽ đọc hơn về các khái niệm như calibration với discrimination.

Cuốn sách bao gồm 23 chương được phân thành 3 phần. Phần 1 bao hàm những sự việc cơ bản như qui luật pháp xác suất, hiển thị dữ liệu (data visualization), kiểm định giả thuyết và ngôn ngữ R. Phần 2 bao hàm 11 chương liên quan đến mô hình hồi qui tuyến đường tính, trường đoản cú ý tưởng, cách ước tính cho các mô hình hồi qui nhiều thức với hồi qui ‘robust’. Phần 3 là rất nhiều chương viết về các mô hình hồi qui logistic, Cox, Poission, cùng phân tích sinh sống còn. Mỗi mô hình được minh hoạ bởi một dữ liệu phân tích thực tế cùng những mã máy tính xách tay (dùng ngôn ngữ R) để bạn đọc rất có thể thực hành ngay. 1 phần quan trọng trong mỗi chương là hướng dẫn cách diễn giải kết quả phân tích để độc giả cảm dấn được chân thành và ý nghĩa đằng sau của từng phương pháp.

Tôi vẫn chấp nhận cho rằng mô hình là một cách suy nghĩ (mà có fan gọi là ‘tư duy’) cùng đặt câu hỏi. Đó là những suy nghĩ về kiểm nghiệm giả thuyết, về lượng giá những mối tương quan, cùng về dự báo tương lai. Ở cấp độ định tính, chúng ta có thể suy nghĩ về thắc mắc có hay không có côn trùng liên quan. Ở cường độ định lượng, chúng ta quan tâm tới mức độ liên quan là bao nhiêu. Ở mức độ nâng cao hơn, chúng ta hỏi nấc độ liên quan có chủ quyền với những yếu tố không giống trong qui luật pháp tự nhiên. Các mô hình trình bày trong cuốn sách này giúp cho chính mình đọc suy xét và đặt thắc mắc chuyên sâu rộng cách lưu ý đến đơn giản.

Xem thêm:

Tiêu đề của cuốn sách là xét nghiệm phá, với tôi nghĩ cần phải có đôi lời giải thích. Tìm hiểu là niềm hoan hỉ của tín đồ làm khoa học. Test tưởng tượng sau khá nhiều năm mài miệt nghiên cứu, bạn tạo nên được một bộ dữ liệu với mặt hàng triệu biến đổi thể gen, và phát hiện nay được biến chuyển thể như thế nào có tương quan đến tuổi thọ nên nói là một khám phá có ý nghĩa. Để đi đến phát hiện tại đó, các mô hình hồi qui đang giúp cho mình sàng lọc những bộc lộ từ tài liệu lớn. Các mô hình hồi qui không chỉ là một phương tiện đi lại khám phá, ngoại giả một cách thức dự báo khôn cùng hữu hiệu. Vị đó, đọc được các ý tưởng, và nắm vững những kỹ năng liên quan lại đến quy mô hồi qui là một trong nhu cầu luôn luôn phải có được trong phân tích khoa học.

Tôi nghiệm ra rằng bí quyết học cách thức mới giỏi nhứt là học từ những vấn đề thực tế qua đa số câu chuyện. Bởi vì đó, cuốn sách này được biên soạn thảo theo phong cách kể chuyện. Những mẩu truyện được kể trong sách bao hàm câu chuyện về sự ra đời của ý tưởng tương quan tiền (correlation) và quy mô hồi qui con đường tính, những mẩu truyện đằng sau những công trình nghiên cứu thú vị mà các mô hình hồi qui góp giải đáp.

Đây là 1 trong cuốn sách tôi đã có ý soạn từ bỏ lâu, bởi vì qua hàng nghìn chương trình tập huấn ở việt nam trong thời hạn 20 năm vừa qua tôi nhận thấy nhu cầu cho một cuốn sách thể nhiều loại này. Cơ mà mãi đến lúc đại dịch Covid-19 xảy ra, với tôi phải thao tác từ nhà, nên mới có thời hạn viết cuốn sách. Nhân ngày này tôi trân trọng cảm ơn ts Trần đánh Thạch (Viện nghiên cứu Garvan, Úc) và tiến sỹ Hà Tấn Đức (Bệnh viện Đa khoa tw Cần Thơ) đã hỗ trợ tôi tiến hành các chương trình tập huấn trong thời gian qua. Ts Thạch vẫn đọc bản thảo thứ nhất và cho nhiều góp ý để đổi mới cuốn sách. Tôi cũng cảm ơn biên tập viên La Lan (Nhà xuất phiên bản Tổng Hợp) đã siêng năng đọc, kiểm soát từng phương pháp và dàn trang mang lại cuốn sách. Mặc dù nhiên, giả dụ sách tất cả sai sót, với tôi nghĩ chắc chắn rằng có, thì trách nhiệm sau cuối là của tôi. Trường hợp tìm thấy không nên sót, chúng ta đọc có thể viết email cho tôi nhằm lần sau tái bản hoàn chỉnh hơn. Xin tình thực cám ơn các bạn trước.

Mỗi cuốn sách hoàn toàn có thể ví von như là 1 người bạn thầm lặng. Tôi ước muốn cuốn sách “Mô hình hồi qui và mày mò khoa học” là 1 trong những người chúng ta khoa học lặng lẽ bên cạnh chúng ta và các nghiên cứu của các bạn, hay nói theo Tiên điền tiên sinh, là mua vui cũng được một vài ba trống canh.