Điều này có nghĩa gì đối với những người cố gắng để tham gia lĩnh vực
Bởi vậy, nếu tôi là một người trẻ tìm cách gia nhập vào khoa học dữ liệu thì những mô tả này sẽ hữu ích đối với tôi như thế nào? Điều này có thể rằng, bạn có thể đào tạo và phát triển một thế mạnh, cái mà sẽ dẫn bạn đến với vai trò của nhà nghiên cứu, nhà phát triển, hoặc nhà sáng tạo. Thường thì hiếm khi chỉ riêng giáo dục sẽ đưa bạn trở thành nhà kinh doanh dữ liệu, điều này hàm ý phải có kinh nghiệm trong kinh doanh, chứ không phải chỉ giáo dục. Nhưng đây là điều thú vị. Theo Harris, Murphy và Vaisman, nó không phải là những kỹ năng khác nhau, mà là cách chúng ta lựa chọn để nhấn mạnh chúng trong cách tiếp cận của chúng ta về các vấn đề khoa học dữ liệu. Biểu đồ của họ như bên dưới.Các kỹ năng đều giống nhau nhưng sự nhấn mạnh chúng ta đặt trên chúng khác nhau. Có lẽ cách tốt hơn để diễn tả điều này là bạn thích trải qua một ngày của mình như thế nào? Lập trình (programming), làm việc trong học máy (machine learning) (thống kê), phân tích và giải quyết các câu hỏi kinh doanh? Câu trả lời của bạn khi mới bước vào khóa học có thể khác với câu trả lời khi bạn đã tham gia khóa học được vài năm, và điều đó là bình thường. Tuy nhiên, bạn biết rằng nếu bây giờ bạn nhận mình là một nhà nghiên cứu dữ liệu thì bạn cần phải tập trung vào các kỹ năng thống kê. Nếu bạn xác định như là một nhà sáng tạo dữ liệu hoặc nhà phát triển dữ liệu thì lập trình và ML/Big Data là một sự nhấn mạnh thích hợp. Và khi bạn có được kinh nghiệm và hiểu rằng mình hạnh phúc hơn khi là một thành viên trong nhóm hay một nhà lãnh đạo doanh nghiệp, bạn có thể thay đổi quan điểm của bạn đối với khả năng sinh lời của dự án và giải pháp cho các vấn đề kinh doanh.
Ở đâu, dữ liệu lớn phù hợp trong tất cả điều này?
Cá nhân tôi yêu Dữ liệu lớn. Nhưng tôi thực sự yêu thích nó vì nó đưa đến những phân tích dự báo. Nếu bạn vẽ một giản đồ Venn của dữ liệu lớn và những phân tích dự báo thì sẽ có một sự trùng lặp lớn nhưng không hoàn toàn. Có những lĩnh vực của dữ liệu lớn thuần túy có tính thao tác và không thuộc phạm vi khoa học dữ liệu. Lấy ví dụ như việc sử dụng các cơ sở dữ liệu NoSQL như các cơ sở dữ liệu hoạt động cấp nguồn cho những trò chơi trực tuyến dành cho rất nhiều người chơi. Không có phân tích gì ở đây. Chỉ vậy là xong. Tương tự như vậy có rất nhiều phạm vi trong phân tích dự báo không dính dáng gì đến dữ liệu.
Tuy nhiên, không có lý do gì mà chúng ta không nên tìm hiểu về dữ liệu lớn trên con đường trở thành nhà khoa học dữ liệu của chúng ta. Chỉ không mong đợi để thấy nó quá nhiều trong đời sống công việc của bạn, trừ khi bạn đang tham gia sâu vào việc sử dụng những trang web lớn giống như Amazon hay Facebook.
Một lần nữa, nhờ Harris, Murphy, và Vaisman chúng ta có thể thấy được các nhà khoa học dữ liệu ngày nay làm việc ở cấp đệ Petabyte (PB) và Terabyte (TB) thường xuyên như thế nào.
Câu trả lời không hề rất thường xuyên tí nào. Cơ sở dữ liệu NoSQL như Mongo đang đạt được sức hút như cách để pha trộn dữ liệu giao dịch và dữ liệu không có cấu trúc và có thể là tương lai. Nhưng thẳng thắn mà nói, về mặt dung lượng, các nhà khoa học dữ liệu thường được làm việc ở quy mô dữ liệu bình thường, chứ không phải dữ liệu lớn.Những công cụ và ngôn ngữ quan trọng
Tài liệu thứ hai mà tôi bất ngờ đọc là blog của Robert A. Muenchen, “The Popularity of Data Analysis Software” (Sự phổ biến của Phần mềm phân tích dữ liệu). Bài này có thể tìm thấy tại r4stats.com và là một bài nữa phải đọc. Cái khác biệt giữa bài viết này so với các bài báo so sánh khác là những phân tích rộng và sâu. Muenchen sử dụng 13 loại phân tích riêng biệt để đánh giá thị phần và mức độ phổ biến và mức tín nhiệm của mình, không cố gắng để làm tương thích các kết quả mà có thể là khá khác nhau tùy theo nguồn. Như ông nói, đây là dnah sách các thước đo “gần đúng theo thứ tự hữu ích”.
1/ Những mẫu tuyển dụng (Job Advertisements)
2/ Những bài báo học thuật (Scholarly Articles)
3/ Những cuốn sách (Books)
4/ Sự phổ biến website (Website Popularity
5/ Các blog (Blogs)
6/ Các cuộc điều tra sử dụng (Surveys of Use)
7/ Hoạt động diễn đàn thảo luận (Discussion Forum Acitivity)
8/ Hoạt động lập trình (Programming Activity)
9/ Các thước đo phổ biến (Popularity Measures)
10/ Các báo cáo doanh nghiệp nghiên cứu công nghệ thông tin (IT Research Firm Reports)
11/ Doanh thu và thước đo tải về (Sales or Download Measures)
12/ Sử dụng cạnh tranh (Competition Use)
13/ Tăng trưởng quy mô (Growth in Capability).
Nếu bạn đã là một học viên trong một thời gian thì hộp công cụ của bạn có lẽ đã được xác định khá tốt. Trường hợp này là thực sự hữu ích trong việc trả lời các câu hỏi của những người mới gia nhập vào lĩnh vực khoa học dữ liệu rằng “những gì tôi nên học cho hữu ích?”Điều này sẽ không can ngăn bạn sử dụng SPSS, SAS, R, hay Python nhưng nó sẽ cho bạn thấy một số xu hướng thú vị. Một lần nữa, bạn sẽ phải đọc blog vì nó quá phong phú về nội dung và nó để cho người đọc đánh giá những kết quả mà đôi khi có vẻ mâu thuẫn. Tuy nhiên, nếu tôi đã cố gắng để trả lời câu hỏi “cái gì tôi nên học” tôi sẽ xem xét ít nhất hai đồ thị những từ blog của Muenchen.
Kể từ khi nhận một công việc, trước khi bạn quan tâm đến việc đầu tư cho giáo dục thì bạn nên nhìn vào toàn bộ danh sách công việc đòi hỏi những kỹ năng phần mềm phân tích cụ thể như là một thứ để mở rộng tầm mắt.
Tương tự như vậy, biểu đồ này dựa trên cuộc điều tra sử dụng dữ liệu đưa ra một cái nhìn rất sâu về những gì các nhà khoa học dữ liệu đang sử dụng ngày nay.Tôi sẽ không cố gắng để trả lời câu hỏi, “tôi nên học cái gì” hay khác hơn là nói rõ Java, R hay Python, SAS hay SPSS? Thành thật mà nói, nhiều khả năng là những gì giáo sư của bạn muốn bạn sử dụng thường là để chứng tỏ một nhà khoa bảng xử lý một phần mềm sẵn có của người bán nó như thế nào.
R hay Python? Tôi không đụng chạm đến vấn đề này ngoại trừ một điều để nói rằng có một biểu đồ thú vị ngụ ý rằng Python đang tăng tốc trước R.
Nếu bạn đang tìm kiếm câu trả lời cho câu hỏi làm thế nào để trở thành một nhà khoa học dữ liệu và những gì bạn nên học, suy nghĩ về điều này như thách thức đầu tiên của bạn. Nghiên cứu tài liệu gốc và rút ra kết luận của riêng bạn. Tôi thấy hạnh phúc khi những tác giả này đã cùng đưa các tài liệu này và hi vọng chúng tiếp tục được cập nhật trong tương lai.
Người dịch: Nguyễn Minh Cao Hoàng
Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.