Hiểu lầm về nghề Data Scientist có thể dẫn đến thất bại cho ứng viên khi mà cứ bất chấp “dấn thân” vào nghề. Trong bài viết này, bạn đọc hãy cùng TopCV khám phá Data Scientst là gì và cơ hội việc làm Data Scientist tại thị trường Việt nhé!
Data Scientist là gì?
Data Scientist đã được bình chọn là công việc hấp dẫn nhất thế kỷ 21 bởi Harvard Business Review vào năm 2018, trong bối cảnh dữ liệu có tầm ảnh hưởng mạnh mẽ đến thị trường thế giới. Dù vậy, lĩnh vực này lại chưa hoàn toàn lớn mạnh như kỳ vọng.
Một lượng lớn người lao động trong ngành công nghệ thông tin (CNTT) nói chung vẫn hiểu sai về công việc của Data Scientist. Điều này dẫn đến thực trạng lao động chưa được hiệu quả. Và bản thân các doanh nghiệp cũng chưa sử dụng tốt nguồn lực của mình.
Vậy, Data Scientist là gì? Trong tiếng Việt, Data Scientist được gọi là Kỹ sư Khoa học Dữ liệu. Họ là người phân tích, sắp xếp, xử lý và mô hình hóa các dữ liệu, sau đó diễn giải kết quả để lập kế hoạch làm việc cho đội nhóm và doanh nghiệp của mình.
Hiểu đơn giản hơn, một Data Scientist sẽ làm việc cùng dữ liệu để cho ra những insight (sự thật được ghi nhận). Họ sẽ dùng insight đó để trình bày với lãnh đạo, quản lý và khách hàng. Qua đó, họ đưa ra ý tưởng tối ưu giúp để thúc đẩy kinh doanh, lợi nhuận cho doanh nghiệp.
Mô tả công việc của Data Scientist
Một Kỹ sư Khoa học Dữ liệu sẽ tạo ra giá trị cho doanh nghiệp nhờ dữ liệu. Data Scientist sẽ thực thi hai nhiệm vụ chính là: Thu thập, xử lý dữ liệu để tìm ra insight và trình bày các insight với các bên liên đới.
Thu thập, xử lý dữ liệu để tìm ra insight
Lấy một ví dụ đơn giản để bạn dễ hiểu nhé! Một Data Scientist tìm kiếm dữ liệu về hành vi của các doanh nghiệp bán đồ ngọt trên mạng xã hội. Người này nhận ra rằng, cứ đến gần các ngày lễ như Valentine, 8/3, 20/10,... tần suất xuất hiện của các thương hiệu đó cao hơn.
Insight này sẽ giúp bộ phận Marketing của công ty đưa ra các chiến dịch quảng cáo tối ưu nhất cho giai đoạn trước mắt. Gia tăng doanh thu, lợi nhuận và đẩy mạnh thương hiệu. Như vậy, hiểu đơn giản công việc của Data Scientist là nghiên cứu dữ liệu để tìm insight.
Trình bày insight cho các bên liên quan
Sau khi tìm ra insight, nhiệm vụ của Data Scientist là trình bày, giải thích lại cho các bên liên đới. Làm sao để kết quả đạt được là chuyển hóa được insight thành hành động cụ thể, đem lại hiệu quả cho công việc kinh doanh.
Ví dụ, khi tìm được insight từ các data thu thập được rồi, Data Scientist sẽ làm báo cáo hoặc thuyết trình để giải thích lại cho các bên liên quan hiểu được. Các bên liên quan bao gồm ban giám đốc, ban lãnh đạo, bộ phận CNTT, bộ phận Marketing, bộ phận Sales,...
Cần giải thích được insight đó là gì, có ý nghĩa gì đối với công việc kinh doanh. Có ứng dụng nào thật cụ thể, đem lại được lợi ích cho doanh nghiệp/sản phẩm/khách hàng hay không. Có giải pháp nào để phát triển công việc kinh doanh của tổ chức từ insight đó không.
Phân biệt Data Scientist nhánh A và B
Có thể thấy định nghĩa về nghề Data Scientist là gì vẫn còn khá mơ hồ. Kể cả trên thế giới thì khái niệm này vẫn khá nhập nhằng. Nên còn phải tùy thuộc vào từng doanh nghiệp, từng đặc trưng ngành nghề mà mô tả công việc, yêu cầu kỹ năng và job title có thể khác nhau.
Ở nhiều doanh nghiệp, Data Scientist chính là Data Analyst, Machine Learning Engineer và Data Engineer. Tính chất công việc của họ gần như tương đồng nhau, chỉ khác một chút về chức năng công việc mà thôi.
Đối với vị trí Data Scientist, tạm chia luồng công việc ra làm hai nhánh là A (Analysis) và B (Building). Trong đó:
- Nhánh A có nhiệm vụ chính là phân tích dữ liệu bằng các phương pháp thống kê để tìm ra insight giá trị. Lúc này, Data Scientist chính là Data Analyst.
- Nhánh B có nhiệm vụ chính là xử lý, lưu trữ dữ liệu, viết code cho các sản phẩm dữ liệu của công ty. Lúc này, Data Scientist chính là một Software Engineer, mạnh về công nghệ phần mềm hơn. Và họ sẽ làm công việc phát triển tính năng cho các sản phẩm của công ty, hoặc làm hẳn sản phẩm mới (ứng dụng di động, phần mềm,...) dựa trên data thu được. Đảm bảo rằng cốt lõi của sản phẩm luôn là model (mô hình dữ liệu) được phát triển bằng machine learning (học máy).
Nhìn chung thì nghề Data Scientist thiên về nhánh B nhiều hơn vì được tách biệt hẳn so với nghề phân tích dữ liệu Data Analyst. Nghiệp vụ của Kỹ sư Khoa học Dữ liệu cũng cũng yêu cầu nhiều về mảng công nghệ thông tin hơn.
Workflow của Data Scientist là gì?
Từ lúc nhận nhiệm vụ để thu thập, xử lý dữ liệu cho đến khi cho ra được một insight giá trị, Data Scientist cần thực hiện công việc qua 6 bước:
Bước 1: Nhận input
Workflow của một Data Scientist bắt đầu với một nhiệm vụ hoặc yêu cầu. Ví dụ: Yêu cầu đặt ra là khả năng tìm kiếm bằng hình ảnh trên Google, tải một bức ảnh lên máy, kết quả sẽ trả về những bức ảnh có nội dung tương tự.
Yêu cầu này có thể do bộ phận lãnh đạo, kinh doanh, marketing,... đưa ra sau khi đã thu thập phản hồi từ khách hàng. Họ yêu cầu phải có thêm tính năng tìm kiếm bằng hình ảnh trên sản phẩm ứng dụng của công ty chẳng hạn.
Hoặc yêu cầu này xuất phát từ chính Data Scientist trong khi làm việc với dữ liệu, nghiên cứu sản phẩm của công ty. Do chính người ngày nảy ra sáng kiến phát triển thêm tính năng tìm kiếm bằng hình ảnh trên sản phẩm của công ty mình.
Bước 2: Lên kế hoạch
Sau khi nhận được yêu cầu, Data Scientist sẽ làm việc với các bên liên đới để làm rõ các thông tin như:
- Tính năng được đề xuất có khả thi không?
- Tính năng đó sẽ xuất hiện ở đâu trên sản phẩm?
- Tính năng đó giúp ích được gì cho người dùng?
- Để phát triển tính năng đó cần có dữ liệu gì? Tìm dữ liệu ở đâu? Lượng dữ liệu bao nhiêu là đủ? Làm sao để lấy dữ liệu về?
- Để thu thập dữ liệu, cần bao nhiêu resources, cần bao nhiêu nhân lực và thời gian?
Bước 3: Thu thập và làm sạch dữ liệu
Vẫn tiếp nối ví dụ trên, trong quá trình thu thập dữ liệu, những hình ảnh trả về chưa đạt yêu cầu, như là bị mờ, hình không đúng nội dung,... thì Data Scientist sẽ loại bỏ chúng. Gom hết các dữ liệu lại cho gọn gàng, loại bỏ rác. Nếu thiếu dữ liệu thì tiếp tục kiếm thêm.
Sau đó là đồng bộ hóa dữ liệu. Đưa hết tất cả hình ảnh về cùng một kích thước, cùng một định dạng hoặc tùy theo mô hình đã chọn. Hình ảnh chưa gán nhãn thì gán thêm nhãn. Tất cả các bước này giúp cho dữ liệu thu về cuối cùng được gọn ghẽ và dễ sử dụng nhất.
Bước 4: Chọn giải pháp
Trong trường hợp yêu cầu đưa ra đã có sẵn giải pháp, Data Scientist sẽ lựa chọn hoặc kết hợp các giải pháp lại với nhau. Ví dụ chọn thuật toán nào đó, chạy thử nghiệm, kiểm tra xem thử nghiệm nào cho ra kết quả tốt nhất thì chọn thuật toán đó để phát triển thêm.
Còn nếu yêu cầu chưa có giải pháp thì Data Scientist sẽ research để tìm ra giải pháp. Tìm hiểu xem đã có ai làm yêu cầu này chưa. Giải pháp họ đưa ra là gì, có khả thi không. Liệu có giải pháp nào tốt hơn không. Cuối cùng chọn ra một hoặc vài phương pháp để thử nghiệm.
Bước 5: Machine learning (học máy)
Công việc tiếp theo trong workflow của Data Scientist là gì? Tiếp theo mới là bước dành thời gian cho machine learning. Tùy theo model, công cụ và resource sẵn có trong hệ thống công ty,... Data Scientist sẽ cho model chạy qua chương trình, điều chỉnh để kiểm soát đầu ra.
Khi chạy thử một model, Data Scientist như sở hữu một bảng điều khiển với nhiều nút bấm. Chỉnh nút này một chút, chỉnh nút kia một chút, thấy kết quả tốt hơn thì giữ lại, rồi lại chỉnh tiếp cho đến khi cho ra được kết quả tốt nhất.
Ví dụ với chính yêu cầu tìm kiếm bằng hình ảnh như trên. Data Scientist sẽ điều chỉnh để máy tập trung vào các dấu hiệu quan trọng hơn trong một bức ảnh. Đảm bảo rằng máy sẽ luôn ưu tiên các dấu hiệu đó để nhận diện đúng nội dung hơn mỗi khi nhận được một bức ảnh mới.
Bước 6: Output
Bước cuối cùng trong workflow của Data Scientist chính là đưa ra output. Output của một Kỹ sư Khoa học Dữ liệu chính là một model như đã giới thiệu ở trên. Model này sẽ được gắn vào sản phẩm của doanh nghiệp.
Nếu model đó là một giải pháp mới, thì Data Scientist cần viết báo cáo hoặc tổ chức hội thảo để công bố kết quả nghiên cứu. Tuy nhiên, thường chỉ có các công ty lớn như Google, Meta mới có bộ phận riêng để nghiên cứu dữ liệu.
Với các công ty nhỏ hơn, nhiệm vụ của Data Scientist chủ yếu là chọn ra và hiệu chỉnh model sẵn có, nhằm cải thiện hiệu suất. Vì nhiều khi mô hình tốt, chính xác, nhưng chạy lại quá chậm và tốn tài nguyên thì cũng không đưa vào sử dụng được.
Tố chất và kỹ năng cần có để trở thành Data Scientist
Nghề Data Scientist đòi hỏi rất nhiều kiến thức và kỹ năng tổng hợp trong lĩnh vực CNTT, gồm có machine learning, database, programming languages và visualization. Bên cạnh đó là kiến thức toán học, khả năng lập trình phần mềm và sự nhạy bén với dữ liệu phải tốt.
Không những vậy, Data Scientist còn cần có những tố chất cần thiết là sự kiên nhẫn, kỹ năng giao tiếp tốt và luôn thích khám phá, tìm hiểu và thử nghiệm cái mới. Do dữ liệu sẽ luôn cập nhật liên tục nên Data Scientist cần có đủ sức bền để luôn theo kịp sự đổi mới.
Tình trạng tuyển dụng Data Scientist tại Việt Nam
Những năm gần đây, ngành CNTT của Việt Nam đã đạt được tăng trưởng hấp dẫn trong lĩnh vực khoa học dữ liệu. Ngày càng có nhiều tổ chức sẵn sàng chi tiền cho hoạt động nghiên cứu. Như vậy, rõ ràng đây là một ngành nghề “hot”, rất đáng được thử nghiệm.
Đặc biệt là ở các thành phố lớn, vị trí Data Scientist fresher HCM, Hà Nội, Đà Nẵng,... đang tuyển dụng rất nhiều. Nếu chưa có kinh nghiệm thì bạn hoàn toàn có thể bắt đầu từ vị trí này để học lên dần dần.
Để có được nền tảng kiến thức vững chắc trước khi bước vào nghề này, bạn cần học tốt về machine learning, data mining, database, ngôn ngữ lập trình, JavaScript, system,... Và đừng quên tích lũy kiến thức từ việc làm thực tiễn để có kinh nghiệm thiết thực hơn.
Nếu như bạn yêu thích làm việc với dữ liệu mỗi ngày, có thể đọc tài liệu khoa học liên tục mà không mỏi mệt, và đặc biệt thích machine learning thì hãy theo đuổi nghề Data Scientist nhé! Bài viết trên đây đã giải đáp cặn kẽ giúp bạn Data Scientist là gì cùng cơ hội nghề nghiệp rộng mở.
>>> Tham khảo thêm:
Tìm việc làm Data Scientist tại Hồ Chí Minh, tuyển dụng Data Scientist tại Hồ Chí Minh | TOPCV
Tìm việc làm Data Scientist tại Hà Nội, tuyển dụng Data Scientist tại Hà Nội | TOPCV
Hãy bắt đầu công việc của mình ngay bằng cách truy cập vào chuyên trang tuyển dụng TopCV, gõ từ khóa Data Scientist và thử thách bản thân với những việc làm mới nhất trên toàn quốc nhé! Và đừng quên tận dụng tiện ích tạo CV theo ngành nghề ngay trên website này để tạo được ấn tượng tốt nhất với các nhà tuyển dụng.