^Back To Top

foto1 foto2 foto3 foto4 foto5


Get Adobe Flash player

Data Science là ngành khoa học về thu thập, khai thác và phân tích dữ liệu để tìm ra insight giá trị. Từ đó trực quan hóa insights cho các bên liên quan, chuyển hóa insight thành hành động. Đây là lĩnh vực đa ngành sử dụng các phương pháp và quy trình khoa học nhằm rút ra insight từ dữ liệu. Tại Việt Nam, ngành CNTT cũng đang chứng kiến sự tăng trưởng tiềm năng của khoa học dữ liệu. Ngày càng có nhiều doanh nghiệp quan tâm, nghiên cứu và phát triển khoa học dữ liệu. Trong bài viết này, tìm hiểu về data science, data scientist, vai trò và quy trình hoạt động của data science, ứng dụng của data science.

1. Data science là gì?

Data science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy tính khác nhau. Đây là một lĩnh vực đa ngành kết hợp toán học, thống kê và khoa học máy tính.

Với sự xuất hiện của công nghệ mới các dữ liệu đã tăng lên theo cấp số nhân. Điều này đem đến một cơ hội mới để phân tích cũng như chuyển hóa các insight ý nghĩa từ data. Từ đó, yêu cầu đặt ra cần có một chuyên gia “Data scientist”, người có khả năng dùng các công cụ thống kê và Machine learning.

Một Data scientist (Nhà khoa học dữ liệu) không chỉ dừng ở việc phân tích dữ liệu, mà còn biết sử dụng thuật toán Machine learning để dự đoán tương lai của một sự kiện.

t9 h1

2. Vai trò của Data scientist

Một Data scientist phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc. Dữ liệu phi cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu. Data scientist sẽ nghiên cứu dữ liệu đã được tổ chức và phân tích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê khác nhau. Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra các thông tin giả thuyết từ dữ liệu đó.

Data scientist sử dụng thuật toán Machine learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó. Data scientist triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa trong dữ liệu. Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

Data scientist tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược. Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ công ty đưa ra quyết định kinh doanh thông minh hơn. Ví dụ các công ty công nghệ như Google, Netflix, và Amazon đang sử dụng Data science, để phát triển hệ thống các đề xuất tích cực cho người dùng, các công ty tài chính đang sử dụng các phương pháp phân tích và dự báo để dự đoán giá cổ phiếu.

Data science giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyết định tự trị dựa trên các dữ liệu lịch sử. Thông qua sự đồng hóa với các công nghệ mới như thị giác máy tính, xử lý công nghệ tự nhiên, Reinforcement learning.

3. Quy trình của Data science

 

t9 h2

            Mục tiêu của data science là làm thế nào để các bộ phận tại doanh nghiệp có thể đưa ra các quyết định dựa trên dữ liệu tốt hơn. Vì thế Data science có vai trò hỗ trợ, cho phép tổ chức hoạt động và tăng giá trị nhanh hơn thông qua việc ra quyết định tốt hơn.

Luồng công việc của data science gồm: các cột mốc quan trọng (đám mây), các giai đoạn (đường kẻ đứt nét) và các bước (box). Quy trình bắt đầu từ một vấn đề cụ thể - doanh nghiệp sẽ ưu tiên đưa vấn đề này đến nhóm khoa học dữ liệu và họ sẽ bắt đầu vào quy trình quản lý dự án.

Chu trình data science có 3 giai đoạn:

Preparation (Chuẩn bị). Dữ liệu được thu thập và làm sạch. Giai đoạn này cần một lượng thời gian đáng kể vì hầu hết dữ liệu còn nhiễu, có nghĩa là cần thực hiện các bước để cải thiện chất lượng và chuyển nó thành định dạng mà máy có thể hiểu và đọc.

Experimentation (Thử nghiệm). Đây là nơi các giả thuyết được tạo ra, dữ liệu được trực quan hóa và các mô hình được hình thành. Giai đoạn thử nghiệm mất ít thời gian hơn so với giai đoạn chuẩn bị.

Distribution (Phân phối). Báo cáo kết quả được ghi lại thành tài liệu, trình bày cho quản lý và khi được thông qua, các quyết định sẽ được truyền tải xuống để thay đổi.

Kết thúc quy trình, một Business Value mới cho doanh nghiệp được tạo ra.

4. Ứng dụng của Data science

            Data science được coi là một trong những mảng có tính ảnh hưởng đến sự phát triển của doanh nghiệp và có tính ứng dụng trong thực tế rất cao. Dưới đây là 6 ứng dụng thực tế nhất của data science.

Ứng dụng trong ngành ngân hàng

Data science giúp cho các ngân hàng phân tích các dữ liệu trong Big Data của mình để tìm ra vòng đời giá trị khách hàng, phân tích hành động của các nhóm khách hàng, phân tích chống gian lận,.... Chính những dữ liệu sau khi được phân tích sẽ giúp các ngân hàng có kế hoạch phát triển, và có sức cạnh tranh với các đối thủ khác.

Ứng dụng trong ngành tài chính

Đối với ngành tài chính, data science có vai trò quan trọng giúp các công ty tự động hóa các công việc trong nghiệp vụ tài chính kế toán. Hoặc dựa vào các thông tin cá nhân của khách hàng để phân tích dự đoán nhu cầu của khách hàng trong tương lai, từ đó đưa ra những dịch vụ, sản phẩm phù hợp

Ứng dụng trong ngành sản xuất

Đối với ngành sản xuất, data science giúp cho doanh nghiệp có thể tự động hóa quy trình sản xuất, từ đó cải thiện được khả năng sản xuất ra sản phẩm với chi phí thấp hơn, hiệu suất cao hơn đồng thời tăng doanh thu và lợi nhuận.

            Ứng dụng trong ngành vận tải

            Ứng dụng của data science trong ngành giao thông vận tải là bằng cách phân tích dữ liệu từ bản đồ, đường phố, hành vi người lái, công ty sẽ tạo ra những công nghệ như xe tự lái, tự động cảnh báo nguy hiểm,... Nhiều công ty vận tải như Grab, Goviet,... cũng đang sử dụng data science để điều chỉnh giá cả, nâng cao trải nghiệm khách hàng. Những công cụ dự đoán qua số liệu cực kỳ hiệu quả đã giúp họ nắm bắt thông tin về người truy cập, giá dịch vụ qua đồng hồ đo và mật độ lưu thông trên đường.

            Ứng dụng trong ngành y tế – chăm sóc sức khỏe

            Nhờ sự phát triển của ngành data science mà các nhà khoa học có thể phân loại được những bệnh bẩm sinh do gen quyết định, các phản ứng của cơ thể và gen đối với thuốc chữa bệnh. Cũng nhờ những dữ liệu phân tích được mà họ có thể điều chế ra những loại thuốc mới trong thời gian ngắn, với tỉ lệ thành công cao. Data science cũng hỗ trợ phân tích và chuẩn đoán các bệnh nhờ việc tổng hợp, phân tích dữ liệu của dấu hiệu bệnh.

            Ứng dụng trong ngành thương mại điện tử

            E-commerce là ngành đang có tốc độ phát triển nhanh nhất hiện nay. Data science được sử dụng để tìm ra những khuyết điểm của sản phẩm, dịch vụ, từ đó những người sản xuất sẽ đưa ra giải pháp giúp công ty tiến hành cải tiến chất lượng. Với data science, các doanh nghiệp đưa ra được mức giá phù hợp cho từng phân khúc khách hàng. Trong E-commerce, việc phân tích thị trường, tìm kiếm khách hàng tiềm năng và phân tích khách hàng là vô cùng quan trọng. Lúc này, data science được sử dụng để phân tích và đưa ra những thông tin giá trị, khả thi đối với doanh nghiệp để lên kế hoạch và định hướng kinh doanh.

TÀI LIỆU THAM KHẢO

[1]. Oswald Campesato, Data Science Fundamentals, Mercury Learning and Information, 2021.

[2]. Hadley Wickham, Garrett Grolemund, R for Data Science, 2018.

[3]. Lillian Pierson, Data Science For Dummies, 2Nd Edition.

[4]. Peter Bruce, Practical Statistics for Data Scientists

[5]. https://insight.isb.edu.vn/

[6]. https://topdev.vn/