Nội dung bài viết
Trong bối cảnh chuyển đổi số diễn ra mạnh mẽ trên mọi lĩnh vực, việc khai thác hiệu quả tiềm năng của dữ liệu trở thành yếu tố then chốt. Nhận thức được điều này, nhiều địa phương và tổ chức giáo dục tại Việt Nam đã và đang xây dựng các kho dữ liệu số dùng chung, tạo nền tảng vững chắc cho quá trình quản lý, điều hành, báo cáo và ra quyết định dựa trên dữ liệu. Vậy, kho dữ liệu số dùng chung là gì và tại sao nó lại đóng vai trò quan trọng đến vậy? Bài viết này, được tham khảo và biên soạn bởi đội ngũ chuyên gia tại merakicenter.edu.vn, sẽ cung cấp một cái nhìn toàn diện về vấn đề này, đồng thời chia sẻ kinh nghiệm từ thực tế triển khai tại Đà Nẵng – một trong những địa phương tiên phong trong lĩnh vực này.
1. Thực trạng và Sự Cần Thiết Của Kho Dữ Liệu Số Dùng Chung
Chuyển đổi số trong giáo dục, cũng như trong mọi ngành nghề khác, không thể tách rời khỏi dữ liệu. Ứng dụng công nghệ thông tin (CNTT) trong giáo dục đã tạo ra một lượng lớn dữ liệu, tuy nhiên, chúng thường tồn tại phân tán, thiếu tính hệ thống và đồng bộ. Điều này gây khó khăn cho việc khai thác, phân tích và sử dụng dữ liệu một cách hiệu quả, ảnh hưởng đến quá trình ra quyết định và nâng cao chất lượng giáo dục.
Tại Đà Nẵng, trước khi triển khai kho dữ liệu dùng chung, các cơ sở dữ liệu (CSDL) hiện có tồn tại rải rác, không đầy đủ, chưa đảm bảo chất lượng và tính duy nhất, không được chia sẻ để sử dụng chung cho toàn thành phố. Để giải quyết vấn đề này, đồng thời đảm bảo việc thu thập, quản lý và sử dụng dữ liệu số một cách quy củ, thành phố đã xây dựng kho dữ liệu dùng chung. Đây được xem là một bước đi chiến lược nhằm tạo ra một nền tảng dữ liệu tập trung, thống nhất, có khả năng kết nối và chia sẻ dữ liệu giữa các cơ quan, tổ chức trong thành phố.

Theo các chuyên gia tại merakicenter.edu.vn, việc xây dựng kho dữ liệu số dùng chung là một xu hướng tất yếu trong quá trình chuyển đổi số. Nó không chỉ giúp giải quyết các vấn đề về dữ liệu phân tán, thiếu đồng bộ mà còn tạo ra những giá trị mới, thúc đẩy sự phát triển của các dịch vụ số và hệ sinh thái dữ liệu mở.
2. Xây Dựng Kho Dữ Liệu Số Dùng Chung: Kinh Nghiệm Từ Đà Nẵng
Từ năm 2020, Đà Nẵng đã tiến hành nghiên cứu và xây dựng nền tảng kho dữ liệu dùng chung, với mục tiêu tạo ra một hệ thống tổng quát, linh hoạt, có khả năng thu thập, hợp nhất dữ liệu từ nhiều nguồn khác nhau. Nền tảng này không chỉ hỗ trợ làm sạch, chuẩn hóa dữ liệu để phân tích, xử lý dữ liệu lớn, ra quyết định dựa trên dữ liệu mà còn đóng vai trò là đầu mối duy nhất chia sẻ dữ liệu cho các cơ quan, tổ chức khác khai thác, sử dụng, cung cấp dữ liệu mở cho người dân và doanh nghiệp.

Kết quả đạt được:
- Tích hợp dữ liệu: Kho dữ liệu dùng chung đã tích hợp 9 nguồn dữ liệu quan trọng, bao gồm CSDL công dân, nhân hộ khẩu, doanh nghiệp, bảo hiểm xã hội, cấp phép xây dựng, cấp phép lái xe, du lịch, đất đai và môi trường. Tổng cộng, hệ thống này chứa 112 bảng dữ liệu, 1.149 trường dữ liệu và 7.669.915 bản ghi.
- Chuẩn hóa dữ liệu: Đà Nẵng đã xây dựng 58 chuẩn và 252 quy tắc dữ liệu, đảm bảo tính nhất quán và chính xác của dữ liệu. Ví dụ, CMND/CCCD chỉ có 9 số hoặc 12 số; mã quốc gia theo TCVN 7217-1: 2007; mã đơn vị hành chính theo quy chuẩn 124/2004/QĐ-TTg.
- Làm sạch dữ liệu: Thông qua bộ lọc dữ liệu, thành phố đã phát hiện khoảng 10% bản ghi không đáp ứng quy tắc dữ liệu. Sở Thông tin và Truyền thông đã phối hợp với các cơ quan chủ quản nguồn dữ liệu để làm sạch dữ liệu và đưa vào kho dữ liệu chuẩn hóa.
- Khai thác và sử dụng dữ liệu: Trên cơ sở kho dữ liệu được làm sạch, chuẩn hóa, các cơ quan, địa phương đã tích cực khai thác, sử dụng để cung cấp dịch vụ số, tạo ra giá trị mới. Ví dụ, thành phố đã triển khai thí điểm sử dụng dữ liệu điện tử (CSDL đất đai, CSDL nhân hộ khẩu, CSDL doanh nghiệp) để thay thế thành phần hồ sơ thủ tục hành chính phải nộp tại hầu hết các sở, ngành có liên quan và UBND cấp quận, phường.
- Phân tích và hỗ trợ ra quyết định: Kho dữ liệu đã hỗ trợ phân tích dữ liệu kinh tế – xã hội phục vụ công tác chỉ đạo, điều hành, ra quyết định của lãnh đạo thành phố, đặc biệt là trong phòng, chống dịch COVID-19.
- Cung cấp dữ liệu mở: Đà Nẵng đã mở dữ liệu của cơ quan nhà nước, cung cấp gần 600 dữ liệu mở cho người dân, doanh nghiệp khai thác thông qua API, SMS, Zalo, web.
Theo đánh giá của merakicenter.edu.vn, kinh nghiệm xây dựng kho dữ liệu số dùng chung của Đà Nẵng là một bài học quý giá cho các địa phương và tổ chức khác trong cả nước. Nó cho thấy sự cần thiết của việc có một chiến lược rõ ràng, sự phối hợp chặt chẽ giữa các bên liên quan và việc áp dụng các công nghệ phù hợp.
3. Giải Pháp Kỹ Thuật Và Công Nghệ
Để xây dựng một kho dữ liệu số dùng chung hiệu quả, cần có một giải pháp kỹ thuật và công nghệ phù hợp. Đà Nẵng đã xây dựng nền tảng kho dữ liệu dùng chung dựa trên kiến trúc micro-service, kiến trúc hướng dịch vụ (SOA), có tính mô-đun hóa (modularity) đảm bảo khả năng phân tách thành các phân hệ để thuận lợi trong quản lý kiến trúc hệ thống; dựa trên các tiêu chuẩn mở (Open standards) hỗ trợ đơn giản hóa việc tích hợp với các nền tảng và hệ thống khác; có khả năng chịu lỗi (Fault-tolerance), có khả năng mở rộng mà không phải thay đổi kiến trúc hệ thống; đảm bảo hiệu năng cao với cơ chế hoạt động song song, đa luồng trong môi trường phân tán, truy xuất dữ liệu nhanh khi dữ liệu ngày càng lớn theo thời gian, đảm bảo số lượng giao dịch nhiều người cùng lúc.

Các thành phần chính của nền tảng kho dữ liệu dùng chung:
- ETL (Extract-Transform-Load): Công cụ ETL tự phát triển, đảm bảo khả năng xử lý đa dạng các loại dữ liệu.
- Data Lineage: Lập hồ sơ về nguồn dữ liệu được thu nhận và ánh xạ từ dữ liệu nguồn đến dữ liệu trong hệ thống.
- Data Governance: Quản lý các luồng thu nhận dữ liệu cũng như dữ liệu đã được thu nhận vào hệ thống.
- Data Firewall: Áp dụng các quy tắc kiểm tra tính hợp chuẩn của dữ liệu.
- Data Flow Designer: Định nghĩa luồng thu nhận dữ liệu, cho phép người dùng lựa chọn nguồn dữ liệu, đích đến của dữ liệu khi thu nhận vào hệ thống, xây dựng các biểu thức chuyển đổi ánh xạ dữ liệu đầu vào, thiết lập các tiêu chí đánh giá khả năng trùng lặp dữ liệu.
- Data Flow Executor: Thực thi luồng thu nhận dữ liệu: hợp nhất dữ liệu, kiểm tra tính trùng lặp dữ liệu, kiểm tra tính bảo toàn tham chiếu dữ liệu trước khi lưu vào hệ thống.
Bên cạnh đó, việc đảm bảo tính bảo mật và quyền riêng tư của dữ liệu cũng là một yếu tố quan trọng. Hệ thống cần có các biện pháp bảo mật như mã hóa dữ liệu, kiểm soát truy cập, giám sát hoạt động và tuân thủ các quy định về bảo vệ dữ liệu cá nhân.
4. Bài Học Kinh Nghiệm Và Khuyến Nghị
Từ kinh nghiệm thực tế và phân tích của merakicenter.edu.vn, có một số bài học kinh nghiệm và khuyến nghị quan trọng trong việc xây dựng và triển khai kho dữ liệu số dùng chung:
- Thống nhất về nguyên tắc và quan điểm chỉ đạo: Dữ liệu được tạo ra trong quá trình hoạt động của cơ quan nhà nước là tài sản thuộc sở hữu của nhà nước, không phải của riêng cơ quan/cá nhân nào. Do đó, dữ liệu phải được chia sẻ, sử dụng chung giữa các cơ quan nhà nước.
- Xây dựng kiến trúc dữ liệu: Kiến trúc dữ liệu là kim chỉ nam cho việc xây dựng, tạo lập, kết nối, chia sẻ và khai thác dữ liệu. Kiến trúc dữ liệu cần đảm bảo phù hợp với kiến trúc dữ liệu quốc gia và kiến trúc dữ liệu của các bộ, ngành, địa phương.
- Ban hành quy chế chia sẻ dữ liệu: Quy chế chia sẻ dữ liệu là cơ sở pháp lý quan trọng để điều chỉnh các hoạt động liên quan đến chia sẻ và sử dụng dữ liệu.
- Xây dựng kho dữ liệu dùng chung theo từng giai đoạn: Việc xây dựng kho dữ liệu dùng chung nên được thực hiện theo từng giai đoạn, bắt đầu từ những nguồn dữ liệu quan trọng và có tính khả thi cao.
- Đảm bảo tính đầy đủ, chất lượng và duy nhất của dữ liệu: Các ứng dụng mới cần có hợp phần tạo, cập nhật dữ liệu số, kết nối và chia sẻ dữ liệu về kho dữ liệu dùng chung.
- Lấy người dùng làm trung tâm: Thường xuyên rà soát, đánh giá chất lượng dữ liệu và tình hình sử dụng, tái cấu trúc quy trình để sử dụng hiệu quả hoặc kế thừa dữ liệu số.
Kết luận
Kho dữ liệu số dùng chung đóng vai trò then chốt trong quá trình chuyển đổi số giáo dục, tạo điều kiện cho việc quản lý, điều hành và ra quyết định dựa trên dữ liệu. Kinh nghiệm từ Đà Nẵng cho thấy, việc xây dựng và triển khai kho dữ liệu số dùng chung đòi hỏi sự phối hợp chặt chẽ giữa các bên liên quan, việc áp dụng các giải pháp kỹ thuật và công nghệ phù hợp, và việc tuân thủ các nguyên tắc và quy định về bảo mật và quyền riêng tư. Với những nỗ lực đúng đắn, chúng ta có thể khai thác tối đa tiềm năng của dữ liệu để nâng cao chất lượng giáo dục và xây dựng một hệ sinh thái dữ liệu mở, liên thông và hiệu quả. Đừng quên theo dõi các bài viết hữu ích khác từ merakicenter.edu.vn để cập nhật những thông tin mới nhất về chuyển đổi số trong giáo dục.
Nguồn: https://merakicenter.edu.vn/ Tác giả: Nguyễn Lân dũng

Nội dung được phát triển bởi đội ngũ Meraki Center với mục đích chia sẻ và tăng trải nghiệm khách hàng. Mọi ý kiến đóng góp xin vui lòng liên hệ tổng đài chăm sóc: 1900 0000 hoặc email: [email protected]