Banner

Hệ thống giám sát/thu thập thông tin tự động trên Internet. Mới

Giá: Liên hệ

  • 1,329
  • Liên hệ
  • Trọn gói

Nhà cung cấp

Việt Nam hiện nay đang chứng kiến sự bùng nổ thông tin trên mạng Internet, bao gồm các trang tin điện tử, báo chí trực tuyến, các website của các cơ quan, tổ chức, đơn vị, doanh nghiệp, các diễn đàn thông tin, và đặc biệt là các trang mạng xã hội như Facebook, Twitter đang thu hút hàng triệu người tham gia mỗi ngày. Người dân ngày càng có nhiều cơ hội được tiếp cận các nguồn tin cả chính thống lẫn không chính thống nhanh chóng và thuận tiện hơn. Điều này góp phần tăng cường các mối quan hệ, giao lưu, hợp tác phát triển ở hầu hết các lĩnh vực, nhất là lĩnh vực kinh tế, chính trị, văn hóa xã hội, khoa học công nghệ, y tế, giáo dục, giải trí. Thông tin đăng tải trên internet hàng ngày là vô cùng lớn. Điều đó đặt ra thách thức cũng như cơ hội nếu khai thác khối thông tin này một cách hiệu quả.

Hệ thống giám sát thông tin internet do Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam phát triển, có khả năng thu thập, tổng hợp và phân tích thông tin đăng tải từ mạng xã hội, báo mạng, trang tin tức một cách nhanh chóng, cho phép các cơ quan quản lý giám sát tin tức online, phát hiện các vấn đề nổi cộm trên internet.

Hệ thống có các tính năng chính sau:

Khả năng thu thập thông tin mạnh mẽ và linh hoạt
  • Thu thập thông tin tự động, linh hoạt từ nhiều nguồn: hệ thống cho phép thu thập thông tin từ các trang tin tức, blog, diễn đàn, Facebook (trang cá nhân, trang công khai và nhóm); thu thập thông tin đăng tải công khai hoặc thông qua tài khoản đăng nhập.
  • Cơ chế chọn lọc nguồn tin tự động: ngoài việc cho phép người dùng chỉ định các nguồn tin cần thu thập, hệ thống có thể tự động chọn hoặc đưa ra gợi ý nguồn tin phù hợp cho người dùng chọn.
  • Cơ chế lọc thông tin cần thu thập tự động theo từ khóa: hệ thống xử lý loại bỏ những bài viết không liên quan, chỉ lấy những bài có chứa từ khóa trong danh mục mà người dùng chỉ định.
  • Lưu trữ bài viết theo phiên bản: trong quá trình quét lại các nguồn tin, nếu bài viết đã lấy có sự thay đổi, hệ thống sẽ phát hiện và lưu trữ một phiên bản mới cho bài viết đó. Khi người dùng xem một bài viết có thể kiểm tra được tất cả các phiên bản thay đổi của bài viết đó.
  • Thu thập và lưu trữ ảnh trên mạng: hệ thống cho phép tùy chọn lấy ảnh trong bài viết và lưu trữ ảnh vào cơ sở dữ liệu.
Phân tích thông tin
  • Công cụ tìm kiếm thông minh: khi các bài viết được thu thập và lưu trữ vào cơ sở dữ liệu, hệ thống tiến hành đánh chỉ mục tài liệu giúp việc tìm kiếm nhanh chóng và hiệu quả. Hệ thống cho phép người dùng tìm kiếm bài viết theo nội dung, theo từ khóa, nguồn thông tin… với phương pháp tìm kiếm gần đúng tương tự máy tìm kiếm Google.
  • Gán nhãn bài viết: mỗi bài viết trong hệ thống được gán một số nhãn liên quan đến chủ đề mà nội dung bài viết nói tới (ví dụ: biển đảo, giáo dục, y tế…) nhằm phục vụ công tác tìm kiếm và lên báo cáo về những chủ đề được nói tới nhiều nhất tại các nguồn tin tức. Nhãn được gán cho bài viết đầu tiên có thể là nhãn mà nguồn tin gán cho bài viết (nếu có) mà hệ thống thu thập được. Sau đó bài viết sẽ được bộ xử lý ngôn ngữ tiếng Việt phân tích nội dung để tìm ra những từ khóa được nói đến nhiều nhất bổ sung thêm vào tập nhãn của bài viết. Cuối cùng, hệ thống cũng cho phép người dùng có thể bổ sung nhãn mới, chỉnh sửa hoặc xóa bỏ nhãn cũ của một bài viết trên giao diện người dùng.
  • Phân loại bài viết: tự động phân loại bài viết bằng các giải thuật học máy để xác định bài viết thuộc chủ đề nào (kinh tế, chính trị, xã hội, văn hóa, giáo dục…)
  • Phát hiện bài viết trùng lặp: so sánh nội dung, phát hiện các bài viết có nội dung tương tự nhau xuất hiện ở nhiều nguồn. Đưa ra danh sách các bài viết được đăng ở nhiều nguồn nhất.
  • Đánh giá sự chia sẻ: xác định số lượt chia sẻ, yêu thích, bình luận của một bài viết của báo mạng trên mạng xã hội facebook. Đưa ra danh sách các bài viết đang có tầm ảnh hưởng lớn.
  • Phân tích quan điểm: thu thập các bình luận và phân tích vấn đề được bình luận, người bình luận, quan điểm của người đó đối với các vấn đề được đề cập.
  • Báo cáo tổng hợp, phân tích, thống kê: hệ thống đưa ra các báo cáo tổng hợp, thống kê về các vấn đề nếu trên như báo cáo về các từ khóa được nói đến nhiều nhất từ các nguồn tin; các báo cáo theo nguồn tin, báo cáo theo loại hình thông tin, báo cáo theo địa bàn, các báo cáo phân tích xu thế theo thời gian; biểu đồ về thống kê quan điểm; words cloud về chủ đề nổi bật... Báo cáo hỗ trợ tính năng đồ họa phong phú, trực quan, giúp người dùng dễ dàng nắm bắt và phân tích thông tin.
Công cụ cho người dùng
  • Giám sát nguồn tin: chỉ định theo dõi một số nguồn tin nhất định, đưa ra các vấn đề liên quan đến các nguồn tin đó: đăng bao nhiêu bài, mức độ quan tâm, quan điểm ra sao, chủ đề chính, chủ đề nổi bật…
  • Xác định nguồn tin mới: hệ thống tích hợp các công cụ tìm kiếm toàn cầu (ví dụ như Google search, Facebook search…) cho phép người dùng tìm kiếm các nguồn tin mới trực tiếp từ hệ thống và đưa ngay kết quả thu được vào giám sát.
  • Giám sát vấn đề: chỉ định vấn đề cần theo dõi, đưa ra phân tích về các vấn đề đó: bao nhiều bài viết đề cập đến, nguồn thông tin từ những đâu, nơi nào nói mạnh nhất về vấn đề này, quan điểm của cộng đồng, các vấn đề liên quan…
  • Đánh dấu bài viết: ghim lại các bài viết cần lưu ý để theo dõi.
  • Cá nhân hóa: giao diện sử dụng cá nhân hóa cho từng người dùng
  • Cảnh báo tự động: tự động gửi thông báo trên hệ thống, qua email cho người dùng khi có thông tin quan tâm (có thể tùy biến mức độ thông báo).
  • Tương tác và phản hồi facebook: cho phép người dùng phản hồi thông tin thu thập từ facebook trực tiếp qua hệ thống. Ngoài ra, hệ thống cho phép người dùng có thể quản lý, tương tác với nhiều trang facebook, fan page khác nhau trên cùng một giao diện quản lý, lọc tin, trả lời tin, bình luận, đăng bài hàng loạt, hẹn giờ đăng bài....
Quản trị hệ thống
  • Cấu hình hệ thống linh hoạt: hệ thống vận hành linh hoạt trên một hoặc nhiều máy chủ làm nhiệm vụ chuyên biệt với hiệu năng cao.
  • Giám sát máy chủ: giám sát trạng thái hoạt động của máy chủ, tài nguyên dự trữ và cảnh báo khi có nhu cầu cần nâng cấp tài nguyên.
  • Giám sát nguồn tin: giám sát trạng thái của nguồn tin chỉ định thu thập: đang hoạt động, ngừng hoạt động, chặn thu thập, số lượng bài viết lấy được…
  • Quản lý người dùng: tạo, xóa người dùng; phân quyền truy cập, theo dõi lịch sử hoạt động…
  • Lưu trữ thông tin lâu dài: hệ thống hỗ trợ lưu trữ các bài viết và các phiên bản bài viết lâu dài tùy theo nhu cầu của cơ quan quản lý, kể cả khi các bài viết đã được xóa khỏi nguồn tin để phục vụ nhu cầu giám sát, tra cứu lâu dài.
Các tính năng đăng nghiên cứu phát triển bổ sung:
  • Phát hiện nguồn tin và mạng lưới chia sẻ: phân tích và dựng đồ thị về mạng chia sẻ của một thông tin, từ đó xác định điểm phát tán, các nút chia sẻ, điểm bùng nổ.
  • Phân tích chủ đề: phân tích khối bài viết thu thập được, xác định các chủ đề nổi bật được đề cập đến nhiều trong một khoảng thời gian.
  • Cải thiện hiệu quả kỹ thuật phân tích quan điểm.
  • Dự báo lan truyền thông tin: dự báo khả năng và phương hướng lan truyền thông tin trên mạng lưới chia sẻ tương lai.
  • Dự báo bùng nổ: dự báo bài viết, sự kiện, chủ đề có khả năng bùng nổ thành vấn đề nổi bật hay sẽ lắng xuống.

Giải pháp kỹ thuật: do nguồn thông tin trên Internet là vô cùng lớn, hệ thống giám sát thông tin sử dụng các công nghệ tiên tiến trong thu thập, lưu trữ và phân tích dữ liệu trên thế giới hiện nay:

  • Kỹ thuật thu thập qua HTTP (HTTPS) và API, có biện pháp chống chặn, proxy, đa luồng và phân tán.
  • Cơ sở dữ liệu lớn (Big Data) phục vụ lưu trữ và xử lý dữ liệu lớn.
  • Máy tìm kiếm phân tán: đánh chỉ mục và tìm kiếm dữ liệu
  • Các giải thuật học máy trong phân loại, phân cụm dữ liệu, xác định chủ đề, xu hướng…
  • Các phương pháp biểu diễn trực quan, biểu đồ, bảng thống kê dễ hiểu.
  • Giao diện sử dụng web, mobile phù hợp cho nhiều thiết bị.

Phạm vi ứng dụng

  • Quản lý báo chí
  • Giám sát tin tức
  • Giám sát đối tượng qua blog, Facebook.
  • Đảm bảo an ninh, quốc phòng
Ảnh sản phẩm:

 
Tìm kiếm                                                                                                        Quản lý nguồn tin
Liên hệ