Hãy tưởng tượng ai đó có khả năng tạo ra một video giả mạo (deepfake) về bạn bằng cách đánh cắp ảnh đại diện Facebook của chính bạn. Tin tốt là bọn xấu vẫn chưa nắm trong tay công nghệ này, còn tin xấu là Samsung đã biết cách biến điều đó thành hiện thực.
Phần mềm dùng để tạo các video deepfake – tức các clip có con người nhảy múa hát ca, hoặc đang nói gì đó, nhưng trên thực tế những người này không hề quay clip, cũng chẳng làm bất kỳ điều gì như trên clip miêu tả – thường đòi hỏi những bộ dữ liệu hình ảnh lớn mới có thể tạo ra được một clip giả có tính chân thực cao. Nhưng mới đây, Samsung đã phát triển thành công một hệ thống trí tuệ nhân tạo mới có thể tạo ra một clip giả mà chỉ cần đúng một tấm ảnh tĩnh duy nhất!
Công nghệ này tất nhiên chỉ được dùng cho mục đích “vui là chính”, như làm một tấm hình chân dung cổ điển chuyển động chẳng hạn. Ví dụ, bức họa Mona Lisa, vốn là một hình ảnh tĩnh, đã được biến thành hình hoạt họa động trong 3 đoạn clip khác nhau bên dưới nhờ công nghệ của Samsung. Được biết, công nghệ này là thành quả của một phòng thí nghiệm trí tuệ nhân tạo của hãng đặt tại Nga.
Tất nhiên, theo Hany Farid, một nhà nghiên cứu tại Dartmouth chuyên về phân tích phương tiện để phát hiện deepfake, thì những loại hình công nghệ này cùng với sự phát triển quá nhanh của chúng có thể dẫn đến nguy cơ phát tán thông sai lệch, can thiệp bầu cử và lừa đảo. Ví dụ, một đoạn video giả mới bị phát tán gần đây của Chủ tịch Hạ viện Mỹ Nancy Pelosi đã khiến cả cộng đồng mạng dậy sóng, qua đó làm dấy lên lo ngại rằng tính tinh vi của các clip deepfake sẽ bị lợi dụng để tiến hành những vụ lừa gạt trên quy mô lớn dễ dàng hơn, bởi deepfake đang ngày càng khó bị phát hiện.
“Theo trào lưu của năm ngoái, kỹ thuật này và những kỹ thuật liên quan đòi hỏi ngày càng ít dữ liệu, và tạo ra những nội dung ngày càng tinh vi và hấp dẫn” – Farid nói. Cho dù quy trình của Samsung có thể tạo ra những lỗi hình ảnh, “kết quả của nó là một bước tiến mới trong quá trình tiến hóa của kỹ thuật deepfake, dẫn đến việc tạo ra những nội dung đa phương tiện không thể phân biệt được với những thứ có thật ngoài đời“.
Phần mềm deepfake tạo ra những sản phẩm giả mạo bằng cách sử dụng machine learning để “thêu dệt” nên hình ảnh một con người di chuyển, nói năng như thật. Thông qua việc chỉnh sửa video trên máy tính, vốn đã tồn tại nhiều thập kỷ qua, các hệ thống deepfake giúp việc tạo ra các clip giả mạo không chỉ dễ dàng hơn mà còn khó bị phát hiện hơn. Chúng như những con rối kỹ thuật số siêu chân thực vậy.
Nhiều video deepfake, như hình ảnh hoạt họa của Mona Lisa ở trên, thuộc dạng “vui là chính”. Công nghệ này đã góp phần tạo nên một dòng meme hoàn toàn mới, bao gồm những clip hài hước đưa khuôn mặt của diễn viên Nicolas Cage vào các bộ phim hay TV show mà anh này chẳng hề góp mặt. Nhưng công nghệ deepfake có thể bị lạm dụng để phục vụ những hành vi mờ ám, như đưa khuôn mặt một người không liên quan vào các bộ phim người lớn, đôi lúc nhằm trả thù tình dục.
Trong công bố báo chí của mình, phòng thí nghiệm AI của Samsung gọi sản phẩm của họ là “những cái đầu biết nói chân thực”. Cụm từ “những cái đầu mạng thần kinh biết nói” chỉ đến loại hình video mà hệ thống này có thể tạo ra, tương tự như những khung chứa video quay cảnh các học giả đang nói trên các bản tin thời sự. Cụm từ “mạng thần kinh” chỉ một loại hình machine learning được thiết kế mô phỏng lại bộ não con người.
Các nhà nghiên cứu kỳ vọng đột phá của họ sẽ được dùng trong rất nhiều ứng dụng, bao gồm video game, phim và TV. “Nó có những ứng dụng thực tế trong các hoạt động hội họp từ xa, như hội thảo qua mạng và game trực tuyến nhiều người chơi, cũng như trong ngành công nghiệp kỹ xảo” – Samsung viết.
Thông thường, để tạo ra một video “đầu biết nói” như Samsung, bạn cần huấn luyện một hệ thống trí tuệ nhân tạo bằng một bộ dữ liệu hình ảnh lớn của một người duy nhất. Bởi cần rất nhiều hình ảnh của người đó, nên mục tiêu của deepfake thường là những người nổi tiếng, các chính trị gia…
Hệ thống của Samsung sử dụng một thủ thuật khác: bắt đầu với một “giai đoạn học meta” kéo dài, trong đó nó xem nhiều video để biết chuyển động của khuôn mặt con người là như thế nào. Sau đó, nó sẽ áp dụng những thứ đã học được lên một ảnh tĩnh hay nhiều ảnh liên quan để tạo ra một video clip có độ chân thực cao.
Không như các video deepfake thực sự, kết quả từ một hình ảnh đơn lẻ hay một nhóm nhỏ các hình ảnh thường sẽ mất đi các chi tiết nhỏ ít người để ý. Ví dụ, một video Marilyn Monroe được tạo ra trong phòng thí nghiệm của Samsung bị thiếu mất…cái nốt ruồi biểu tượng của nhân vật này. Ngoài ra, video cũng sẽ có một số nét hao hao với người đóng vai con rối kỹ thuật số. Đó là lý do tại sao mỗi khuôn mặt chuyển động của Mona Lisa trong 3 clip khác nhau lại trông như một người hơi khác nhau.
Nhìn chung, một hệ thống deepfake muốn có khả năng loại trừ được những nhược điểm này sẽ đòi hỏi một lượng dữ liệu huấn luyện khổng lồ, gồm cả video và hình ảnh của người được nhắm làm mục tiêu.
Phương thức của Samsung hữu dụng ở chỗ bằng cách ứng dụng nó, một mạng lưới lớn có thể được huấn luyện với một lượng lớn video – một quá trình tốn kém thời gian. Hệ thống này có thể nhanh chóng tương thích với một mục tiêu chỉ bằng một vài hình ảnh mà không cần huấn luyện bổ sung, giúp tiết kiệm thời gian và làm nó phổ biến hơn.
Tốc độ phát triển nhanh của trí tuệ nhân tạo đồng nghĩa với việc mỗi khi các nhà nghiên cứu chia sẻ một đột phá trong công nghệ deepfake, những kẻ xấu có thể nhanh chóng sử dụng các công cụ của chúng để nhại lại thành quả của họ. Kỹ thuật của Samsung nhiều khả năng không sớm thì muộn cũng lọt vào tay của nhiều người mà Samsung không hề nghĩ đến.
Những lỗi xuất hiện trong các video giả làm bằng kỹ thuật mới của Samsung có thể rõ ràng và hiển nhiên. Nhưng những người không may bị đưa vào một video deepfake chỉ vì một bức ảnh cười mà họ đăng lên Facebook chắc chắn sẽ không cảm thấy thoải mái chút nào.
Minh.T.T
Theo Vnreview.vn