Thị giác máy tính

     

Thị giác laptop (Computer Vision) là một trong những lĩnh vực hot tuyệt nhất của khoa học máy vi tính và nghiên cứu và phân tích trí tuệ nhân tạo. Dù bọn chúng vẫn không thể tuyên chiến đối đầu với sức mạnh thị giác của đôi mắt người, đã có tương đối nhiều ứng dụng bổ ích được tạo thành khai thác tiềm năng của chúng.

Bạn đang xem: Thị giác máy tính

Khi chúng ta nhìn vào hình hình ảnh sau đây, bạn sẽ thấy người, đồ vật thể và các tòa nhà. Nó đưa về những ký kết ức về đầy đủ trải nghiệm trong quá khứ, những tình huống tương từ bỏ bạn gặp phải. Đám đông đang đối mặt cùng hướng và giơ điện thoại lên, điều này cho mình biết rằng đấy là một nhiều loại sự kiện. Người đứng gần máy hình ảnh đang khoác áo thun gợi nhắc về sự kiện có thể xảy ra. Khi các bạn nhìn vào các chi tiết nhỏ dại khác, chúng ta có thể suy ra nhiều tin tức hơn trường đoản cú hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng so với máy tính, hình hình ảnh này y như tất cả các hình hình ảnh khác, đó là 1 trong những mảng các pixel, các giá trị số thay mặt đại diện cho những sắc độ của color đỏ, xanh lá cây với xanh dương. Một một trong những thách thức mà những nhà khoa học laptop phải đồ lộn từ trong thời hạn 1950s là tạo nên những máy bộ có thể đọc được hình hình ảnh và đoạn clip như nhỏ người. Lĩnh vực thị giác vật dụng tính từ đó đã trở thành một một trong những lĩnh vực phân tích hot tốt nhất về khoa học máy tính xách tay và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, bọn họ đã đạt được tiến bộ lớn vào việc tạo nên các phần mềm rất có thể hiểu và trình bày nội dung của dữ liệu một giải pháp trực quan. Nhưng bọn họ cũng đã nhận được ra rằng cần được đi xa tới cả nào trước khi rất có thể hiểu với tái tạo một trong các những công dụng cơ bản của cỗ não con người.

Sơ lược về lịch sử dân tộc thị giác máy tính

Năm 1966, Seymour Papert và Marvin Minsky, hai nhà đón đầu về trí tuệ nhân tạo, đang khởi động một dự án mang tên “Summer Vision Project“, một nỗ lực kéo dãn hai tháng và kéo theo 10 fan để tạo ra một khối hệ thống máy tính có thể nhận dạng các vật thể trong ảnh.

Để xong xuôi nhiệm vụ, một chương trình máy vi tính phải có chức năng xác định px nào ở trong về đối tượng nào. Đây là 1 trong vấn đề mà hệ thống thị giác của nhỏ người, được cung ứng bởi kiến ​​thức rộng lớn của họ về nhân loại thực và hàng tỷ năm tiến hóa, có thể giải quyết một bí quyết dễ dàng. Nhưng so với máy tính, quả đât chỉ bao gồm các nhỏ số, đó là một trong những nhiệm vụ đầy thách thức.

Vào thời điểm của dự án công trình này, phân nhánh thống trị nòng cốt của trí tuệ tự tạo là symbollic AI, có cách gọi khác là AI dựa vào quy tắc (rule-based AI): những lập trình viên từ chỉ định những quy tắc nhằm phát hiện tại các đối tượng người tiêu dùng trong hình ảnh. Nhưng vấn đề là các vật thể trong hình ảnh có thể lộ diện từ những góc khác nhau và trong vô số điều kiện tia nắng khác nhau. Đối tượng có thể xuất hiện nay trên một loạt những nền khác nhau hoặc bị các đối tượng người dùng khác che khuất một phần. Mỗi kịch bản này tạo nên các quý hiếm pixel khác nhau và thực tiễn không thể tạo thành quy tắc bằng tay thủ công cho từng chiếc một trong những chúng.

Hẳn nhiên, Summer Vision Project đã không đi xa và với lại kết quả khá hạn chế. Vài năm sau đó, vào khoảng thời gian 1979, nhà kỹ thuật Nhật bản Kunihiko Fukushima đã khuyến cáo neocognitron , một hệ thống thị giác máy tính xách tay dựa trên nghiên cứu khoa học thần ghê được tiến hành trên vỏ não về thị giác của con người. Mặc dù neocognitron của Fukushima bắt buộc thực hiện ngẫu nhiên nhiệm vụ trực quan tinh vi nào, tuy thế nó vẫn đặt gốc rễ cho giữa những phát triển quan trọng nhất trong lịch sử hào hùng thị giác sản phẩm tính.

Cuộc bí quyết mạng học tập sâu – Deep Learning

Vào trong những năm 1980s, nhà khoa học máy tính người Pháp Yan LeCun đã giới thiệu mạng thần khiếp tích chập (convolutional neural network, CNN), một hệ thống AI lấy cảm giác từ neocognitron của Fukushima. Một CNN bao gồm nhiều lớp tế bào thần gớm nhân tạo, các thành phần toán học tập mô bỏng gần giống hoạt động của các phiên phiên bản sinh học tập của chúng.

*

Khi một CNN xử lý một hình ảnh, mỗi lớp của nó sẽ trích xuất các đặc trưng ví dụ từ những pixel. Lớp đầu tiên phát hiện phần đa thứ rất cơ bản, ví dụ điển hình như các cạnh dọc cùng ngang. Khi bạn dịch rời sâu rộng vào mạng thần kinh, những lớp sẽ phát hiện những đặc trưng phức hợp hơn, bao gồm các góc cùng hình dạng. Các lớp sau cùng của CNN phân phát hiện đầy đủ thứ cụ thể như khuôn mặt, góc cửa và xe pháo hơi. Lớp cổng output của CNN hỗ trợ một bảng các giá trị số bộc lộ xác suất mà lại một đối tượng ví dụ được phát hiện tại trong ảnh.

Mạng thần ghê tích chập của LeCun rất hoàn hảo và cho biết thêm rất nhiều hứa hẹn, nhưng bọn chúng bị cản trở vày một vụ việc nghiêm trọng: Điều chỉnh và thực hiện chúng yên cầu một lượng lớn dữ liệu và tài nguyên đo lường không gồm sẵn tại thời gian đó. CNN cuối cùng đã tìm kiếm thấy việc sử dụng dịch vụ thương mại trong một số nghành hạn chế như ngân hàng và thương mại & dịch vụ bưu chính, khu vực chúng được thực hiện để xử lý các chữ số và chữ viết tay bên trên phong tị nạnh và các tờ séc. Nhưng trong nghành nghề nhận diện đối tượng, bọn họ đã thua và nhịn nhường chỗ mang lại các kỹ thuật học máy khác, như ‘support vector machines’ và ‘random forests’.

Xem thêm: Top 10 Tựa Game Offline Đồ Họa Khủng, Top 7 Game Đồ Họa Đẹp Mãn Nhãn Cho Pc Năm 2020

Vào năm 2012, các nhà phân tích AI từ bỏ Toronto đã cải tiến và phát triển AlexNet, một mạng thần gớm tích chập chỉ chiếm ưu cố gắng trong hội thi nhận làm ra ảnh ImageNet nổi tiếng. Chiến chiến hạ của AlexNet cho biết với sự ngày càng tăng sẵn bao gồm của tài liệu và tài nguyên điện toán, chắc hẳn rằng đã cho lúc phải trở về với CNN. Sự kiện này đã làm hồi phục sự lưu ý đến các CNN và tạo ra một cuộc phương pháp mạng trong Deep Learning, phân nhánh của Machine Learning tương quan đến vấn đề sử dụng các mạng thần kinh tự tạo nhiều lớp.

Nhờ những văn minh trong mạng thần khiếp tích chập và học sâu, tự đó, nghành nghề thị giác máy vi tính đã cải cách và phát triển nhờ những cách nhảy vọt.

Ứng dụng của Thị giác trang bị tính

Nhiều ứng dụng bạn sử dụng hằng ngày sử dụng công nghệ thị giác thiết bị tính. Google áp dụng nó sẽ giúp bạn tìm kiếm kiếm các đối tượng người dùng và cảnh đồ như là, “con chó” hoặc “hoàng hôn” trong một thư viện hình hình ảnh của bạn. Những công ty khác sử dụng thị giác máy vi tính để giúp cải thiện hình ảnh. Một lấy một ví dụ là Adobe Lightroom CC, áp dụng thuật toán Machine Learning để tăng cường chi huyết của hình hình ảnh được phóng to. Hiệ tượng phóng lớn (zoom in) truyền thống sử dụng những kỹ thuật nội suy để tô màu sắc các khu vực được phóng to, tuy vậy Lightroom thực hiện thị giác máy tính xách tay để phát hiện tại các đối tượng người dùng trong hình hình ảnh và làm cho sắc nét những đặc trưng của chúng sau thời điểm được phóng to.

Một nghành nghề dịch vụ đã đạt được văn minh rõ rệt dựa vào những hiện đại trong thị giác máy tính là nhận diện khuôn mặt. Apple thực hiện thuật toán dấn dạng khuôn mặt để bẻ khóa iPhone. Facebook sử dụng nhận dạng khuôn mặt nhằm phát hiện người tiêu dùng trong ảnh bạn đăng lên mạng (mặc mặc dù không phải ai ai cũng thích điều này). Tại Trung Quốc, những nhà kinh doanh nhỏ hiện cung cấp technology thanh toán qua nhấn diện khuôn mặt, giúp quý khách hàng không rất cần được tiếp cận với túi tiền của họ.

Những văn minh trong dấn dạng khuôn khía cạnh cũng gây ra lo lắng cho những người ủng hộ quyền riêng rẽ tư, nhất là khi các cơ quan chính phủ ở các nước nhà khác nhau đang thực hiện nó để giám sát và đo lường công dân của họ.

Chuyển thanh lịch các nghành chuyên biệt hơn, thị giác sản phẩm công nghệ tính nhanh chóng trở thành một công cụ luôn luôn phải có trong y học. Các thuật toán học tập sâu đang cho biết thêm độ chủ yếu xác ấn tượng trong bài toán phân tích hình ảnh y tế. Các bệnh viện và trường đh đang sử dụng thị giác trang bị tính để tham dự đoán các loại ung thư không giống nhau bằng phương pháp kiểm tra tia X cùng quét MRI.

Xe từ lái cũng phụ thuộc vào rất nhiều vào thị giác máy tính xách tay để phát âm được môi trường xung quanh. Các thuật toán học sâu phân tích những nguồn cấp dữ liệu đoạn clip từ những camera được cài để lên xe và phát hiện tại người, xe hơi, mặt mặt đường và những vật thể khác sẽ giúp đỡ chiếc xe dịch rời trong môi trường thiên nhiên của nó.

Những tiêu giảm của Thị giác đồ vật tính

Các hệ thống thị giác máy tính xách tay hiện tại thực hiện tốt việc phân các loại hình hình ảnh và bản địa hóa các đối tượng người dùng trong ảnh, khi bọn chúng được đào tạo không thiếu thốn với các ví dụ. Nhưng ở chỗ cốt lõi của chúng, các thuật toán học tập sâu cung cấp sức mạnh cho những ứng dụng thị giác máy tính đó là việc đối chiếu những mẫu pixel. Chúng không hiểu những gì đang diễn ra trong những hình ảnh.

Việc hiểu quan hệ giữa bạn và đối tượng trong tài liệu trực quan yên cầu phải có các cảm nhận và những kiến ​​thức cơ bản chung. Đó là tại sao tại sao các thuật toán thị giác máy tính được thực hiện bởi các mạng xã hội hoàn toàn có thể phát hiện các nội dung khỏa thân, tuy thế thường phải trở ngại để rõ ràng sự biệt lập giữa ảnh khoả thân bình an (ví dụ cho bé bú hoặc thẩm mỹ và nghệ thuật Phục hưng) và ngôn từ bị cấm như văn bản khiêu dâm. Tương từ bỏ như vậy, thật cạnh tranh để những thuật toán này tạo nên sự biệt lập giữa tuyên truyền rất đoan với một phim tư liệu về các nhóm rất đoan!

Con người rất có thể khai thác con kiến ​​thức to lớn về gắng giới của chính mình để bao phủ đầy đầy đủ lỗ hổng khi họ đương đầu với một tình huống mà họ chưa từng thấy trước đây. Không y hệt như con người, những thuật toán thị giác máy vi tính cần đề xuất được hướng dẫn chu đáo về những loại đối tượng người sử dụng mà chúng bắt buộc phát hiện. Ngay khi môi trường của chúng chứa phần lớn thứ đi chệch khỏi các ví dụ đã được đào tạo, chúng ban đầu hành hễ theo các phương pháp phi lý, chẳng hạn như không phát hiện ra các phương tiện khẩn cấp dừng đỗ ở gần như vị trí không giống thường.

Hiện tại, chiến thuật duy duy nhất để giải quyết và xử lý những vụ việc này là đào tạo những thuật toán AI trên với ngày dần nhiều những ví dụ, với hy vọng lượng dữ liệu bổ sung cập nhật sẽ tổng quan mọi tình huống mà AI sẽ gặp phải. Nhưng những tay nghề cho thấy, nếu không tồn tại sự thừa nhận thức theo tình huống, sẽ luôn có đầy đủ góc khuất giữa những tình huống riêng biệt làm xôn xao thuật toán AI.

Nhiều chuyên gia tin rằng họ sẽ chỉ đạt ngưỡng được thị giác máy tính thực sự khi chúng ta tạo ra trí sáng dạ chung nhân tạo (artificial general intelligence), AI có thể giải quyết những vấn đề theo cách tương tự như nhỏ người. Như nhà khoa học máy vi tính và nhà nghiên cứu AI Melanie Mitchell đã nói vào cuốn sách Trí tuyệt vời nhân tạo: gợi ý về tư duy nhỏ người: “Dường như trí tuyệt vời thị giác ko dễ bóc rời ngoài phần sót lại của trí thông minh, đặc biệt là kiến ​​thức chung, sự trừu tượng và kỹ năng ngôn ngữ. Cấp dưỡng đó, có thể các con kiến ​​thức quan trọng cho trí xuất sắc thị giác của con người không thể học tập được từ hàng tỷ bức hình ảnh được download xuống từ web, nhưng đề xuất được trải đời theo một cách nào kia trong thế giới thực”.


Chuyên mục: Tin Tức