Từ 50 PercePtrons đến những thứ kỳ dị mà chúng ta đang làm hôm nay

mọi thứ đã bị freaky. Vài năm trước, Google đã chỉ cho chúng ta những giấc mơ của các mạng thần kinh là những thứ gặp ác mộng, nhưng gần đây hơn nhiều, gần đây chúng ta đã thấy chúng được sử dụng để cung cấp các chuyển động của nhân vật trò chơi không thể phân biệt với con người, để sản xuất hình ảnh quang học chỉ được cung cấp văn bản Mô tả, để cung cấp tầm nhìn cho những chiếc xe tự lái, và nhiều hơn nữa.

Có thể làm tất cả những điều này tốt, và đôi khi tốt hơn con người, là một sự phát triển gần đây. Sản xuất hình ảnh quang học chỉ là một vài tháng tuổi. Vì vậy, chính xác làm thế nào tất cả những điều này xảy ra?

PercePtrons: 40s, 50s và 60s

Perceptron.
Chúng ta bắt đầu vào giữa thế kỷ 20. Một loại nổi bật của mạng lưới thần kinh sớm tại thời điểm cố gắng bắt chước các tế bào thần kinh trong não sinh học sử dụng một tế bào thần kinh tổng hợp gọi là Perceptron. Chúng tôi đã bảo hiểm PercePtron ngay tại đây một cách chi tiết trong một loạt các bài viết của Al Williams, nhưng một thời gian ngắn, một thứ dễ nhìn như thể hiện trong sơ đồ.

Giá trị đầu vào, trọng lượng và độ lệch, nó sẽ tạo ra một đầu ra là 0 hoặc 1. Các giá trị phù hợp có thể được phát hiện cho các trọng lượng và thiên vị tạo ra tác phẩm tuyển sinh NAND. Nhưng vì những lý do toàn diện trong bài viết của Al, đối với một lối vào XOR, bạn yêu cầu nhiều lớp Perceptron hơn.

Trong một bài báo nổi tiếng 1969 được gọi là “Perceptrons”, Minsky và Papert đã chỉ ra các điều kiện khác nhau theo đó PercePtrons không thể cung cấp các dịch vụ ưu tiên cho một số vấn đề nhất định. Tuy nhiên, các điều kiện họ giải thích chỉ được sử dụng cho việc sử dụng một lớp Perceptron duy nhất. Nó đã được hiểu tại thời điểm đó, và thậm chí đã thảo luận trong bài báo, rằng bằng cách thêm nhiều lớp PercePtron hơn giữa các đầu vào và đầu ra, được gọi là các lớp ẩn, nhiều vấn đề đó, bao gồm cả XOR, có thể được giải quyết.

Mặc dù phương pháp này xung quanh vấn đề, bài báo của họ không khuyến khích nhiều nhà nghiên cứu và nghiên cứu nghiên cứu mạng thần kinh mờ dần vào nền trong một thập kỷ.

Backpropagation và Sigmoid Neurons: những năm 80

Năm 1986, các mạng thần kinh đã được khôi phục sự phổ biến bởi một bài báo nổi tiếng khác gọi là “học đại diện nội thất bằng cách tuyên truyền lỗi” của David Rummelhart, Geoffrey Hinton và R.J. Williams. Trong bài báo đó, họ đã công bố kết quả của nhiều thí nghiệm xử lý các vấn đề Minsky đã nói về các mạng Perceptron một lớp, thúc đẩy nhiều nhà nghiên cứu trở lại hành động.

Ngoài ra, theo Hinton, vẫn là một nhân vật thiết yếu trong lĩnh vực mạng thần kinh ngày nay, Rummelhart đã phát minh lại một thuật toán hiệu quả để đào tạo các mạng lưới thần kinh. Nó bao gồm lan truyền trở lại từ đầu ra đến các đầu vào, đặt các giá trị cho tất cả các trọng số đó sử dụng một thứ gọi là quy tắc delta.

Mạng lưới thần kinh liên kết đầy đủ và sigmoid
Tập hợp các phép tính để đặt đầu ra thành 0 hoặc 1 hiển thị trong sơ đồ PercePtron ở trên được gọi là chức năng kích hoạt của Neuron. Tuy nhiên, đối với thuật toán của Rummelhart, chức năng kích hoạt phải là một trong đó một dẫn xuất tồn tại và để chúng được chọn để sử dụng chức năng sigmoid (xem sơ đồ).

Và vì vậy, đã biến mất là loại tế bào thần kinh Perceptron có sản lượng tuyến tính, được thay thế bằng Neuron sigmoid phi tuyến tính, vẫn được sử dụng trong nhiều mạng ngày hôm nay. Tuy nhiên, thuật ngữ Perceptron (MLP) Thuật ngữ thường được sử dụng ngay hôm nay để giới thiệu không phải mạng bao gồm các giống đồng cảm đã thảo luận ở trên nhưng với mạng nhiều lớp mà chúng ta đang nói về phần này với các tế bào thần kinh phi tuyến tính, như sigmoid. Rên rỉ, chúng ta biết.

Ngoài ra, để tạo lập trình dễ dàng hơn, sự thiên vị đã được tạo ra một tế bào thần kinh của riêng nó, thông thường với giá trị của một và với trọng lượng riêng. Đó là phương pháp trọng lượng của nó, và do đó gián tiếp giá trị của nó, có thể được đào tạo cùng với tất cả các trọng lượng khác.

Và do đó vào cuối những năm 80, các mạng lưới thần kinh đã thực hiện trên hình dạng quen thuộc bây giờ của họ và một thuật toán hiệu quả tồn tại để đào tạo chúng.

Câm thuyết và tổng hợp

Năm 1979, một mạng lưới thần kinh có tên Neocognitron đã giới thiệu khái niệm các lớp compolutional, và vào năm 1989, thuật toán backpropagation đã thích nghi để huấn luyện các lớp calputional đó.

Mạng lưới thần kinh hòa đồng và gộp lại
Lớp compolution trông như thế nào? Trong các mạng, chúng tôi đã nói về ở trên, mỗi tế bào thần kinh đầu vào có kết nối với mọi tế bào thần kinh ẩn. Các lớp như thế được gọi là các lớp được liên kết hoàn toàn. Nhưng với một lớp xuyên tục, mỗi tế bào thần kinh trong lớp compolutional liên kết chỉ với một tập hợp con của các tế bào thần kinh đầu vào. Và những tập hợp đó thường trùng nhau cả theo chiều ngang và chiều dọc. Trong sơ đồ, mỗi tế bào thần kinh trong lớp compolutional được liên kết với ma trận 3 × 3 của các tế bào thần kinh đầu vào, được mã hóa màu sắc cho rõ ràng và những ma trận đó chồng chéo lên nhau.

Sự sắp xếp 2D này hỗ trợ rất nhiều khi cố gắng khám phá các tính năng trong hình ảnh, mặc dù việc sử dụng chúng không bị hạn chế đối với hình ảnh. Các tính năng trong ảnh Chiếm pixel trong không gian 2D, giống như các phần khác nhau của chữ ‘A’ trong tAnh ấy sơ đồ. Bạn có thể thấy rằng một trong những tế bào thần kinh compolution được liên kết với một tập hợp các tế bào thần kinh đầu vào 3 × 3 có chứa hàm dọc trắng xuống giữa, một chân của ‘A’, ngoài một hàm ngang ngắn hơn trên đỉnh trên bên phải. Khi đào tạo về nhiều hình ảnh khác nhau, rằng tế bào thần kinh có thể trở nên được đào tạo để chấm dứt mạnh nhất khi hiển thị các tính năng như thế.

Nhưng chức năng đó có thể là một trường hợp ngoại lệ, không phù hợp với hầu hết các hình ảnh mà mạng thần kinh sẽ gặp phải. Có một tế bào thần kinh dành riêng cho một trường hợp ngoại lệ như thế này được gọi là quá mức. Một dịch vụ là để thêm một lớp gộp (xem sơ đồ). Lớp gộp hồ bơi cùng nhau một số tế bào thần kinh thành một tế bào thần kinh. Trong sơ đồ của chúng tôi, mỗi ma trận 2 × 2 trong lớp compolutional được thể hiện bởi một khía cạnh trong lớp gộp. Nhưng giá trị nào đi vào yếu tố gộp?

Trong ví dụ của chúng tôi, trong số 4 tế bào thần kinh trong lớp compolutional tương ứng với phần tử gộp, hai trong số chúng đã phát hiện ra các tính năng của các phân đoạn dọc trắng với một số màu trắng trên đỉnh. Nhưng một trong số họ gặp chức năng này thường xuyên hơn nhiều. Khi một người gặp phải một phần dọc và hỏa hoạn, nó sẽ có giá trị cao hơn so với các phần khác. Vì vậy, chúng tôi đặt giá trị cao hơn vào phần tử tổng hợp tương ứng. Điều này được gọi là Max Pooling, vì chúng tôi có giá trị tối đa của 4 giá trị có thể.

Lưu ý rằng lớp gộp cũng làm giảm kích thước của dữ liệu chảy qua mạng mà không mất thông tin và vì vậy nó tăng tốc tính toán. Max Pooling được giới thiệu vào năm 1992 và là một phần lớn trong sự thành công của nhiều mạng lưới thần kinh.

Đi sâu

Mạng lưới thần kinh sâu và Relu
Một mạng lưới thần kinh sâu là một mạng có nhiều lớp. Vì Sweetman của chúng ta sẽ chỉ ra trong bài viết về mạng lưới thần kinh gần đây của mình, đi sâu cho phép các lớp gần đầu vào để khám phá các tính năng đơn giản, giống như phân đoạn dọc trắng của chúng ta, nhưng các lớp sâu hơn sẽ kết hợp các tính năng này thành nhiều tính năng này và phức tạp hơn nhiều Hình dạng, cho đến khi chúng ta đến các tế bào thần kinh đại diện cho toàn bộ đối tượng. Trong ví dụ của chúng tôi khi chúng tôi hiển thị nó một bức tranh về một chiếc xe hơi, các tế bào thần kinh phù hợp với các tính năng trong xe chấm dứt mạnh mẽ, cho đến cuối cùng, Neuron đầu ra “xe” phát hiện ra sự tự tin 99,2% mà chúng tôi đã chỉ cho nó một chiếc xe.

Nhiều tiến bộ đã đóng góp cho thành công hiện tại của các mạng lưới thần kinh sâu. Một vài trong số đó là:

Giới thiệu bắt đầu từ năm 2010 của RELU (đơn vị tuyến tính được chỉnh lưu) dưới dạng hàm kích hoạt thay thế cho sigmoid. Xem sơ đồ cho chi tiết relu. Việc sử dụng relus đào tạo tăng tốc đáng kể. Không cho phép các vấn đề khác, bạn đã tập nhiều hơn nữa, kết quả bạn càng nhận được càng tốt. Tăng tốc đào tạo cho phép bạn làm nhiều hơn.

việc sử dụng GPU (đơn vị xử lý đồ họa). Bắt đầu từ năm 2004 và được sử dụng để bảo vệ các mạng lưới thần kinh thường xuyên vào năm 2006, GPU đã được đưa ra để sử dụng việc nhân Matrix bao gồm khi nhân các giá trị bắn của Neuron theo giá trị trọng lượng. Điều này cũng như tăng tốc độ đào tạo.

Việc sử dụng các mạng thần kinh đồng hóa và phương pháp khác để giảm số lượng kết nối khi bạn đi sâu hơn. Một lần nữa, điều này quá tăng tốc đào tạo.

Sự sẵn có của các bộ dữ liệu đào tạo lớn với hàng chục và nhiều mục dữ liệu vô số. Trong số những thứ khác, điều này hỗ trợ với quá mức (thảo luận ở trên).

Kiến trúc V3 thành lập
Dream Dream Hexacopter.
Để cung cấp cho bạn một số khái niệm về chính xác thì phức tạp như thế nào, những mạng lưới thần kinh sâu này có thể nhận được, được hiển thị ngay tại đây là mạng lưới thần kinh của Google Inception V3 được viết trong khuôn khổ Tensorflow của họ. Phiên bản đầu tiên của điều này là người chịu trách nhiệm cho giấc mơ sâu ảo của Google. Nếu bạn nhìn vào truyền thuyết trong sơ đồ, bạn sẽ thấy một số điều chúng ta đã thảo luận, ngoài một vài cái mới đã đóng góp đáng kể cho sự thành công của các mạng thần kinh.

Ví dụ hiển thị ngay tại đây bắt đầu như một hình ảnh của một hexacopter trong chuyến bay với cây trong nền. Sau đó, nó đã được gửi đến trang web Deep Dream Generator, đã tạo ra hình ảnh được hiển thị ở đây. Thật thú vị, nó thay thế các cánh quạt bằng chim.

Vào năm 2011, các mạng lưới thần kinh compolutional với Max Pooling và chạy trên GPU đã hoàn thành việc nhận dạng mẫu trực quan hơn người trên các chỉ dẫn lưu lượng truy cập web với tốc độ nhận dạng là 98,98%.

Xử lý và tạo trình tự – LSTMS

Mạng lưới thần kinh bộ nhớ ngắn hạn (LSTM) dài là một loại mạng thần kinh tái phát rất hiệu quả (RNN). Đã tồn tại từ năm 1995 nhưng đã trải qua nhiều cải tiến trong những năm qua. Đây là những mạng có trách nhiệm cho các phát triển đáng kinh ngạc trong nhận dạng giọng nói, tạo chú thích cho hình ảnh, tạo ra lời nói và âm nhạc, v.v. Mặc dù các mạng chúng ta đã nói về ở trên là tuyệt vời để xem một mẫu trong một phần dữ liệu kích thước cố định như hình ảnh, LSTMS là để nhận dạng mẫu trong một chuỗi dữ liệu hoặc để tạo các chuỗi dữ liệu. Do đó, họ làm nhận dạng giọng nói, hoặc tạo câu.

Mạng lưới thần kinh LSTM và ví dụ
Thứ tựEye thường được mô tả như một tế bào bao gồm các loại lớp khác nhau và hoạt động toán học. Lưu ý rằng trong sơ đồ, tế bào sẽ quay trở lại chính nó, do đó, mạng lưới thần kinh tái phát. Đó là bởi vì khi một đầu vào đến, ô sẽ tạo ra một đầu ra, nhưng cũng thông tin được truyền lại cho lần đầu vào lần tiếp theo. Một phương pháp khác của miêu tả nó là bằng cách hiển thị cùng một ô nhưng tại các thời điểm khác nhau – một số ô có mũi tên hiển thị luồng dữ liệu giữa chúng thực sự là cùng một ô có dữ liệu truyền lại vào nó. Trong sơ đồ, ví dụ là một nơi chúng tôi cung cấp cho một ô mã hóa một chuỗi các từ, một cùng một lúc, kết quả cuối cùng sẽ đến một “vector suy nghĩ”. Vectơ đó sau đó cung cấp cho ô bộ giải mã xuất ra một phản hồi thích hợp, một từ tại một thời điểm. Ví dụ là tính năng trả lời khôn ngoan của Google.

LSTMS có thể được sử dụng để phân tích các hình ảnh tĩnh, và có lợi thế so với các loại mạng khác mà chúng ta thấy cho đến nay. Nếu bạn đang nhìn vào một bức ảnh tĩnh bao gồm một quả bóng bãi biển, bạn có nhiều khả năng chọn nó là một quả bóng bãi biển chứ không phải là một quả bóng rổ nếu bạn nhìn thấy hình ảnh như một khung hình của một video về một bãi biển buổi tiệc. Một LSTM sẽ thấy tất cả các khung hình của lễ kỷ niệm bãi biển dẫn đầu nhiều như khung hình hiện tại của bóng bãi biển và sẽ sử dụng những gì nó được nhìn thấy trước đây để đưa ra đánh giá của nó về loại bóng.

Tạo hình ảnh với Gans

Mạng nghịch ngợ vị thế hệ
Có lẽ thiết kế mạng thần kinh gần đây nhất đang cung cấp kết quả Freaky thực sự là hai mạng đối với nhau, các mạng nghịch ngợ được tạo (GANS), được tạo vào năm 2014. Thuật ngữ này, tạo ra rằng mạng lưới một người tạo ra dữ liệu (hình ảnh, âm nhạc, lời nói ) Điều đó tương tự như dữ liệu mà nó được đào tạo trên. Mạng máy phát điện này là một mạng lưới thần kinh computional. Mạng khác được gọi là người phân biệt đối xử và được đào tạo để biết liệu một bức tranh là chính hãng hay được tạo ra. Máy phát điện trở nên tốt hơn trong việc lừa bộ phân biệt đối xử, trong khi sự phân biệt đối xử trở nên tốt hơn khi không bị lừa. Cạnh tranh nghịch cảnh này tạo ra kết quả tốt hơn so với chỉ có một máy phát điện.

Chim của Stackgan với văn bản
Vào cuối năm 2016, một nhóm được cải thiện về điều này nhiều hơn nữa bằng cách sử dụng hai Gans xếp chồng lên nhau. Cung cấp một mô tả văn bản của hình ảnh ưa thích, Giai đoạn-I Gan tạo ra một hình ảnh độ phân giải thấp thiếu một số chi tiết (ví dụ: mỏ và mắt trên chim). Bức ảnh này và mô tả văn bản sau đó được chuyển đến Gan Giai đoạn II giúp nâng cao hình ảnh hơn nữa, bao gồm thêm các chi tiết còn thiếu và dẫn đến độ phân giải cao hơn, hình ảnh ảnh thực tế hơn.

Phần kết luận

Và có rất nhiều kết quả quái đản nhiều hơn được tiết lộ mỗi tuần. Nghiên cứu nghiên cứu mạng thần kinh là tại điểm, như nghiên cứu khoa học, rất nhiều đang được thực hiện rằng thật khó để theo kịp. Nếu bạn nhận thức được bất kỳ phát triển hấp dẫn nào khác mà tôi không đề cập, xin vui lòng cho chúng tôi hiểu trong các ý kiến ​​dưới đây.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post