Machine Learning là gì? Những ý nghĩa của Machine Learning

Bạn đang xem: Machine Learning là gì? Những ý nghĩa của Machine Learning tại dienchau2.edu.vn

Trường THPT Diễn Châu 2 trả lời ý nghĩa Machine Learning là gì

  • Chào mừng bạn tới blog Nghialagi.org chuyên tổng hợp tất cả hỏi đáp khái niệm là gì, thảo luận trả lời viết tắt của từ gì trong tuổi teen, hôm nay chúng ta cùng tìm hiểu một khái niệm mới đó là Machine Learning là gì? Những ý nghĩa của Machine Learning. Machine learning là gì? Tổng quan về machine learning. MÁY HỌC (MACHINE LEARNING) LÀ GÌ VÀ TẠI SAO CÀNG NGÀY NÓ CÀNG PHỔ BIẾN?

MÁY HỌC (MACHINE LEARNING) LÀ GÌ VÀ TẠI SAO CÀNG NGÀY NÓ CÀNG PHỔ BIẾN? – Nghialagi.org

Khái niệm Machine Learning là gì?

  • Machine learning là gì? Machine learning là một lĩnh vực con của Trí tuệ nhân tạo(Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng.
  • Bạn đã hiểu rồi chứ? Chúng ta có thể làm cho máy tính học để làm thuê việc gì đó! Điều này nghe có vẻ khá trừu tượng. Nó có nghĩa rằng, chúng ta có thể lập trình cho các máy tính có khả năng tự học.
  • Khả năng học tập là một yếu tố then chốt của trí thông minh.
  • Nếu mang khái niệm này sang machine learning, có vẻ đây là một bước tiến lớn làm cho máy móc thông minh hơn. Trên thực tiễn, hiện nay Machine learning đang là lĩnh vực cho thấy sự tiến bộ trong tiến trình của Trí tuệ nhân tạo. Nó đang là một chủ đề nóng và có khả năng làm cho máy móc trở thành thông minh hơn.
  • Bài viết này sẽ nỗ lực giúp mọi người hiểu machine learning là gì qua những khái niệm đơn giản nhất. Tôi sẽ trình diễn tổng quan về các khái niệm quan trọng, các ứng dụng và thử thách của Machine learning. Bài viết này ko thể cung ứng tất cả mọi thứ về ML. Nhưng tôi sẽ đưa ra các khái niệm nền tảng để mọi người có thể tiếp tục tìm hiểu.

Machine learning trên thực tiễn

  • Okay, chẳng có gì là xuất sắc hết. Machine learning cũng có những giới hạn của nó. Chúng ta ko thể nào xây dựng một cỗ máy thông minh để học dữ liệu từ cổ chí kim tới ngày nay. Tuy nhiên, đã có những ứng dụng thực tiễn nhưng mà machine learning làm rất tốt. Sau đây là các lĩnh vực phổ quát nhưng mà machine learing góp mặt:

Xử lý ảnh

Bài toán xử lý ảnh(Image Processing) khắc phục các vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép chuyển đổi. Một số ví dụ là:

  • Oto tự lái(Self-driving cars), một phần cơ chế sử dụng ở đây là xử lý ảnh. Một thuật toán machine learning giúp phát hiện các mép đường, biển báo hay các trở lực vật bằng cách xem xét từng khung hình video từ camera.
  • Nhận dạng ký tự(Optical Character Recognition), là một thuật toán chuyển dữ liệu trên giấy tờ, văn bản thành dữ liệu số hóa. Thuật toán phải học cách nhận mặt ảnh chụp của một ký tự là ký tự nào.
  • Gắn thẻ hình ảnh(Image Tagging), giống như Facebook, một thuật toán tự động phát hiện khuôn mặt của bạn và bằng hữu trên những bức ảnh. Về cơ bản, thuật toán này học từ những bức ảnh nhưng mà bạn tự gắn thẻ cho mình trước đó.

Phân tích văn bản

Phân tích văn bản(Text analysis) là công việc trích xuất hoặc phân lọi thông tin từ văn bản. Các văn bản ở đây có thể là các facebook posts, emails, các đoạn chats, tài liệu,… Một số ví dụ phổ quát là:

  • Lọc spam(Spam filtering), là một trong những ứng dụng phân loại văn bản được biết và sử dụng nhiều nhất. Ở đây, phân loại văn bản là xác định chủ đề cho một văn bản. Bộ lọc spam sẽ học cách phân loại một email có phải spam ko dựa trên nội dung và tiêu đề của email.
  • Phân tích ngữ nghĩa(Sentiment Analysis), học cách phân loại một ý kiến là tích cực, trung tính hay tiêu cực dựa trên nội dung văn bản của người viết.
  • Khai thác thông tin(Information Extraction), từ một văn bản, học cách để trích xuất các thông tin hữu ích. Chẳng hạn như trích xuất địa chỉ, tên người, từ khóa,…

Khai phá dữ liệu

Khai phá dữ liệu(Data mining) là quá trình khám phá ra các thông tin có trị giá hoặc đưa ra các dự đoán từ dữ liệu. Khái niệm này có vẻ bao quát, nhưng bạn hãy nghĩ về việc tìm kiếm thông tin hữu ích từ một bảng dữ liệu rất lớn. Mỗi bản ghi sẽ là một nhân vật cần phải học, và mỗi cột là một đặc trưng. Chúng ta có thể dự đoán trị giá của một cột của bản ghi mới dựa trên các bản ghi đã học. Hoặc là phân nhóm các bản ghi của bản. Sau đây là những ứng dụng của khai phá dữ liệu:

  • Phát hiện thất thường(Anomaly detection), phát hiện các ngoại lệ, ví dụ như phát hiện gian lận thẻ tín dụng. Bạn có thể phát hiện một giao dịch là khả nghi dựa trên các giao dịch thông thường của người dùng đó.
  • Phát hiện các quy luật(Association rules), ví dụ, trong một siêu thị hay một trang thương nghiệp điện tử. Bạn có thể khám phá ra người dùng thường sắm các món hàng nào cùng nhau. Dễ hiểu hơn, người dùng của bạn lúc sắm món hàng A thường sắm kèm món hàng nào? Các thông tin này rất hữu ích cho việc tiếp thị thành phầm.
  • Gom nhóm(Grouping), ví dụ, trong các nền tảng SaaS, người dùng được phân nhóm theo hành vi hoặc thông tin hồ sơ của họ.
  • Dự đoán(Predictions), các cột trị giá(của một bản ghi mới trong database). Ví dụ, bạn có thể dự đoán giá của căn hộ dựa trên các dữ liệu về giá các căn hộ bạn đã có.

Trò chơi điện tử & Robot

  • Trò chơi điện tử(Video games) và robot(Robotics) là lĩnh vực lớn có sự góp mặt của machine learning. Nếu ta có một nhân vật cần vận chuyển và tránh các trở lực vật trong game. Machine learning có thể học và khắc phục công việc này thay bạn. Một kỹ thuật phổ quát được vận dụng trong trường hợp này là Học tăng cường(Reinforcement learning). Ở đó, máy sẽ học tăng cường với mục tiêu là khắc phục nhiệm vụ trên. Học tăng cường là tiêu cực nếu nó va phải trở lực vật, là tích cực nếu nó chạm tới đích.
  • Một thành tựu gần đây nhất là cỗ máy Alpha Go của Google DeepMind đã đánh bại kỳ thủ cờ vậy số 1 toàn cầu. Trong lúc cờ vây là một trò chơi có ko gian trạng thái hết sức lớn.
  • Okey, tôi đã hiểu machine learning là gì rồi. Tôi cũng đã thấy được những trị giá nhưng mà nó đem lại rồi. Nhưng làm sao machine learning làm được điều đó?

Machine learning làm việc ra sao?

  • Một trong những cuốn sách trước nhất tôi đọc hồi 10 năm trước là Machine Learning by Tom Mitchell. Cuốn sách này được viết năm 1997, nhưng tri thức trong đó vẫn chuẩn xác cho tới ngày hôm nay.
  • Trong cuốn sách đó, tôi thích khái niệm của tác giá về machine learning:
  • A computer program is said to learn to perform a task T from experience E, if its performance at task T, as measured by a performance metric P, improves with experience E over time
  • Tạm dịch: Một chương trình máy tính được cho là học để thực hiện một nhiệm vụ T từ kinh nghiệm E, nếu hiệu suất thực hiện công việc T của nó được đo bởi chỉ số hiệu suất P và được cải thiện bởi kinh nghiệm E theo thời kì.
  • Ví dụ: Một cỗ máy thực hiện chơi cờ(nhiệm vụ T), có thể học từ dữ liệu các ván cờ trước đó hoặc chơi với một chuyên gia(kinh nghiệm E). Khả năng chơi của cỗ máy là tỉ lệ số ván nhưng mà nó thắng lợi lúc chơi với con người(hiệu suất P).

Một số ví dụ thực tiễn

Hãy cùng tưởng tượng trong một vài ví dụ khác:

  • VD1: Một hệ thống nhận vào một hình ảnh, nó phải xác định xem trong đó có khuôn mặt của Ngọc Trinh hay ko. Điều này thấy rõ nhất ở tính năng tự động gắn thẻ khuôn mặt của Facebook.
  • VD2: Hệ thống nhận vào các reviews về một thành phầm đồ ăn. cần xác định các reviews đó có nội dung tích cực hay tiêu cực.
  • VD3: Một hệ thống nhận vào hình ảnh/ thông tin của một người. Thẩm định số điểm đo khả năng người đó sẽ trả một khoản vay tín dụng.

Trong VD1, nhiệm vụ phát hiện khuôn mặt của người mẫu Ngọc Trinh trong một bức ảnh. Kinh nghiệm có thể là một các ảnh có khuôn mặc Ngọc Trinh và một tập ảnh khác ko có. Hiệu suất sẽ được tính bằng tỉ lệ đoán xác thực trên một tập ảnh mới.

Trong VD2, nhiệm vụ của bài toán tà tà gán nhãn cho mỗi review. Kinh nghiệm ở đây có thể là các review và nhãn tương ứng của nó. Hiệu suất được đo bằng tỉ lệ dự đoán nhãn xác thực trên các review mới.

Trong VD3, bài toán cần khắc phục là thẩm định điểm tin tưởng của người dùng để thực hiện cho vay tín dụng. Kinh nghiệm có thể học được từ các tập hình ảnh/ thông tin của những người vay tín dụng trước đi kèm thông tin họ có chi trả khoản vay tín dụng đó ko. Hiệu suất của mẫu hình sẽ được đo bằng tỉ lệ dự đoán đúng trên tập người dùng mới.

Huấn luyện mẫu hình

  • Làm sao thuật toán có thể thể đưa ra đầu ra mong muốn từ tập dữ liệu đầu vào? Bạn cần một quá trình huấn luyện sử dụng các dữ liệu huấn luyện. Nó chính là kinh nghiệm E ở khái niệm trên.
  • Một tập dữ liệu huấn luyện bao gồm nhiều mẫu huấn luyện. Mỗi mẫu huấn luyện sẽ là một trình bày của bài toán(có đầu vào và lời giải). Machine learning sẽ học từ các trình bày đó để tìm ra lời giải thích hợp với từng đầu vào mới. Nó giống như là bạn dạy 1 đứa trẻ cách ném 1 quả bóng; bạn sẽ ném quả bóng vài lần cho đứa trẻ quan sát; Sau đó đứa trẻ sẽ mở màn học để tự ném quả bóng.
  • Các ví dụ trong tập huấn luyện thường có một tập tính chất/ đặc trưng cố định. Đó là những trình bày để mô tả về nhân vật đó. Như trong VD1, đặc trưng có thể là tần suất các màu của mỗi bức ảnh. Trong VD2, các đặc trưng một review sẽ là các từ tạo nên review đó. Còn VD3, các đặc trưng có thể là tuổi tác, công việc, mức lương của mỗi người,…
  • Lựa chọn các đặc trưng thích hợp là một nhiệm vụ quan trọng trong Machine learning. Chúng ta sẽ tiếp tục làm rõ điều này ở phần phía sau mục này.

Phân loại thuật toán machine learning

  • Mục này tôi sẽ nói về 2 thuật toán cơ bản của machine learning: Học có giám sát(Supervised learning) và Học ko giám sát(Unsupervised learning). Sự không giống nhau lớn nhất giữa 2 thuật toán này là cách nhưng mà chúng ta cung ứng tập dữ liệu huấn luyện cho mẫu hình; Cách thuật toán sử dụng dữ liệu và loại vấn đề nhưng mà chúng khắc phục.

Học có giám sát

  • Trong học có giám sát, thuật toán machine learning thực hiện quá trình “chuyển dữ liệu đầu vào thành đầu ra mong muốn”.
  • Trong ML, đầu vào được gọi là input, đầu ra còn được gọi là label(nhãn). Tập dữ liệu huấn luyện được gọi là training set; Mỗi mẫu dữ liệu trong tập huấn luyện được gọi là training example.
  • Thuật toán machine learning cần học cách để chuyển đổi mỗi input(đầu vào) thành label(kết quả) tương ứng. Do vậy, mọi mẫu dữ liệu huấn luyện trong tập dữ liệu huấn luyện cần phải biết trước label của nó.
  • Trong VD2 – Xác định nhãn cho mỗi review: Đầu vào của tập dữ liệu huấn luyện sẽ là các review về món ăn đó; Và mỗi review đó đã được chỉ định rõ nội dung là tích cực hay tiêu cực.
  • Tùy thuộc vào loại đầu ra mong muốn, chúng ta tiếp tục chia nhỏ học có giám sát gồm:

Phân loại(Classification)

Lúc đầu ra mong muốn của chúng ta là một tập hữu hạn và rời rạc. Lúc đó bài toán của chúng ta được gọi là bài toán phân loại. VD2 phía trên có thể xếp vào bài toán phân loại; Các đầu ra mong muốn của chúng ta là: tích cực, tiêu cực và trung tính; Lúc đó, tập dữ liệu huấn luyện có thể giống thế này:

Text Label
“Món này ngon phết, giá cả sinh viên nhưng phải chờ khá lâu vì đông khách.” Tích cực
“Chờ lâu quá thể đáng.” Tiêu cực

Hồi quy(Regression)

Lúc đầu ra mong muốn là một dải trị giá liên tục. Chẳng hạn như trị giá xác suất, lúc đó bài toán sẽ thuộc loại hồi quy. VD3 phía trên là một bài toán dự đoán điểm tin tưởng trong [0; 1]; Nó trình bày xác suất một người sẽ trả các khoản vay của mình. Lúc đó, dữ liệu sẽ giống như sau:

Nghề nghiệp Thu nhập Tuổi Điểm tin tưởng
Lập trình viên > 1000$ 25 0.85
Sinh viên < 200$ 18 0.3

Học có giám sát là thuật toán phổ quát nhất trong các thuật toán machine learning. Hạn chế lúc sử dụng thuật toán này là chúng ta cần cung ứng dữ liệu có gán nhãn. Trong nhiều trường hợp, để có được dữ liệu gán nhãn này rất tốn rất nhiều chi phí. Chẳng hạn trong VD2, nếu ta cần 10.000 review có nhãn(tích cực, tiêu cực, trung tính) để huấn luyện mẫu hình; Việc này sẽ cần con người đọc từng review và gán nhãn thủ công; Điều này rất tốn thời kì và công sức. Đây cũng là một rào cản của ML: xây dựng các tập dữ liệu gán nhãn chất lượng.

Học ko giám sát

  • Học ko giám sát cũng là một nhánh trong machine learning. Các mẫu dữ liệu trong học ko giám sát chỉ cần input(đầu vào) nhưng mà ko cần label(đầu ra). Nó được sử dụng nhiều trong việc khám phá cấu trúc và mối quan hệ của dữ liệu. Một thuật toán tiêu biểu là bài toán phân cụm(clustering algorithm); Nó học cách để tìm các mẫu dữ liệu tương tự nhau và nhóm vào thành các cụm(cluster). Một số thuật toán phân cụm như K-means học cách phân cụm chỉ học từ tập dữ liệu đầu vào.

Các thuật toán Machine learning

  • Oke, hiện giờ chúng ta sẽ đi sâu hơn để hiểu rõ hơn cách machine learning làm việc. Để thực hiện chuyển đổi từ input thành output mong muốn, chúng ta có thể sử dụng các mẫu hình không giống nhau. Machine learning ko phải là một loại thuật toán duy nhất; Có thể bạn đã nghe tới Support vector machine(SVM), Naive Bayes, Cây quyết định(Decision Trees) hay Học sâu(Deep learning). Các thuật toán này đều nỗ lực khắc phục một bài toán: Học cách chuyển đổi mọi input thành output xác thực của nhưng mà nó thuộc về.
  • Những thuật toán machine learning này sử dụng các mẫu hình/ kỹ thuật không giống nhau để thực hiện quá trình học tập và trình bày tri thức về những gì nó được học.
  • Nhưng trước lúc đi vào từng thuật toán, có một nguyên tắc chung: Các thuật toán machine learning nỗ lực nói chung hóa. Tức là, nó sẽ tìm và giảng giải theo cách đơn giản nhất; Nguyên tắc đó được biết tới là Occam’s razor.
  • Mọi thuật toán machine learning đều nỗ lực đưa ra những giả thiết đơn giản nhất nhưng mà có thể đúng với hồ hết các mẫu trong tập dữ liệu huấn luyện.
  • Có rất nhiều thuật toán machine learning không giống nhau. Nhưng tôi sẽ trình diễn ngắn gọn về 3 thuật toán phổ quát nhất:

Một số thuật toán Machine learning

  • Support Vector Machines: Một thuật toán nỗ lực xây dựng một siêu mặt phẳng trong ko gian nhiều chiều để phân biệt các nhân vật ở các lớp không giống nhau; Làm sao cho khoảng cách giữa 2 nhân vật khác label gần nhau nhất có khoảng cách cực đại. Ý tưởng của thuật toán hết sức đơn giản, nhưng mẫu hình này lại rất phức tạp và có hiệu quả. Thực tiễn, ở một số bài toán, SVM là một mẫu hình machine learning cho hiệu quả tốt nhất.
  • Mẫu hình xác suất(Probabilistic Models): Các mẫu hình này nỗ lực khắc phục bài toán bằng phân bố xác suất. Một thuật toán phổ quát nhất là phân loại Naive Bayes; Nó sử dụng lý thuyết Bayes và giả thiết các đặc trưng là độc lập. Điểm mạnh của mẫu hình xác suất là đơn giản nhưng hiệu quả. Đầu ra của nó ko chỉ là label nhưng mà còn đi kèm xác suất trình bày độ xác thực cho kết quả đó.
  • Học sâu(Deep learning): Hiện đang là xu thế trong machine learning dựa trên các mẫu hình mạng nơ ron nhân tạo(Artificial Neural Networks). Mạng nơ ron có cách tiếp cận kết nối và sử dụng ý tưởng theo cách bộ não con người làm việc. Chúng bao gồm số lượng lớn các nơ ron liên kết với nhau; được tổ chức thành các lớp(layers). Học sâu liên tục được tăng trưởng với các cấu trúc mới sâu hơn; Nó ko chỉ nỗ lực học nhưng mà còn xây dựng các cấu trúc trình diễn các đặc trưng quan trọng một cách tự động.

Xem xét quan trọng trong Machine learning

Nhắc lại, Machine learning nghe có vẻ rất thần thánh. Nhưng machine learning ko tự động làm tất cả mọi thứ cho bạn được. Thực tiễn, có nhiều bước thủ công cần làm để thiết kế ra một giải pháp. Tuy nhiên, chúng lại có tác động lớn tới kết quả của bài toán. Một số điều cần xem xét là:

Tôi nên sử dụng thuật toán học máy nào?

Học có giám sát hay học ko giám sát?

  • Dữ liệu của bạn có nhãn(label) hay ko? Tức là, mỗi mẫu dữ liệu huấn luyện có một đầu ra tương ứng hay ko? Nếu có, bạn hãy sử dụng học có giám sát để giải bài toán. Nếu ko, học ko giám sát là thuật toán bạn nên dùng.

Phân loại, hồi quy hay phân cụm?

  • Điều đó phụ thuộc chủ yếu vào câu hỏi: Bạn đang muốn khắc phục cái gì? Nếu bạn muốn gắn thẻ cho một bài báo; phân loại có thể là lựa chọn đúng mực. Nhưng nếu bạn cần kết quả là một con số, chẳng hạn dự đoán giá nhà đất, hồi quy là lựa chọn tốt nhất. Nếu bạn có một trang web bán hàng và muốn gợi ý thành phầm tương tự cho khách, lựa chọn hợp lý nhất trong trường hợp này là phân cụm.

Deep learning, SVM, Naive Bayes, Decision Trees… thuật toán nào tốt nhất?

  • Câu trả lời là: Ko có thuật toán nào là tốt nhất cho mọi bài toán. Có thể bạn thấy Deep learning và SVM đã chứng minh chúng mạnh mẽ và hiệu quả trong nhiều ứng dụng không giống nhau. Nhưng tùy vào từng bài toán cụ thể và phân tích dữ liệu, một vài thuật toán machine learning có thể làm tốt hơn các thuật toán còn lại. Bạn cần biết điểm mạnh của mỗi thuật toán và thử chúng để tìm được thuật toán tối ưu nhất!

Feature engineering

  • Feature engineering là quá trình chúng ta thực hiện trích xuất và trích chọn các đặc trưng(tính chất) quan trọng từ dữ liệu thô để sử dụng làm đại diện cho các mẫu dữ liệu huấn luyện. Một tập dữ liệu huấn luyện có thể có rất nhiều tính chất, nhưng ko phải cái nào cũng cần thiết và quan trọng. Feature engineering là kỹ thuật giúp loại trừ các tính chất dư thừa; làm đơn giản hóa quá trình trình diễn dữ liệu nhưng ko làm tác động tới kết quả cuối cùng. Nếu ko có bước này, mẫu hình học sẽ hết sức phức tạp và thậm chí còn giảm độ xác thực lúc có những tính chất nhiễu.
  • Feature engineering là một bước quan trọng trong Machine learning(trừ lúc dữ liệu của bạn đã sạch sẽ hoặc là bài toán chưa đủ lớn).
  • Bạn nên chú ý: Nếu bạn ko thực hiện bước này, kết quả sẽ có thể rất tệ, cho dù bạn có dùng một thuật toán tốt nhất đi nữa. Nó giống như bạn nỗ lực đọc trong bóng tối vậy; bạn ko thể đọc được cho dù bạn thông minh tới đâu đi nữa.

Trích xuất đặc trưng(Feature extraction)

  • Để nạp dữ liệu huấn luyện vào mẫu hình học máy, bạn cần phải đưa dữ liệu thô về cấu trúc nào đó nhưng mà thuật toán có thể “hiểu”. Công việc này được gọi là trích xuất đặc trưng. Thông dụng nhất, chúng ta sẽ chuyển dữ liệu thô về dữ liệu số là vector của các đặc trưng.
  • Trong VD1, làm sao ta có thể truyền vào thuật toán machine learning một hình ảnh?
  • Một cách đơn giản là chuyển ảnh đó thành một vector; Mỗi phần tử trong vector đó tương ứng là trị giá màu xám của từng pixel trong ảnh. Lúc đó, mỗi đặc trưng/thành phần sẽ là một trị giá số từ 0 – 255; 0 là màu đen, 255 là trắng và 1 – 254 là các trị giá mức độ xám.

Giải pháp trên có thể cho kết quả, nhưng kết quả sẽ cải thiện hơn nếu ta cung ứng nhiều đặc trưng có trị giá hơn:

  • Hình ảnh đó có chứa ảnh khuông mặt người?
  • Màu da là gì?
  • Màu mắt là gì?
  • Khuôn mặt có tóc hay ko?

Đó là những đặc trưng ở mức cao hơn. Những đặc trưng này có trị giá hơn nhiều so với đặc trưng màu của các pixel ảnh. Các đặc trưng này có thể là kết quả của một thuật toán machine learning khác. Hỗ trợ các đặc trưng mức cao hơn giúp mẫu hình học máy của ta học tập và đưa ra dự đoán xác thực hơn.

Nếu chúng ta cung ứng các đặc trưng tốt hơn:

  • Thuật toán sẽ có khả năng cung ứng những kết quả xác thực hơn.
  • Có thể sẽ cần ít dữ liệu huấn luyện hơn
  • Có thể giảm đáng kể thời kì huấn luyện mẫu hình.

Trích chọn đặc trưng(Feature selection)

  • Đôi lúc, các đặc trưng chúng ta cung ứng cho thuật toán machine learning có thể vô dụng. Chẳng hạn, với bài toán phân loại review, chúng ta cung ứng chiều dài của review, ngày tạo và người tạo review đó,… chúng có thể hữu ích hoặc ko. Sẽ rất hữu ích nếu có phương pháp tự động phát hiện điều này. Đó là trích chọn đặc trưng, thuật toán này sử dụng kỹ thuật đánh trọng số cho từng đặc trưng; Và chỉ lựa chọn các đặc trưng có trọng số cao.
  • Một xem xét nữa: Cái gì nhiều quá cũng ko tốt, tránh sử dụng số lượng đặc trưng quá lớn. Bạn có thể bị cám dỗ và thêm tất cả các đặc trưng có thể hữu ích. Nhưng đó ko phải cách tốt, thêm đặc trưng cũng đồng nghĩa ko gian bộ nhớ tăng lên, làm cho dữ liệu cách xa nhau hơn. Vấn đề phổ quát này được biết tới với cái tên curse of dimensionality. Lúc số lượng mẫu huấn luyện tăng theo cấp số nhân, đó thực sự là một vấn đề.

Dữ liệu huấn luyện(Training data)

  • Bạn cần truyền vào thuật toán machine learning các mẫu dữ liệu huấn luyện. Phụ thuộc vào bài toán bạn cần khắc phục, chúng ta có thể cần vài trăm, vài nghìn, triệu hoặc hàng tỷ mẫu dữ liệu huấn luyện. Cân nhắc, cung ứng các mẫu huấn luyện tốt là rất quan trọng; Nếu bạn đưa vào các mẫu dữ liệu sai, thời cơ để có kết quả tốt sẽ giảm đi.
  • Tích lũy một số lượng lớn dữ liệu liệu có chất lượng tốt để huấn luyện các mẫu hình học máy thường tốn nhiều chi phí. Trừ lúc bạn đã có sẵn dữ liệu gán nhãn rồi. Bạn có thể thực hiện công việc này thủ công bình sức người. Một số dụng cụ hỗ trợ tăng vận tốc gán nhãn có thể giúp bạn.
  • Nguyên tắc chung về dữ liệu huấn luyện là: Chất lượng của dữ liệu huấn luyện của bạn càng tốt, khả năng bạn thu được kết quả tốt sẽ cao hơn.

Dữ liệu kiểm thử và các độ đo

Sau lúc chúng ta tập huấn một thuật toán máy học, chúng ta cần rà soát hiệu quả của nó. Đây là một bước đặc thù quan trọng, nếu ko bạn sẽ ko thể biết mẫu hình của mình có học được gì hay ko!

Kiểm thử và độ xác thực

  • Ý tưởng thực hiện rất đơn giản, chúng ta sử dụng dữ liệu kiểm thử(testing data); Dữ liệu này có cấu trúc giống với dữ liệu huấn luyện; Nhưng là một tập dữ liệu ko có ở trong tập dữ liệu huấn luyện. Chúng ta sẽ thử từng mẫu dữ liệu kiểm thử, rà soát mẫu hình hoạt động có như mong đợi ko. Nếu là bài toán học có giám sát, chúng ta quan sát những mẫu mẫu hình cho ra kết quả đúng. Nếu độ xác thực trả ra là 90% trên tập kiểm thử, chúng ta kết luận mẫu hình này có độ xác thực là 90%.
  • Điều quan trọng phải nhớ rằng dữ liệu huấn luyện và kiểm thử phải tách biệt. Đây là cách duy nhất để rà soát hiệu suất của mẫu hình học máy. Bạn có thể có kết quả tốt trên tập dữ liệu huấn luyện, nhưng có kết quả tệ trên tập kiểm thử; Vấn đề này được gọi là overfiting; Mẫu hình học máy quá khớp với dữ liệu huấn luyện và có một kết quả dự đoán tệ. Cách thường dùng để tránh overfiting là sử dụng ít số lượng đặc trưng hơn; đơn giản hóa mẫu hình; sử dụng tập huấn luyện lớn hơn và ko gian dữ liệu bao quát hơn.

Một số độ đo khác

  • Độ xác thực là độ đo cơ bản nhất, bạn có thể sử dụng độ đo khác như Precission vs Recall; Nó sẽ nói cho bạn thuật toán hoạt động tốt như nào trên từng nhãn. Confusion matrices là một dụng cụ tuyệt vời để xem thuật toán phân loại dự đoán ‘nhập nhằng‘ trong trường hợp nào.
  • Đối với bài toán hồi quy và phân cụm, bạn cần có các độ đo khác để rà soát thuật toán của bạn có hoạt động tốt hay ko.

Hiệu suất

  • Trên thực tiễn, nếu bạn tăng trưởng giải pháp cho nhu cầu thực tiễn; Độ xác thực và vận tốc xử lý là những yếu tố bạn cần quan tâm. Ứng dụng của bạn dù có hiệu quả tốt nhưng xử lý chậm thì cũng chẳng sài được. Điều này có vẻ khó khăn trong machine learning.
  • Việc trước nhất là bạn cần lựa chọn một Machine learning Framework, các framework này thường có ở một số tiếng nói lập trình nhất mực. Python và thư viện Scikit-learn là một sự lựa chọn xuất sắc.
  • Tuy nhiên, vấn đề hiệu năng vẫn có thể xảy ra. Nó phụ thuộc vào số lượng dữ liệu huấn luyện, độ phức tạp và thuật toán bạn sử dụng; Điều này có thể cần những máy tính với bộ nhớ lớn và hiệu năng cao để huấn luyện. Có thể bạn phải huấn luyện nhiều lần để có được kết quả tốt. Bạn cũng có thể tập huấn lại mẫu hình để phủ hết những ko gian dữ liệu mới và tối ưu độ xác thực.
  • Nếu muốn huấn luyện dữ liệu lớn với vận tốc nhanh, chúng ta sẽ cần những máy tính với cấu hình cao; Chúng cho phép chạy đa luồng tốt và tính toán song song.
  • Đây cũng là những vấn đề xảy ra trên thực tiễn, nhưng bạn sẽ cần khắc phục chúng nếu muốn xây dựng những ứng dụng machine learning thực tiễn.

Kết luận

Cảm ơn bạn đã đọc bài viết của Trường THPT Diễn Châu 2, kỳ vọng những thông tin trả lời Machine Learning là gì? Những ý nghĩa của Machine Learning sẽ giúp độc giả bổ sung thêm tri thức hữu ích. Nếu độc giả có những đóng góp hay thắc mắc nào liên quan tới khái niệm Machine Learning là gì? vui lòng để lại những bình luận bên dưới bài viết này. Trường THPT Diễn Châu 2 luôn sẵn sàng trao đổi và đón nhận những thông tin tri thức mới tới từ quý độc giả

  • VPS là gì? Những ý nghĩa của VPS
  • EQ là gì? Những ý nghĩa của EQ
  • Platform là gì? Những ý nghĩa của Platform
  • FMCG là gì? Những ý nghĩa của FMCG
  • Framework là gì? Những ý nghĩa của Framework
  • F&B là gì? Những ý nghĩa của F&B
  • Domain là gì? Những ý nghĩa của Domain

Bạn thấy bài viết Machine Learning là gì? Những ý nghĩa của Machine Learning có khắc phục đươc vấn đề bạn tìm hiểu ko?, nếu  ko hãy comment góp ý thêm về Machine Learning là gì? Những ý nghĩa của Machine Learning bên dưới để dienchau2.edu.vn có thể thay đổi & cải thiện nội dung tốt hơn cho độc giả nhé! Cám ơn bạn đã ghé thăm Website Trường THPT Diễn Châu 2

Xem thêm:  Đói cho sạch rách cho thơm là đức tính gì?

Phân mục: Là gì?
#Machine #Learning #là #gì #Những #nghĩa #của #Machine #Learning

xem thêm thông tin chi tiết về Machine Learning là gì? Những ý nghĩa của Machine Learning

Machine Learning là gì? Những ý nghĩa của Machine Learning

Hình Ảnh về: Machine Learning là gì? Những ý nghĩa của Machine Learning

Video về: Machine Learning là gì? Những ý nghĩa của Machine Learning

Wiki về Machine Learning là gì? Những ý nghĩa của Machine Learning

Machine Learning là gì? Những ý nghĩa của Machine Learning -

Bạn đang xem: Machine Learning là gì? Những ý nghĩa của Machine Learning tại dienchau2.edu.vn

Trường THPT Diễn Châu 2 trả lời ý nghĩa Machine Learning là gì

  • Chào mừng bạn tới blog Nghialagi.org chuyên tổng hợp tất cả hỏi đáp khái niệm là gì, thảo luận trả lời viết tắt của từ gì trong tuổi teen, hôm nay chúng ta cùng tìm hiểu một khái niệm mới đó là Machine Learning là gì? Những ý nghĩa của Machine Learning. Machine learning là gì? Tổng quan về machine learning. MÁY HỌC (MACHINE LEARNING) LÀ GÌ VÀ TẠI SAO CÀNG NGÀY NÓ CÀNG PHỔ BIẾN?

MÁY HỌC (MACHINE LEARNING) LÀ GÌ VÀ TẠI SAO CÀNG NGÀY NÓ CÀNG PHỔ BIẾN? – Nghialagi.org

Khái niệm Machine Learning là gì?

  • Machine learning là gì? Machine learning là một lĩnh vực con của Trí tuệ nhân tạo(Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng.
  • Bạn đã hiểu rồi chứ? Chúng ta có thể làm cho máy tính học để làm thuê việc gì đó! Điều này nghe có vẻ khá trừu tượng. Nó có nghĩa rằng, chúng ta có thể lập trình cho các máy tính có khả năng tự học.
  • Khả năng học tập là một yếu tố then chốt của trí thông minh.
  • Nếu mang khái niệm này sang machine learning, có vẻ đây là một bước tiến lớn làm cho máy móc thông minh hơn. Trên thực tiễn, hiện nay Machine learning đang là lĩnh vực cho thấy sự tiến bộ trong tiến trình của Trí tuệ nhân tạo. Nó đang là một chủ đề nóng và có khả năng làm cho máy móc trở thành thông minh hơn.
  • Bài viết này sẽ nỗ lực giúp mọi người hiểu machine learning là gì qua những khái niệm đơn giản nhất. Tôi sẽ trình diễn tổng quan về các khái niệm quan trọng, các ứng dụng và thử thách của Machine learning. Bài viết này ko thể cung ứng tất cả mọi thứ về ML. Nhưng tôi sẽ đưa ra các khái niệm nền tảng để mọi người có thể tiếp tục tìm hiểu.

Machine learning trên thực tiễn

  • Okay, chẳng có gì là xuất sắc hết. Machine learning cũng có những giới hạn của nó. Chúng ta ko thể nào xây dựng một cỗ máy thông minh để học dữ liệu từ cổ chí kim tới ngày nay. Tuy nhiên, đã có những ứng dụng thực tiễn nhưng mà machine learning làm rất tốt. Sau đây là các lĩnh vực phổ quát nhưng mà machine learing góp mặt:

Xử lý ảnh

Bài toán xử lý ảnh(Image Processing) khắc phục các vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép chuyển đổi. Một số ví dụ là:

  • Oto tự lái(Self-driving cars), một phần cơ chế sử dụng ở đây là xử lý ảnh. Một thuật toán machine learning giúp phát hiện các mép đường, biển báo hay các trở lực vật bằng cách xem xét từng khung hình video từ camera.
  • Nhận dạng ký tự(Optical Character Recognition), là một thuật toán chuyển dữ liệu trên giấy tờ, văn bản thành dữ liệu số hóa. Thuật toán phải học cách nhận mặt ảnh chụp của một ký tự là ký tự nào.
  • Gắn thẻ hình ảnh(Image Tagging), giống như Facebook, một thuật toán tự động phát hiện khuôn mặt của bạn và bằng hữu trên những bức ảnh. Về cơ bản, thuật toán này học từ những bức ảnh nhưng mà bạn tự gắn thẻ cho mình trước đó.

Phân tích văn bản

Phân tích văn bản(Text analysis) là công việc trích xuất hoặc phân lọi thông tin từ văn bản. Các văn bản ở đây có thể là các facebook posts, emails, các đoạn chats, tài liệu,… Một số ví dụ phổ quát là:

  • Lọc spam(Spam filtering), là một trong những ứng dụng phân loại văn bản được biết và sử dụng nhiều nhất. Ở đây, phân loại văn bản là xác định chủ đề cho một văn bản. Bộ lọc spam sẽ học cách phân loại một email có phải spam ko dựa trên nội dung và tiêu đề của email.
  • Phân tích ngữ nghĩa(Sentiment Analysis), học cách phân loại một ý kiến là tích cực, trung tính hay tiêu cực dựa trên nội dung văn bản của người viết.
  • Khai thác thông tin(Information Extraction), từ một văn bản, học cách để trích xuất các thông tin hữu ích. Chẳng hạn như trích xuất địa chỉ, tên người, từ khóa,…

Khai phá dữ liệu

Khai phá dữ liệu(Data mining) là quá trình khám phá ra các thông tin có trị giá hoặc đưa ra các dự đoán từ dữ liệu. Khái niệm này có vẻ bao quát, nhưng bạn hãy nghĩ về việc tìm kiếm thông tin hữu ích từ một bảng dữ liệu rất lớn. Mỗi bản ghi sẽ là một nhân vật cần phải học, và mỗi cột là một đặc trưng. Chúng ta có thể dự đoán trị giá của một cột của bản ghi mới dựa trên các bản ghi đã học. Hoặc là phân nhóm các bản ghi của bản. Sau đây là những ứng dụng của khai phá dữ liệu:

  • Phát hiện thất thường(Anomaly detection), phát hiện các ngoại lệ, ví dụ như phát hiện gian lận thẻ tín dụng. Bạn có thể phát hiện một giao dịch là khả nghi dựa trên các giao dịch thông thường của người dùng đó.
  • Phát hiện các quy luật(Association rules), ví dụ, trong một siêu thị hay một trang thương nghiệp điện tử. Bạn có thể khám phá ra người dùng thường sắm các món hàng nào cùng nhau. Dễ hiểu hơn, người dùng của bạn lúc sắm món hàng A thường sắm kèm món hàng nào? Các thông tin này rất hữu ích cho việc tiếp thị thành phầm.
  • Gom nhóm(Grouping), ví dụ, trong các nền tảng SaaS, người dùng được phân nhóm theo hành vi hoặc thông tin hồ sơ của họ.
  • Dự đoán(Predictions), các cột trị giá(của một bản ghi mới trong database). Ví dụ, bạn có thể dự đoán giá của căn hộ dựa trên các dữ liệu về giá các căn hộ bạn đã có.

Trò chơi điện tử & Robot

  • Trò chơi điện tử(Video games) và robot(Robotics) là lĩnh vực lớn có sự góp mặt của machine learning. Nếu ta có một nhân vật cần vận chuyển và tránh các trở lực vật trong game. Machine learning có thể học và khắc phục công việc này thay bạn. Một kỹ thuật phổ quát được vận dụng trong trường hợp này là Học tăng cường(Reinforcement learning). Ở đó, máy sẽ học tăng cường với mục tiêu là khắc phục nhiệm vụ trên. Học tăng cường là tiêu cực nếu nó va phải trở lực vật, là tích cực nếu nó chạm tới đích.
  • Một thành tựu gần đây nhất là cỗ máy Alpha Go của Google DeepMind đã đánh bại kỳ thủ cờ vậy số 1 toàn cầu. Trong lúc cờ vây là một trò chơi có ko gian trạng thái hết sức lớn.
  • Okey, tôi đã hiểu machine learning là gì rồi. Tôi cũng đã thấy được những trị giá nhưng mà nó đem lại rồi. Nhưng làm sao machine learning làm được điều đó?

Machine learning làm việc ra sao?

  • Một trong những cuốn sách trước nhất tôi đọc hồi 10 năm trước là Machine Learning by Tom Mitchell. Cuốn sách này được viết năm 1997, nhưng tri thức trong đó vẫn chuẩn xác cho tới ngày hôm nay.
  • Trong cuốn sách đó, tôi thích khái niệm của tác giá về machine learning:
  • A computer program is said to learn to perform a task T from experience E, if its performance at task T, as measured by a performance metric P, improves with experience E over time
  • Tạm dịch: Một chương trình máy tính được cho là học để thực hiện một nhiệm vụ T từ kinh nghiệm E, nếu hiệu suất thực hiện công việc T của nó được đo bởi chỉ số hiệu suất P và được cải thiện bởi kinh nghiệm E theo thời kì.
  • Ví dụ: Một cỗ máy thực hiện chơi cờ(nhiệm vụ T), có thể học từ dữ liệu các ván cờ trước đó hoặc chơi với một chuyên gia(kinh nghiệm E). Khả năng chơi của cỗ máy là tỉ lệ số ván nhưng mà nó thắng lợi lúc chơi với con người(hiệu suất P).

Một số ví dụ thực tiễn

Hãy cùng tưởng tượng trong một vài ví dụ khác:

  • VD1: Một hệ thống nhận vào một hình ảnh, nó phải xác định xem trong đó có khuôn mặt của Ngọc Trinh hay ko. Điều này thấy rõ nhất ở tính năng tự động gắn thẻ khuôn mặt của Facebook.
  • VD2: Hệ thống nhận vào các reviews về một thành phầm đồ ăn. cần xác định các reviews đó có nội dung tích cực hay tiêu cực.
  • VD3: Một hệ thống nhận vào hình ảnh/ thông tin của một người. Thẩm định số điểm đo khả năng người đó sẽ trả một khoản vay tín dụng.

Trong VD1, nhiệm vụ phát hiện khuôn mặt của người mẫu Ngọc Trinh trong một bức ảnh. Kinh nghiệm có thể là một các ảnh có khuôn mặc Ngọc Trinh và một tập ảnh khác ko có. Hiệu suất sẽ được tính bằng tỉ lệ đoán xác thực trên một tập ảnh mới.

Trong VD2, nhiệm vụ của bài toán tà tà gán nhãn cho mỗi review. Kinh nghiệm ở đây có thể là các review và nhãn tương ứng của nó. Hiệu suất được đo bằng tỉ lệ dự đoán nhãn xác thực trên các review mới.

Trong VD3, bài toán cần khắc phục là thẩm định điểm tin tưởng của người dùng để thực hiện cho vay tín dụng. Kinh nghiệm có thể học được từ các tập hình ảnh/ thông tin của những người vay tín dụng trước đi kèm thông tin họ có chi trả khoản vay tín dụng đó ko. Hiệu suất của mẫu hình sẽ được đo bằng tỉ lệ dự đoán đúng trên tập người dùng mới.

Huấn luyện mẫu hình

  • Làm sao thuật toán có thể thể đưa ra đầu ra mong muốn từ tập dữ liệu đầu vào? Bạn cần một quá trình huấn luyện sử dụng các dữ liệu huấn luyện. Nó chính là kinh nghiệm E ở khái niệm trên.
  • Một tập dữ liệu huấn luyện bao gồm nhiều mẫu huấn luyện. Mỗi mẫu huấn luyện sẽ là một trình bày của bài toán(có đầu vào và lời giải). Machine learning sẽ học từ các trình bày đó để tìm ra lời giải thích hợp với từng đầu vào mới. Nó giống như là bạn dạy 1 đứa trẻ cách ném 1 quả bóng; bạn sẽ ném quả bóng vài lần cho đứa trẻ quan sát; Sau đó đứa trẻ sẽ mở màn học để tự ném quả bóng.
  • Các ví dụ trong tập huấn luyện thường có một tập tính chất/ đặc trưng cố định. Đó là những trình bày để mô tả về nhân vật đó. Như trong VD1, đặc trưng có thể là tần suất các màu của mỗi bức ảnh. Trong VD2, các đặc trưng một review sẽ là các từ tạo nên review đó. Còn VD3, các đặc trưng có thể là tuổi tác, công việc, mức lương của mỗi người,…
  • Lựa chọn các đặc trưng thích hợp là một nhiệm vụ quan trọng trong Machine learning. Chúng ta sẽ tiếp tục làm rõ điều này ở phần phía sau mục này.

Phân loại thuật toán machine learning

  • Mục này tôi sẽ nói về 2 thuật toán cơ bản của machine learning: Học có giám sát(Supervised learning) và Học ko giám sát(Unsupervised learning). Sự không giống nhau lớn nhất giữa 2 thuật toán này là cách nhưng mà chúng ta cung ứng tập dữ liệu huấn luyện cho mẫu hình; Cách thuật toán sử dụng dữ liệu và loại vấn đề nhưng mà chúng khắc phục.

Học có giám sát

  • Trong học có giám sát, thuật toán machine learning thực hiện quá trình “chuyển dữ liệu đầu vào thành đầu ra mong muốn”.
  • Trong ML, đầu vào được gọi là input, đầu ra còn được gọi là label(nhãn). Tập dữ liệu huấn luyện được gọi là training set; Mỗi mẫu dữ liệu trong tập huấn luyện được gọi là training example.
  • Thuật toán machine learning cần học cách để chuyển đổi mỗi input(đầu vào) thành label(kết quả) tương ứng. Do vậy, mọi mẫu dữ liệu huấn luyện trong tập dữ liệu huấn luyện cần phải biết trước label của nó.
  • Trong VD2 – Xác định nhãn cho mỗi review: Đầu vào của tập dữ liệu huấn luyện sẽ là các review về món ăn đó; Và mỗi review đó đã được chỉ định rõ nội dung là tích cực hay tiêu cực.
  • Tùy thuộc vào loại đầu ra mong muốn, chúng ta tiếp tục chia nhỏ học có giám sát gồm:

Phân loại(Classification)

Lúc đầu ra mong muốn của chúng ta là một tập hữu hạn và rời rạc. Lúc đó bài toán của chúng ta được gọi là bài toán phân loại. VD2 phía trên có thể xếp vào bài toán phân loại; Các đầu ra mong muốn của chúng ta là: tích cực, tiêu cực và trung tính; Lúc đó, tập dữ liệu huấn luyện có thể giống thế này:

Text Label
“Món này ngon phết, giá cả sinh viên nhưng phải chờ khá lâu vì đông khách.” Tích cực
“Chờ lâu quá thể đáng.” Tiêu cực

Hồi quy(Regression)

Lúc đầu ra mong muốn là một dải trị giá liên tục. Chẳng hạn như trị giá xác suất, lúc đó bài toán sẽ thuộc loại hồi quy. VD3 phía trên là một bài toán dự đoán điểm tin tưởng trong [0; 1]; Nó trình bày xác suất một người sẽ trả các khoản vay của mình. Lúc đó, dữ liệu sẽ giống như sau:

Nghề nghiệp Thu nhập Tuổi Điểm tin tưởng
Lập trình viên > 1000$ 25 0.85
Sinh viên < 200$ 18 0.3

Học có giám sát là thuật toán phổ quát nhất trong các thuật toán machine learning. Hạn chế lúc sử dụng thuật toán này là chúng ta cần cung ứng dữ liệu có gán nhãn. Trong nhiều trường hợp, để có được dữ liệu gán nhãn này rất tốn rất nhiều chi phí. Chẳng hạn trong VD2, nếu ta cần 10.000 review có nhãn(tích cực, tiêu cực, trung tính) để huấn luyện mẫu hình; Việc này sẽ cần con người đọc từng review và gán nhãn thủ công; Điều này rất tốn thời kì và công sức. Đây cũng là một rào cản của ML: xây dựng các tập dữ liệu gán nhãn chất lượng.

Học ko giám sát

  • Học ko giám sát cũng là một nhánh trong machine learning. Các mẫu dữ liệu trong học ko giám sát chỉ cần input(đầu vào) nhưng mà ko cần label(đầu ra). Nó được sử dụng nhiều trong việc khám phá cấu trúc và mối quan hệ của dữ liệu. Một thuật toán tiêu biểu là bài toán phân cụm(clustering algorithm); Nó học cách để tìm các mẫu dữ liệu tương tự nhau và nhóm vào thành các cụm(cluster). Một số thuật toán phân cụm như K-means học cách phân cụm chỉ học từ tập dữ liệu đầu vào.

Các thuật toán Machine learning

  • Oke, hiện giờ chúng ta sẽ đi sâu hơn để hiểu rõ hơn cách machine learning làm việc. Để thực hiện chuyển đổi từ input thành output mong muốn, chúng ta có thể sử dụng các mẫu hình không giống nhau. Machine learning ko phải là một loại thuật toán duy nhất; Có thể bạn đã nghe tới Support vector machine(SVM), Naive Bayes, Cây quyết định(Decision Trees) hay Học sâu(Deep learning). Các thuật toán này đều nỗ lực khắc phục một bài toán: Học cách chuyển đổi mọi input thành output xác thực của nhưng mà nó thuộc về.
  • Những thuật toán machine learning này sử dụng các mẫu hình/ kỹ thuật không giống nhau để thực hiện quá trình học tập và trình bày tri thức về những gì nó được học.
  • Nhưng trước lúc đi vào từng thuật toán, có một nguyên tắc chung: Các thuật toán machine learning nỗ lực nói chung hóa. Tức là, nó sẽ tìm và giảng giải theo cách đơn giản nhất; Nguyên tắc đó được biết tới là Occam’s razor.
  • Mọi thuật toán machine learning đều nỗ lực đưa ra những giả thiết đơn giản nhất nhưng mà có thể đúng với hồ hết các mẫu trong tập dữ liệu huấn luyện.
  • Có rất nhiều thuật toán machine learning không giống nhau. Nhưng tôi sẽ trình diễn ngắn gọn về 3 thuật toán phổ quát nhất:

Một số thuật toán Machine learning

  • Support Vector Machines: Một thuật toán nỗ lực xây dựng một siêu mặt phẳng trong ko gian nhiều chiều để phân biệt các nhân vật ở các lớp không giống nhau; Làm sao cho khoảng cách giữa 2 nhân vật khác label gần nhau nhất có khoảng cách cực đại. Ý tưởng của thuật toán hết sức đơn giản, nhưng mẫu hình này lại rất phức tạp và có hiệu quả. Thực tiễn, ở một số bài toán, SVM là một mẫu hình machine learning cho hiệu quả tốt nhất.
  • Mẫu hình xác suất(Probabilistic Models): Các mẫu hình này nỗ lực khắc phục bài toán bằng phân bố xác suất. Một thuật toán phổ quát nhất là phân loại Naive Bayes; Nó sử dụng lý thuyết Bayes và giả thiết các đặc trưng là độc lập. Điểm mạnh của mẫu hình xác suất là đơn giản nhưng hiệu quả. Đầu ra của nó ko chỉ là label nhưng mà còn đi kèm xác suất trình bày độ xác thực cho kết quả đó.
  • Học sâu(Deep learning): Hiện đang là xu thế trong machine learning dựa trên các mẫu hình mạng nơ ron nhân tạo(Artificial Neural Networks). Mạng nơ ron có cách tiếp cận kết nối và sử dụng ý tưởng theo cách bộ não con người làm việc. Chúng bao gồm số lượng lớn các nơ ron liên kết với nhau; được tổ chức thành các lớp(layers). Học sâu liên tục được tăng trưởng với các cấu trúc mới sâu hơn; Nó ko chỉ nỗ lực học nhưng mà còn xây dựng các cấu trúc trình diễn các đặc trưng quan trọng một cách tự động.

Xem xét quan trọng trong Machine learning

Nhắc lại, Machine learning nghe có vẻ rất thần thánh. Nhưng machine learning ko tự động làm tất cả mọi thứ cho bạn được. Thực tiễn, có nhiều bước thủ công cần làm để thiết kế ra một giải pháp. Tuy nhiên, chúng lại có tác động lớn tới kết quả của bài toán. Một số điều cần xem xét là:

Tôi nên sử dụng thuật toán học máy nào?

Học có giám sát hay học ko giám sát?

  • Dữ liệu của bạn có nhãn(label) hay ko? Tức là, mỗi mẫu dữ liệu huấn luyện có một đầu ra tương ứng hay ko? Nếu có, bạn hãy sử dụng học có giám sát để giải bài toán. Nếu ko, học ko giám sát là thuật toán bạn nên dùng.

Phân loại, hồi quy hay phân cụm?

  • Điều đó phụ thuộc chủ yếu vào câu hỏi: Bạn đang muốn khắc phục cái gì? Nếu bạn muốn gắn thẻ cho một bài báo; phân loại có thể là lựa chọn đúng mực. Nhưng nếu bạn cần kết quả là một con số, chẳng hạn dự đoán giá nhà đất, hồi quy là lựa chọn tốt nhất. Nếu bạn có một trang web bán hàng và muốn gợi ý thành phầm tương tự cho khách, lựa chọn hợp lý nhất trong trường hợp này là phân cụm.

Deep learning, SVM, Naive Bayes, Decision Trees… thuật toán nào tốt nhất?

  • Câu trả lời là: Ko có thuật toán nào là tốt nhất cho mọi bài toán. Có thể bạn thấy Deep learning và SVM đã chứng minh chúng mạnh mẽ và hiệu quả trong nhiều ứng dụng không giống nhau. Nhưng tùy vào từng bài toán cụ thể và phân tích dữ liệu, một vài thuật toán machine learning có thể làm tốt hơn các thuật toán còn lại. Bạn cần biết điểm mạnh của mỗi thuật toán và thử chúng để tìm được thuật toán tối ưu nhất!

Feature engineering

  • Feature engineering là quá trình chúng ta thực hiện trích xuất và trích chọn các đặc trưng(tính chất) quan trọng từ dữ liệu thô để sử dụng làm đại diện cho các mẫu dữ liệu huấn luyện. Một tập dữ liệu huấn luyện có thể có rất nhiều tính chất, nhưng ko phải cái nào cũng cần thiết và quan trọng. Feature engineering là kỹ thuật giúp loại trừ các tính chất dư thừa; làm đơn giản hóa quá trình trình diễn dữ liệu nhưng ko làm tác động tới kết quả cuối cùng. Nếu ko có bước này, mẫu hình học sẽ hết sức phức tạp và thậm chí còn giảm độ xác thực lúc có những tính chất nhiễu.
  • Feature engineering là một bước quan trọng trong Machine learning(trừ lúc dữ liệu của bạn đã sạch sẽ hoặc là bài toán chưa đủ lớn).
  • Bạn nên chú ý: Nếu bạn ko thực hiện bước này, kết quả sẽ có thể rất tệ, cho dù bạn có dùng một thuật toán tốt nhất đi nữa. Nó giống như bạn nỗ lực đọc trong bóng tối vậy; bạn ko thể đọc được cho dù bạn thông minh tới đâu đi nữa.

Trích xuất đặc trưng(Feature extraction)

  • Để nạp dữ liệu huấn luyện vào mẫu hình học máy, bạn cần phải đưa dữ liệu thô về cấu trúc nào đó nhưng mà thuật toán có thể “hiểu”. Công việc này được gọi là trích xuất đặc trưng. Thông dụng nhất, chúng ta sẽ chuyển dữ liệu thô về dữ liệu số là vector của các đặc trưng.
  • Trong VD1, làm sao ta có thể truyền vào thuật toán machine learning một hình ảnh?
  • Một cách đơn giản là chuyển ảnh đó thành một vector; Mỗi phần tử trong vector đó tương ứng là trị giá màu xám của từng pixel trong ảnh. Lúc đó, mỗi đặc trưng/thành phần sẽ là một trị giá số từ 0 – 255; 0 là màu đen, 255 là trắng và 1 – 254 là các trị giá mức độ xám.

Giải pháp trên có thể cho kết quả, nhưng kết quả sẽ cải thiện hơn nếu ta cung ứng nhiều đặc trưng có trị giá hơn:

  • Hình ảnh đó có chứa ảnh khuông mặt người?
  • Màu da là gì?
  • Màu mắt là gì?
  • Khuôn mặt có tóc hay ko?

Đó là những đặc trưng ở mức cao hơn. Những đặc trưng này có trị giá hơn nhiều so với đặc trưng màu của các pixel ảnh. Các đặc trưng này có thể là kết quả của một thuật toán machine learning khác. Hỗ trợ các đặc trưng mức cao hơn giúp mẫu hình học máy của ta học tập và đưa ra dự đoán xác thực hơn.

Nếu chúng ta cung ứng các đặc trưng tốt hơn:

  • Thuật toán sẽ có khả năng cung ứng những kết quả xác thực hơn.
  • Có thể sẽ cần ít dữ liệu huấn luyện hơn
  • Có thể giảm đáng kể thời kì huấn luyện mẫu hình.

Trích chọn đặc trưng(Feature selection)

  • Đôi lúc, các đặc trưng chúng ta cung ứng cho thuật toán machine learning có thể vô dụng. Chẳng hạn, với bài toán phân loại review, chúng ta cung ứng chiều dài của review, ngày tạo và người tạo review đó,… chúng có thể hữu ích hoặc ko. Sẽ rất hữu ích nếu có phương pháp tự động phát hiện điều này. Đó là trích chọn đặc trưng, thuật toán này sử dụng kỹ thuật đánh trọng số cho từng đặc trưng; Và chỉ lựa chọn các đặc trưng có trọng số cao.
  • Một xem xét nữa: Cái gì nhiều quá cũng ko tốt, tránh sử dụng số lượng đặc trưng quá lớn. Bạn có thể bị cám dỗ và thêm tất cả các đặc trưng có thể hữu ích. Nhưng đó ko phải cách tốt, thêm đặc trưng cũng đồng nghĩa ko gian bộ nhớ tăng lên, làm cho dữ liệu cách xa nhau hơn. Vấn đề phổ quát này được biết tới với cái tên curse of dimensionality. Lúc số lượng mẫu huấn luyện tăng theo cấp số nhân, đó thực sự là một vấn đề.

Dữ liệu huấn luyện(Training data)

  • Bạn cần truyền vào thuật toán machine learning các mẫu dữ liệu huấn luyện. Phụ thuộc vào bài toán bạn cần khắc phục, chúng ta có thể cần vài trăm, vài nghìn, triệu hoặc hàng tỷ mẫu dữ liệu huấn luyện. Cân nhắc, cung ứng các mẫu huấn luyện tốt là rất quan trọng; Nếu bạn đưa vào các mẫu dữ liệu sai, thời cơ để có kết quả tốt sẽ giảm đi.
  • Tích lũy một số lượng lớn dữ liệu liệu có chất lượng tốt để huấn luyện các mẫu hình học máy thường tốn nhiều chi phí. Trừ lúc bạn đã có sẵn dữ liệu gán nhãn rồi. Bạn có thể thực hiện công việc này thủ công bình sức người. Một số dụng cụ hỗ trợ tăng vận tốc gán nhãn có thể giúp bạn.
  • Nguyên tắc chung về dữ liệu huấn luyện là: Chất lượng của dữ liệu huấn luyện của bạn càng tốt, khả năng bạn thu được kết quả tốt sẽ cao hơn.

Dữ liệu kiểm thử và các độ đo

Sau lúc chúng ta tập huấn một thuật toán máy học, chúng ta cần rà soát hiệu quả của nó. Đây là một bước đặc thù quan trọng, nếu ko bạn sẽ ko thể biết mẫu hình của mình có học được gì hay ko!

Kiểm thử và độ xác thực

  • Ý tưởng thực hiện rất đơn giản, chúng ta sử dụng dữ liệu kiểm thử(testing data); Dữ liệu này có cấu trúc giống với dữ liệu huấn luyện; Nhưng là một tập dữ liệu ko có ở trong tập dữ liệu huấn luyện. Chúng ta sẽ thử từng mẫu dữ liệu kiểm thử, rà soát mẫu hình hoạt động có như mong đợi ko. Nếu là bài toán học có giám sát, chúng ta quan sát những mẫu mẫu hình cho ra kết quả đúng. Nếu độ xác thực trả ra là 90% trên tập kiểm thử, chúng ta kết luận mẫu hình này có độ xác thực là 90%.
  • Điều quan trọng phải nhớ rằng dữ liệu huấn luyện và kiểm thử phải tách biệt. Đây là cách duy nhất để rà soát hiệu suất của mẫu hình học máy. Bạn có thể có kết quả tốt trên tập dữ liệu huấn luyện, nhưng có kết quả tệ trên tập kiểm thử; Vấn đề này được gọi là overfiting; Mẫu hình học máy quá khớp với dữ liệu huấn luyện và có một kết quả dự đoán tệ. Cách thường dùng để tránh overfiting là sử dụng ít số lượng đặc trưng hơn; đơn giản hóa mẫu hình; sử dụng tập huấn luyện lớn hơn và ko gian dữ liệu bao quát hơn.

Một số độ đo khác

  • Độ xác thực là độ đo cơ bản nhất, bạn có thể sử dụng độ đo khác như Precission vs Recall; Nó sẽ nói cho bạn thuật toán hoạt động tốt như nào trên từng nhãn. Confusion matrices là một dụng cụ tuyệt vời để xem thuật toán phân loại dự đoán ‘nhập nhằng‘ trong trường hợp nào.
  • Đối với bài toán hồi quy và phân cụm, bạn cần có các độ đo khác để rà soát thuật toán của bạn có hoạt động tốt hay ko.

Hiệu suất

  • Trên thực tiễn, nếu bạn tăng trưởng giải pháp cho nhu cầu thực tiễn; Độ xác thực và vận tốc xử lý là những yếu tố bạn cần quan tâm. Ứng dụng của bạn dù có hiệu quả tốt nhưng xử lý chậm thì cũng chẳng sài được. Điều này có vẻ khó khăn trong machine learning.
  • Việc trước nhất là bạn cần lựa chọn một Machine learning Framework, các framework này thường có ở một số tiếng nói lập trình nhất mực. Python và thư viện Scikit-learn là một sự lựa chọn xuất sắc.
  • Tuy nhiên, vấn đề hiệu năng vẫn có thể xảy ra. Nó phụ thuộc vào số lượng dữ liệu huấn luyện, độ phức tạp và thuật toán bạn sử dụng; Điều này có thể cần những máy tính với bộ nhớ lớn và hiệu năng cao để huấn luyện. Có thể bạn phải huấn luyện nhiều lần để có được kết quả tốt. Bạn cũng có thể tập huấn lại mẫu hình để phủ hết những ko gian dữ liệu mới và tối ưu độ xác thực.
  • Nếu muốn huấn luyện dữ liệu lớn với vận tốc nhanh, chúng ta sẽ cần những máy tính với cấu hình cao; Chúng cho phép chạy đa luồng tốt và tính toán song song.
  • Đây cũng là những vấn đề xảy ra trên thực tiễn, nhưng bạn sẽ cần khắc phục chúng nếu muốn xây dựng những ứng dụng machine learning thực tiễn.

Kết luận

Cảm ơn bạn đã đọc bài viết của Trường THPT Diễn Châu 2, kỳ vọng những thông tin trả lời Machine Learning là gì? Những ý nghĩa của Machine Learning sẽ giúp độc giả bổ sung thêm tri thức hữu ích. Nếu độc giả có những đóng góp hay thắc mắc nào liên quan tới khái niệm Machine Learning là gì? vui lòng để lại những bình luận bên dưới bài viết này. Trường THPT Diễn Châu 2 luôn sẵn sàng trao đổi và đón nhận những thông tin tri thức mới tới từ quý độc giả

  • VPS là gì? Những ý nghĩa của VPS
  • EQ là gì? Những ý nghĩa của EQ
  • Platform là gì? Những ý nghĩa của Platform
  • FMCG là gì? Những ý nghĩa của FMCG
  • Framework là gì? Những ý nghĩa của Framework
  • F&B là gì? Những ý nghĩa của F&B
  • Domain là gì? Những ý nghĩa của Domain

Bạn thấy bài viết Machine Learning là gì? Những ý nghĩa của Machine Learning có khắc phục đươc vấn đề bạn tìm hiểu ko?, nếu  ko hãy comment góp ý thêm về Machine Learning là gì? Những ý nghĩa của Machine Learning bên dưới để dienchau2.edu.vn có thể thay đổi & cải thiện nội dung tốt hơn cho độc giả nhé! Cám ơn bạn đã ghé thăm Website Trường THPT Diễn Châu 2

Phân mục: Là gì?
#Machine #Learning #là #gì #Những #nghĩa #của #Machine #Learning

[rule_{ruleNumber}]

; Nó trình bày xác suất một người sẽ trả các khoản vay của mình. Lúc đó, dữ liệu sẽ giống như sau:

Nghề nghiệp Thu nhập Tuổi Điểm tin tưởng
Lập trình viên > 1000$ 25 0.85
Sinh viên < 200$ 18 0.3

Học có giám sát là thuật toán phổ quát nhất trong các thuật toán machine learning. Hạn chế lúc sử dụng thuật toán này là chúng ta cần cung ứng dữ liệu có gán nhãn. Trong nhiều trường hợp, để có được dữ liệu gán nhãn này rất tốn rất nhiều chi phí. Chẳng hạn trong VD2, nếu ta cần 10.000 review có nhãn(tích cực, tiêu cực, trung tính) để huấn luyện mẫu hình; Việc này sẽ cần con người đọc từng review và gán nhãn thủ công; Điều này rất tốn thời kì và công sức. Đây cũng là một rào cản của ML: xây dựng các tập dữ liệu gán nhãn chất lượng.

Học ko giám sát

  • Học ko giám sát cũng là một nhánh trong machine learning. Các mẫu dữ liệu trong học ko giám sát chỉ cần input(đầu vào) nhưng mà ko cần label(đầu ra). Nó được sử dụng nhiều trong việc khám phá cấu trúc và mối quan hệ của dữ liệu. Một thuật toán tiêu biểu là bài toán phân cụm(clustering algorithm); Nó học cách để tìm các mẫu dữ liệu tương tự nhau và nhóm vào thành các cụm(cluster). Một số thuật toán phân cụm như K-means học cách phân cụm chỉ học từ tập dữ liệu đầu vào.

Các thuật toán Machine learning

  • Oke, hiện giờ chúng ta sẽ đi sâu hơn để hiểu rõ hơn cách machine learning làm việc. Để thực hiện chuyển đổi từ input thành output mong muốn, chúng ta có thể sử dụng các mẫu hình không giống nhau. Machine learning ko phải là một loại thuật toán duy nhất; Có thể bạn đã nghe tới Support vector machine(SVM), Naive Bayes, Cây quyết định(Decision Trees) hay Học sâu(Deep learning). Các thuật toán này đều nỗ lực khắc phục một bài toán: Học cách chuyển đổi mọi input thành output xác thực của nhưng mà nó thuộc về.
  • Những thuật toán machine learning này sử dụng các mẫu hình/ kỹ thuật không giống nhau để thực hiện quá trình học tập và trình bày tri thức về những gì nó được học.
  • Nhưng trước lúc đi vào từng thuật toán, có một nguyên tắc chung: Các thuật toán machine learning nỗ lực nói chung hóa. Tức là, nó sẽ tìm và giảng giải theo cách đơn giản nhất; Nguyên tắc đó được biết tới là Occam’s razor.
  • Mọi thuật toán machine learning đều nỗ lực đưa ra những giả thiết đơn giản nhất nhưng mà có thể đúng với hồ hết các mẫu trong tập dữ liệu huấn luyện.
  • Có rất nhiều thuật toán machine learning không giống nhau. Nhưng tôi sẽ trình diễn ngắn gọn về 3 thuật toán phổ quát nhất:

Một số thuật toán Machine learning

  • Support Vector Machines: Một thuật toán nỗ lực xây dựng một siêu mặt phẳng trong ko gian nhiều chiều để phân biệt các nhân vật ở các lớp không giống nhau; Làm sao cho khoảng cách giữa 2 nhân vật khác label gần nhau nhất có khoảng cách cực đại. Ý tưởng của thuật toán hết sức đơn giản, nhưng mẫu hình này lại rất phức tạp và có hiệu quả. Thực tiễn, ở một số bài toán, SVM là một mẫu hình machine learning cho hiệu quả tốt nhất.
  • Mẫu hình xác suất(Probabilistic Models): Các mẫu hình này nỗ lực khắc phục bài toán bằng phân bố xác suất. Một thuật toán phổ quát nhất là phân loại Naive Bayes; Nó sử dụng lý thuyết Bayes và giả thiết các đặc trưng là độc lập. Điểm mạnh của mẫu hình xác suất là đơn giản nhưng hiệu quả. Đầu ra của nó ko chỉ là label nhưng mà còn đi kèm xác suất trình bày độ xác thực cho kết quả đó.
  • Học sâu(Deep learning): Hiện đang là xu thế trong machine learning dựa trên các mẫu hình mạng nơ ron nhân tạo(Artificial Neural Networks). Mạng nơ ron có cách tiếp cận kết nối và sử dụng ý tưởng theo cách bộ não con người làm việc. Chúng bao gồm số lượng lớn các nơ ron liên kết với nhau; được tổ chức thành các lớp(layers). Học sâu liên tục được tăng trưởng với các cấu trúc mới sâu hơn; Nó ko chỉ nỗ lực học nhưng mà còn xây dựng các cấu trúc trình diễn các đặc trưng quan trọng một cách tự động.

Xem xét quan trọng trong Machine learning

Nhắc lại, Machine learning nghe có vẻ rất thần thánh. Nhưng machine learning ko tự động làm tất cả mọi thứ cho bạn được. Thực tiễn, có nhiều bước thủ công cần làm để thiết kế ra một giải pháp. Tuy nhiên, chúng lại có tác động lớn tới kết quả của bài toán. Một số điều cần xem xét là:

Tôi nên sử dụng thuật toán học máy nào?

Học có giám sát hay học ko giám sát?

  • Dữ liệu của bạn có nhãn(label) hay ko? Tức là, mỗi mẫu dữ liệu huấn luyện có một đầu ra tương ứng hay ko? Nếu có, bạn hãy sử dụng học có giám sát để giải bài toán. Nếu ko, học ko giám sát là thuật toán bạn nên dùng.

Phân loại, hồi quy hay phân cụm?

  • Điều đó phụ thuộc chủ yếu vào câu hỏi: Bạn đang muốn khắc phục cái gì? Nếu bạn muốn gắn thẻ cho một bài báo; phân loại có thể là lựa chọn đúng mực. Nhưng nếu bạn cần kết quả là một con số, chẳng hạn dự đoán giá nhà đất, hồi quy là lựa chọn tốt nhất. Nếu bạn có một trang web bán hàng và muốn gợi ý thành phầm tương tự cho khách, lựa chọn hợp lý nhất trong trường hợp này là phân cụm.

Deep learning, SVM, Naive Bayes, Decision Trees… thuật toán nào tốt nhất?

  • Câu trả lời là: Ko có thuật toán nào là tốt nhất cho mọi bài toán. Có thể bạn thấy Deep learning và SVM đã chứng minh chúng mạnh mẽ và hiệu quả trong nhiều ứng dụng không giống nhau. Nhưng tùy vào từng bài toán cụ thể và phân tích dữ liệu, một vài thuật toán machine learning có thể làm tốt hơn các thuật toán còn lại. Bạn cần biết điểm mạnh của mỗi thuật toán và thử chúng để tìm được thuật toán tối ưu nhất!

Feature engineering

  • Feature engineering là quá trình chúng ta thực hiện trích xuất và trích chọn các đặc trưng(tính chất) quan trọng từ dữ liệu thô để sử dụng làm đại diện cho các mẫu dữ liệu huấn luyện. Một tập dữ liệu huấn luyện có thể có rất nhiều tính chất, nhưng ko phải cái nào cũng cần thiết và quan trọng. Feature engineering là kỹ thuật giúp loại trừ các tính chất dư thừa; làm đơn giản hóa quá trình trình diễn dữ liệu nhưng ko làm tác động tới kết quả cuối cùng. Nếu ko có bước này, mẫu hình học sẽ hết sức phức tạp và thậm chí còn giảm độ xác thực lúc có những tính chất nhiễu.
  • Feature engineering là một bước quan trọng trong Machine learning(trừ lúc dữ liệu của bạn đã sạch sẽ hoặc là bài toán chưa đủ lớn).
  • Bạn nên chú ý: Nếu bạn ko thực hiện bước này, kết quả sẽ có thể rất tệ, cho dù bạn có dùng một thuật toán tốt nhất đi nữa. Nó giống như bạn nỗ lực đọc trong bóng tối vậy; bạn ko thể đọc được cho dù bạn thông minh tới đâu đi nữa.

Trích xuất đặc trưng(Feature extraction)

  • Để nạp dữ liệu huấn luyện vào mẫu hình học máy, bạn cần phải đưa dữ liệu thô về cấu trúc nào đó nhưng mà thuật toán có thể “hiểu”. Công việc này được gọi là trích xuất đặc trưng. Thông dụng nhất, chúng ta sẽ chuyển dữ liệu thô về dữ liệu số là vector của các đặc trưng.
  • Trong VD1, làm sao ta có thể truyền vào thuật toán machine learning một hình ảnh?
  • Một cách đơn giản là chuyển ảnh đó thành một vector; Mỗi phần tử trong vector đó tương ứng là trị giá màu xám của từng pixel trong ảnh. Lúc đó, mỗi đặc trưng/thành phần sẽ là một trị giá số từ 0 – 255; 0 là màu đen, 255 là trắng và 1 – 254 là các trị giá mức độ xám.

Giải pháp trên có thể cho kết quả, nhưng kết quả sẽ cải thiện hơn nếu ta cung ứng nhiều đặc trưng có trị giá hơn:

  • Hình ảnh đó có chứa ảnh khuông mặt người?
  • Màu da là gì?
  • Màu mắt là gì?
  • Khuôn mặt có tóc hay ko?

Đó là những đặc trưng ở mức cao hơn. Những đặc trưng này có trị giá hơn nhiều so với đặc trưng màu của các pixel ảnh. Các đặc trưng này có thể là kết quả của một thuật toán machine learning khác. Hỗ trợ các đặc trưng mức cao hơn giúp mẫu hình học máy của ta học tập và đưa ra dự đoán xác thực hơn.

Nếu chúng ta cung ứng các đặc trưng tốt hơn:

  • Thuật toán sẽ có khả năng cung ứng những kết quả xác thực hơn.
  • Có thể sẽ cần ít dữ liệu huấn luyện hơn
  • Có thể giảm đáng kể thời kì huấn luyện mẫu hình.

Trích chọn đặc trưng(Feature selection)

  • Đôi lúc, các đặc trưng chúng ta cung ứng cho thuật toán machine learning có thể vô dụng. Chẳng hạn, với bài toán phân loại review, chúng ta cung ứng chiều dài của review, ngày tạo và người tạo review đó,… chúng có thể hữu ích hoặc ko. Sẽ rất hữu ích nếu có phương pháp tự động phát hiện điều này. Đó là trích chọn đặc trưng, thuật toán này sử dụng kỹ thuật đánh trọng số cho từng đặc trưng; Và chỉ lựa chọn các đặc trưng có trọng số cao.
  • Một xem xét nữa: Cái gì nhiều quá cũng ko tốt, tránh sử dụng số lượng đặc trưng quá lớn. Bạn có thể bị cám dỗ và thêm tất cả các đặc trưng có thể hữu ích. Nhưng đó ko phải cách tốt, thêm đặc trưng cũng đồng nghĩa ko gian bộ nhớ tăng lên, làm cho dữ liệu cách xa nhau hơn. Vấn đề phổ quát này được biết tới với cái tên curse of dimensionality. Lúc số lượng mẫu huấn luyện tăng theo cấp số nhân, đó thực sự là một vấn đề.

Dữ liệu huấn luyện(Training data)

  • Bạn cần truyền vào thuật toán machine learning các mẫu dữ liệu huấn luyện. Phụ thuộc vào bài toán bạn cần khắc phục, chúng ta có thể cần vài trăm, vài nghìn, triệu hoặc hàng tỷ mẫu dữ liệu huấn luyện. Cân nhắc, cung ứng các mẫu huấn luyện tốt là rất quan trọng; Nếu bạn đưa vào các mẫu dữ liệu sai, thời cơ để có kết quả tốt sẽ giảm đi.
  • Tích lũy một số lượng lớn dữ liệu liệu có chất lượng tốt để huấn luyện các mẫu hình học máy thường tốn nhiều chi phí. Trừ lúc bạn đã có sẵn dữ liệu gán nhãn rồi. Bạn có thể thực hiện công việc này thủ công bình sức người. Một số dụng cụ hỗ trợ tăng vận tốc gán nhãn có thể giúp bạn.
  • Nguyên tắc chung về dữ liệu huấn luyện là: Chất lượng của dữ liệu huấn luyện của bạn càng tốt, khả năng bạn thu được kết quả tốt sẽ cao hơn.

Dữ liệu kiểm thử và các độ đo

Sau lúc chúng ta tập huấn một thuật toán máy học, chúng ta cần rà soát hiệu quả của nó. Đây là một bước đặc thù quan trọng, nếu ko bạn sẽ ko thể biết mẫu hình của mình có học được gì hay ko!

Kiểm thử và độ xác thực

  • Ý tưởng thực hiện rất đơn giản, chúng ta sử dụng dữ liệu kiểm thử(testing data); Dữ liệu này có cấu trúc giống với dữ liệu huấn luyện; Nhưng là một tập dữ liệu ko có ở trong tập dữ liệu huấn luyện. Chúng ta sẽ thử từng mẫu dữ liệu kiểm thử, rà soát mẫu hình hoạt động có như mong đợi ko. Nếu là bài toán học có giám sát, chúng ta quan sát những mẫu mẫu hình cho ra kết quả đúng. Nếu độ xác thực trả ra là 90% trên tập kiểm thử, chúng ta kết luận mẫu hình này có độ xác thực là 90%.
  • Điều quan trọng phải nhớ rằng dữ liệu huấn luyện và kiểm thử phải tách biệt. Đây là cách duy nhất để rà soát hiệu suất của mẫu hình học máy. Bạn có thể có kết quả tốt trên tập dữ liệu huấn luyện, nhưng có kết quả tệ trên tập kiểm thử; Vấn đề này được gọi là overfiting; Mẫu hình học máy quá khớp với dữ liệu huấn luyện và có một kết quả dự đoán tệ. Cách thường dùng để tránh overfiting là sử dụng ít số lượng đặc trưng hơn; đơn giản hóa mẫu hình; sử dụng tập huấn luyện lớn hơn và ko gian dữ liệu bao quát hơn.

Một số độ đo khác

  • Độ xác thực là độ đo cơ bản nhất, bạn có thể sử dụng độ đo khác như Precission vs Recall; Nó sẽ nói cho bạn thuật toán hoạt động tốt như nào trên từng nhãn. Confusion matrices là một dụng cụ tuyệt vời để xem thuật toán phân loại dự đoán ‘nhập nhằng‘ trong trường hợp nào.
  • Đối với bài toán hồi quy và phân cụm, bạn cần có các độ đo khác để rà soát thuật toán của bạn có hoạt động tốt hay ko.

Hiệu suất

  • Trên thực tiễn, nếu bạn tăng trưởng giải pháp cho nhu cầu thực tiễn; Độ xác thực và vận tốc xử lý là những yếu tố bạn cần quan tâm. Ứng dụng của bạn dù có hiệu quả tốt nhưng xử lý chậm thì cũng chẳng sài được. Điều này có vẻ khó khăn trong machine learning.
  • Việc trước nhất là bạn cần lựa chọn một Machine learning Framework, các framework này thường có ở một số tiếng nói lập trình nhất mực. Python và thư viện Scikit-learn là một sự lựa chọn xuất sắc.
  • Tuy nhiên, vấn đề hiệu năng vẫn có thể xảy ra. Nó phụ thuộc vào số lượng dữ liệu huấn luyện, độ phức tạp và thuật toán bạn sử dụng; Điều này có thể cần những máy tính với bộ nhớ lớn và hiệu năng cao để huấn luyện. Có thể bạn phải huấn luyện nhiều lần để có được kết quả tốt. Bạn cũng có thể tập huấn lại mẫu hình để phủ hết những ko gian dữ liệu mới và tối ưu độ xác thực.
  • Nếu muốn huấn luyện dữ liệu lớn với vận tốc nhanh, chúng ta sẽ cần những máy tính với cấu hình cao; Chúng cho phép chạy đa luồng tốt và tính toán song song.
  • Đây cũng là những vấn đề xảy ra trên thực tiễn, nhưng bạn sẽ cần khắc phục chúng nếu muốn xây dựng những ứng dụng machine learning thực tiễn.

Kết luận

Cảm ơn bạn đã đọc bài viết của Trường THPT Diễn Châu 2, kỳ vọng những thông tin trả lời Machine Learning là gì? Những ý nghĩa của Machine Learning sẽ giúp độc giả bổ sung thêm tri thức hữu ích. Nếu độc giả có những đóng góp hay thắc mắc nào liên quan tới khái niệm Machine Learning là gì? vui lòng để lại những bình luận bên dưới bài viết này. Trường THPT Diễn Châu 2 luôn sẵn sàng trao đổi và đón nhận những thông tin tri thức mới tới từ quý độc giả

  • VPS là gì? Những ý nghĩa của VPS
  • EQ là gì? Những ý nghĩa của EQ
  • Platform là gì? Những ý nghĩa của Platform
  • FMCG là gì? Những ý nghĩa của FMCG
  • Framework là gì? Những ý nghĩa của Framework
  • F&B là gì? Những ý nghĩa của F&B
  • Domain là gì? Những ý nghĩa của Domain

Bạn thấy bài viết Machine Learning là gì? Những ý nghĩa của Machine Learning có khắc phục đươc vấn đề bạn tìm hiểu ko?, nếu  ko hãy comment góp ý thêm về Machine Learning là gì? Những ý nghĩa của Machine Learning bên dưới để dienchau2.edu.vn có thể thay đổi & cải thiện nội dung tốt hơn cho độc giả nhé! Cám ơn bạn đã ghé thăm Website Trường THPT Diễn Châu 2

Phân mục: Là gì?
#Machine #Learning #là #gì #Những #nghĩa #của #Machine #Learning

#Machine #Learning #là #gì #Những #nghĩa #của #Machine #Learning

Bạn thấy bài viết Machine Learning là gì? Những ý nghĩa của Machine Learning có giải quyết đươc vấn đề bạn tìm hiểu không?, nếu  không hãy comment góp ý thêm về Machine Learning là gì? Những ý nghĩa của Machine Learning bên dưới để dienchau2.edu.vn có thể chỉnh sửa & cải thiện nội dung tốt hơn cho độc giả nhé! Cám ơn bạn đã ghé thăm Website Trường THPT Diễn Châu 2

Nhớ để nguồn: Machine Learning là gì? Những ý nghĩa của Machine Learning tại Kiến thức chung

THPT Diễn Châu 2

THPT Diễn Châu 2 – Nghệ An được thành lập vào năm 1965. Trường được tách từ Trường cấp 3 Diễn Châu 1 thành THPT Diễn Châu 2 và THPT Nguyễn Xuân Ôn. Ngôi trường THPT Diễn Châu 2 – Nghệ An mang nhiệm vụ đào tạo các thế hệ học sinh của vùng Trung, Bắc Diễn Châu và một số xã của huyện Yên Thành như: Đô Thành, Đức Thành, Thọ Thành.

Những bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Back to top button