K Mean Algorithm

The video below is quite an easy tutorial to understand about K-mean cluster analysis Video 1


The question about K mean algorithm is what is the best value of k.


1. Khoảng cách

Trước hết cần phải hiểu khái niệm khoảng cách. Bạn có thể tham khảo tóm tắt của Bioz Nguyen tại  đây
Trích từ bài viết của tác giả về 2 loại khoảng cách quan trọng nhất với mình hiện tại
Khoảng cách Euclidean (Euclidean Distance): Khoảng cách giữa 2 điểm là chiều dài của đường thẳng nối chúng. Trong mặt phẳng, khoảng cách giữa 2 điểm (x1, y1)  và (x2, y2) được cho bởi định lý Pythagorean như sau:
Trong không gian ba chiều Euclidean, khoảng cách giữa hai điểm (x1, y1, z1) và (x2, y2, z2) là
Một cách tổng quát, khoảng cách giữa 2 điểm x, y trong không gian Euclidean R với n chiều được tính như sau:
Ví dụ:


Khoảng cách Hamming (Hamming Distance): Là số thay thế nhỏ nhất các thành phần, phần tử thuộc đối tượng, hệ thống, dữ liệu A để có thể trở thành B. Khi đó nó gọi là khoảng cách Hamming giữa A và B. Cũng có thể hiểu khái niệm này như một dạng của phép đo lỗi (error) hay khác biệt (difference) giữa 2 trạng thái, 2 đối tượng khác nhau.

dễ dàng nhận thấy nếu A và B là hai chuỗi nhị phân thì Hamming Distance của chúng là số giá trị 1 trong kết quả của A XOR B.

Ví dụ:

A = "hello bioz"
B = "hallo bios"

d (A, B) = 2

Khoảng cách Manhattan (Manhattan Distance = Rectilinear Distance = City Block Distance = Taxicab Geometry = Chebyshev Distance): Khoảng cách của hai điểm P1 và P2 trong một mặt phẳng bằng chiều dài của tất cả các đoạn nối p với q dọc theo mặt cắt trục đứng và trục ngang, theo một chiều tới.

Trong hình trên đường đỏ thể hiện khoảng cách Manhattan, đường xanh nước biển và vàng tương đương với khoảng cách Manhattan, đường xanh lá cây là đường thằng hay khoảng cách Euclidean.
Một cách tổng quát, khoảng cách Manhattan của 2 điểm p và q trong không gian vector n chiều với hệ tọa độ Cartesian xác định được tính như sau:
với
2. Toán cơ bản (với khoảng cách Euclid) 

Đây là kiến thức toán cơ bản phía sau thuật toán K mean cluster. video

3. Cách chọn K. 

a. Visualization
b. Elbow method

Tóm tắt qua bài giảng của Andrew Ng tại đây

Nhận xét

Bài đăng phổ biến từ blog này

Consumer Behavior: Chapter 4 - Learning and Memory

Consumer Behavior - Chapter 7: Personality, Lifestyles, and Values.

Consumer Behavior: Chapter 5: Motivation and Affect