**<p style="text-align: center;">ỨNG DỤNG PHÂN KHÚC KHÁCH HÀNG DỰA TRÊN LÝ THUYẾT K-MEANS CLUSTERING</p>**

# **<p style="text-align:center;">PERSONALITY BASED MOVIE RECOMMENDER</p>** # **I. Tổng quan về dự án** ## **1. Giới thiệu** ### **1.1 Bối cảnh** Điện ảnh đang là một ngành công nghiệp giải trí đang có những bước tiến trong sự phát triển và cho thấy được sức ảnh hưởng to lớn của mình đến công chúng. Theo đó, nhu cầu giải trí trong đa dạng các hình thức bao gồm cả điện ảnh đang có xu hướng tăng ở đại công chúng. Điện ảnh là một ngành mang tính nghệ thuật vì thế nhu cầu và sở thích của mỗi khách hàng trong lĩnh vực này là hoàn toàn khác nhau. Từ đó có thể thấy các bộ phim cần được sắp xếp và hệ thống hóa một cách khoa học. Đồng thời, việc xây dựng một hệ thống đề xuất phim phù hợp với mỗi tính cách của từng khách hàng là hoàn toàn hợp lí. ### **1.2 Movie recommender system là gì?** Hệ thống đề xuất phim là một loại hệ thống máy tính được thiết kế để tự động gợi ý các bộ phim cho người dùng dựa trên sở thích, lịch sử xem phim, hoặc các yếu tố khác liên quan đến cá nhân hóa. Mục tiêu chính của hệ thống này là cung cấp gợi ý phim cá nhân hóa để giúp người dùng khám phá và chọn lựa nội dung phim mà họ có thể thích. Hệ thống đề xuất phim thường sử dụng các kỹ thuật máy học và thuật toán để phân tích dữ liệu của người dùng, xác định sở thích và mô hình hóa mối quan hệ giữa người dùng và các bộ phim. ### **1.3 Giới thiệu về Personality based movie recommender** Chúng tôi ưu tiên tạo ra hệ thống đề xuất phim dựa trên tính cách của người dùng. Loại hệ thống này sử dụng thông tin về đặc điểm tính cách của người dùng để đề xuất phim mà họ có thể thích. Mục tiêu là cung cấp các đề xuất phim cá nhân hóa và chính xác hơn bằng cách hiểu rõ hơn về người dùng dựa trên các khía cạnh tâm lý hơn là chỉ dựa vào hành vi xem phim trước đây của họ. Hệ thống này sử dụng các mô hình tính cách như Big Five (còn gọi là OCEAN, bao gồm Openness, Conscientiousness, Extraversion, Agreeableness, và Neuroticism) để phân tích và hiểu tính cách của người dùng. Các đặc điểm này có thể được thu thập thông qua bảng câu hỏi mà chúng tôi đề ra. Dự án PBMR (Personality Based Movie Recommender) dựa trên User-Based Collaborative Filtering Systems (Hệ thống lọc công tác dựa trên người dùng) để dự đoán sở thích về phim của người dùng bằng cách xem xét thông tin của nhóm người dùng có sở thích tương tự. ## **2. Chức năng** Bao gồm 4 chức năng chính: - Đăng kí người dùng: Khách hàng mới sử dụng có thể đăng ký bằng cách cung cấp những đặc điểm tính cách của họ và nhận được ID riêng. - Quản lí dữ liệu tính cách: lưu trữ và tìm lại dữ liệu cũ và liên tục cập nhật dữ liệu tính cách mới của người dùng - Gợi ý phim: Gợi ý phim phù hợp với tính cách cho những người dùng đã đăng ký. - Gợi ý kiểu phim: người dùng sẽ nhận được kiểu phim đặc trưng của họ thông qua những bộ phim yêu thích ## **3. Cách thức hoạt động** Sau đây là sơ đồ hoạt động của dự án: ![image](https://hackmd.io/_uploads/BJt_WPX5a.png) Hệ thống sẽ cũng cấp cho người dùng một giao diện cơ bản đòi hỏi cung cấp các chỉ số về tính cách nhằm mục đích đề xuất. Chỉ số càng chính xác kết quả càng chính xác Hệ thống cho phép điền tên người dùng đã tạo trước đó cũng như là tên người dùng mới. Nếu là tên người dùng mới sẽ được bắt đầu quá trình thiết lập tính cách. Bắt đầu tìm kiếm và đề xuất các bộ phim phù hợp với các thông số tính cách được đưa vào bởi người dùng mới. Cuối cùng, hệ thống hóa và trình chiếu danh sách phim. ## **4. Giao diện** * Trang 1: Nhập ID người dùng cũ hoặc thiết lập tính cách của người dùng mới Chức năng: Cho phép nhập ID người dùng cũ hoặc người dùng mới để thiết lập tính cách Bao gồm: Cửa sổ nhập tên người dùng và câu hỏi chỉ số tính cách. Xử lý: Hệ thống tạo ID cho người dùng mới và đề trình danh sách phim đề xuất. **HÌNH 1: NÊU ĐÁNH GIÁ CÁ NHÂN** ![image](https://hackmd.io/_uploads/S1eQHLXY6.png) **HÌNH 2: ĐIỂM CÁ NHÂN** ![image](https://hackmd.io/_uploads/HyFzBIQFp.png) * Trang 2: Kết quả gợi ý Chức năng: Gợi ý phim hoặc kiểu phim Bao gồm: Danh sách phim/ kiểu phim, ID người dùng (đặc biệt đối với người mới), những lựa chọn để khách hàng thay đổi theo sở thích Xử lý: Người dùng có thể tương tác với danh sách, thay đổi kiểu phim yêu thích, và yêu cầu những gợi ý mới nhất. **HÌNH 3: KẾT QUẢ GỢI Ý** ![image](https://hackmd.io/_uploads/Bk_mSLQYp.png) # **III. Cấu trúc dữ liệu** ## **1. Các thư viện được sử dụng** *Numpy* - Thư viện chuyên về xử lý mảng và ma trận, cũng như cung cấp các chức năng toán học mạnh mẽ để làm việc với dữ liệu số. *Pandas* - Thư viện mã nguồn mở cung cấp các cấu trúc dữ liệu và công cụ phân tích dữ liệu mạnh mẽ. *Flask* - Một framework web nhỏ xây dựng ứng dụng web một cách đơn giản, hiệu quả, và dễ bảo trì. Nó được thiết kế để làm nền tảng cho những dự án web nhỏ và trung bình. *SciPy* - Thư viện mã nguồn mở chuyên về các thuật toán, cung cấp nhiều chức năng hữu ích và mô-đun để giải quyết các vấn đề trong các lĩnh vực như toán học, khoa học dữ liệu, kỹ thuật, và tính toán khoa học. *Scikit-learn* - Thư viện mã nguồn mở cung cấp một loạt các công cụ và thuật toán tiêu biểu để thực hiện các nhiệm vụ khác nhau trong lĩnh vực học máy, bao gồm phân loại, hồi quy, gom cụm, giảm chiều dữ liệu, và nhiều công việc khác. ```php= from flask import Flask, jsonify, request import numpy as np import pandas as pd from scipy.stats import pearsonr from sklearn.neighbors import NearestNeighbors from scipy.spatial.distance import pdist, squareform from flask_cors import CORS ``` ## **2. Thuật toán được sử dụng** Thuật toán K-Nearest Neighbors (KNN) là một phương pháp được sử dụng để đề xuất sản phẩm cho một người dùng dựa trên sự tương đồng giữa người dùng đó và các người dùng khác. ## **3. Thu thập dữ liệu** Bộ dữ liệu được tham khảo [tại đây](https://github.com/lettaz/Personality-Based-Movie-Recommender-System/tree/main/datasets) Các biến được sử dụng trong tập dữ liệu: *Big Five Personality Test* * ***Userid***: ID người dùng. * ***Openess***: thang điểm đánh giá dựa trên sự yêu thích với những trải nghiệm mới (từ 1 đến 7). Nếu là 1 nghĩa là người dùng không thích trải nghiệm mới và 7 nghĩa là người dùng thích việc khám phá những thể loại mới. * ***Agreeableness***: thang điểm đánh giá (từ 1 đến 7) đo lường khả năng của người sử dụng trong việc thể hiện lòng trắc ẩn và hợp tác hơn là sự nghi ngờ và đối địch đối với người khác. Điểm 1 cho biết người sử dụng có xu hướng không thể hiện lòng trắc ẩn và hợp tác. Điểm 7 cho biết người sử dụng có xu hướng thể hiện lòng trắc ẩn và hợp tác. * ***Emotional_Stability***: thang điểm đánh giá xu hướng người dùng liệu có những căng thẳng về tâm lý (từ 1 đến 7). * ***Conscientiousness***: thang điểm đánh giá khả năng tổ chức và bị phụ thuộc của người dùng, cho thấy tính kỷ luật cao. * ***Extraversion***: thang điểm đánh giá (từ 1 đến 7) đo lường xu hướng của người sử dụng trong việc trở nên hướng ngoại. Điểm 1 cho biết người sử dụng không có xu hướng như vậy, và điểm 7 cho biết người sử dụng có xu hướng như vậy. Dưới đây là quá trình thu thập nhiều tập dữ liệu cho hệ thống gợi ý phim: * '2018_ratings.csv': Bao gồm các cột 'userid', 'movie_id', 'rating', 'tstamp'. | userid | movie_id | rating | tstamp | | --------------------------------- | -------- | ------ | ------------------- | | 8e7cebf9a234c064b75016249f2ac65e | 1 | 5 | 2001-09-10 17:19:56 | | 8e7cebf9a234c064b75016249f2ac65e2 | 2 | 4 | 2001-09-28 11:34:55 | | 8e7cebf9a234c064b75016249f2ac65e | 3 | 4 | 2001-09-28 11:42:50 | | 8e7cebf9a234c064b75016249f2ac65e | 6 | 4 | 2002-01-07 18:12:02 | * '2018-personality-data.csv': Bao gồm các cột 'userid', 'openness', 'agreeableness', 'emotional_stability', 'conscientiousness', 'extraversion'. | userid | openess | agreeableness | emotional_stability | conscientiousness | extraversion | | -------------------------------- | ------- | ------------- | ------------------- | ----------------- | ------------ | | 8e7cebf9a234c064b75016249f2ac65e | 5.0 | 2.0 | 3.0 | 2.5 | 6.5 | | 77c7d756a093150d4377720abeaeef76 | 7.0 | 4.0 | 6.0 | 5.5 | 4.0 | | b7e8a92987a530cc368719a0e60e26a3 | 4.0 | 3.0 | 4.5 | 2.0 | 2.5 | | 92561f21446e017dd6b68b94b23ad5b7 | 5.5 | 5.5 | 4.0 | 4.5 | 4.0 | | 030001ac2145a938b07e686a35a2d638|5.5|5.5|3.5|4.5|2.5 | * 'movies.csv': Bao gồm các cột 'movieId', 'title', 'genres'. | movieId | title | genres | | ------- | ---------------- | ------------------------------------------- | | 1 | Toy Story (1995) | Adventure/Animation/Children/Comedy/Fantasy | | 2 | Jumanji (1995) | Adventure/Children/Fantasy | | 3 | Grumpier Old Men (1995) | Comedy/Romance | ## **4. Xử lí dữ liệu** ### **4.1 Tiền xử lí dữ liệu** Đây là quá trình xử lý và chuẩn bị dữ liệu về tính cách, đánh giá, và mỗi dataset. ```php= # Preprocess personality data from the CSV def preprocess_personality_data(data): # Adjusting column names by removing leading spaces data.columns = [col.strip() for col in personality_data.columns] # Keeping only relevant columns relevant_columns = ['userid', 'openness', 'agreeableness', 'emotional_stability', 'conscientiousness', 'extraversion'] data = data[relevant_columns] # Removing duplicates data = data.drop_duplicates(subset=['userid']) return data # Preprocess rating data from the CSV def preprocess_ratings_data(data): # Strip whitespace from column names data.columns = data.columns.str.strip() # Aggregate duplicate ratings return data.groupby(['useri', 'movie_id']).agg({'rating': 'mean'}).reset_index() # Preprocess each dataset personality_data = preprocess_personality_data(personality_data) ratings_data = preprocess_ratings_data(ratings_data) ``` ### **4.2 Lấy dữ liệu về tính cách của người dùng** Quá trình này nhằm mục đích thu thập thông tin về tính cách của người dùng cho việc gợi ý phim. ```php= user_data = personality_data[personality_data['userid'] == user_id] if not user_data.empty: user_data_dict = user_data.iloc[0].to_dict() print("User Data from GetUserPersonalityData:\n", user_data_dict) # Debug print return user_data_dict else: print("No user data found for ID:", user_id) # Debug print return None ``` ### **4.3 Tính toán sự tương đồng** Sử dụng phép tính Pearson correlation để đánh giá mức độ tương quan giữa các hồ sơ người dùng. Việc tính toán dựa trên công thức: ![image](https://hackmd.io/_uploads/BJKXziM96.png) ![image](https://hackmd.io/_uploads/HkNVMof56.png) Qua đó, chúng tôi thực hiện phép tính như sau: ```php= correlation_matrix = pd.DataFrame(squareform(pdist(user_profiles, metric='correlation')), columns=user_profiles.index, index=user_profiles.index) ``` Tiếp theo, chúng tôi kết hợp với thuật toán K-NN để xác định một nhóm người dùng có tính cách tương tự nhau dựa trên một tiêu chí cụ thể, nhưng loại trừ chính người dùng đó khỏi danh sách. ```php= top_k_similarities = correlation_matrix.apply(lambda row: row.nlargest(k+1).iloc[1:], axis=1) return top_k_similarities ``` ### **4.4 Tạo tập dữ liệu phim mới** Đầu tiên sẽ tiến hành tính toán tổng số lượt đánh giá mà mỗi bộ phim nhận được để đánh giá mức độ phổ biến hoặc sự chú ý mà một bộ phim nhận được từ khán giả, và có thể được sử dụng để phân tích xu hướng, đưa ra đề xuất phim. ```php= ratings_count = ratings_data['movie_id'].value_counts() ``` Sau đó ta thực hiện việc lọc trong tập dữ liệu mà đã nhận được một số lượng tối thiểu nhất định của đánh giá từ khán giả. Điều này đảm bảo rằng chỉ những bộ phim có mức độ tương tác nhất định từ phía khán giả mới được đưa vào phân tích, giúp cải thiện độ tin cậy và tính chính xác của các đề xuất. ```php= frequently_rated_movies = ratings_count[ratings_count >= min_ratings_count].index ``` ### **4.5 Dự đoán** Trước tiên chúng tôi thử dự đoán dựa trên những người dùng tương tự. Nếu đó là bộ phim không được đánh giá, chúng tôi tiến hành phương án dự phòng: Sử dụng xếp hạng trung bình của phim bởi tất cả người dùng. ```php= relevant_ratings = filtered_ratings[filtered_ratings['movie_id'] == movie_id]['rating'] if not relevant_ratings.empty: predicted_rating = relevant_ratings.mean() else: all_users_relevant_ratings = ratings_data[ratings_data['movie_id'] == movie_id]['rating'] predicted_rating = all_users_relevant_ratings.mean() if not all_users_relevant_ratings.empty else np.nan if not np.isnan(predicted_rating): predictions.append((movie_id, predicted_rating)) ``` Tiếp theo là phần dự đoán cốt yếu của dự án: Dự đoán n bộ phim hàng đầu mà một người dùng mới có thể thích. Bước này sẽ trả về một danh sách gồm 10 bộ phim được đề xuất hàng đầu (kèm theo tiêu đề của mỗi bộ phim) và các xếp hạng dự đoán cho một người dùng cụ thể, danh sách này cũng sẽ được xuất ra một tệp tin định dạng CSV. ```php= def recommend_movies_for_new_user(new_user_id, new_user_data, personality_data, ratings_data, movies_data, k, top_n=10): # Check if user is new if new_user_id not in personality_data['userid'].values: # Add new user to personality data new_user_df = pd.DataFrame([new_user_data], columns=personality_data.columns) personality_data = pd.concat([personality_data, new_user_df], ignore_index=True) # Preprocess data personality_data = preprocess_personality_data(personality_data) # Create user profiles user_profiles = create_user_profiles(personality_data) unrated_movies = find_unrated_movies(new_user_id, ratings_data, movies_data) predicted_ratings = predict_movie_ratings(new_user_id, unrated_movies, user_profiles, ratings_data, k) top_predictions = sorted(predicted_ratings, key=lambda x: x[1], reverse=True)[:top_n] # Include movieId in the output user_predictions = [(movies_data[movies_data['movieId'] == movie_id].iloc[0]['movieId'], movies_data[movies_data['movieId'] == movie_id].iloc[0]['title'], rating) for movie_id, rating in top_predictions] return user_predictions # Output format: [(movieId, title, rating), ...] ``` Đồng thời ta tiến hành đưa ra đề xuất về thể loại phim. ```php= def get_top_genres_from_movies(recommended_movies, movies_data, num_genres): # Extract movie IDs from recommended_movies recommended_movie_ids = [movie_id for movie_id, _, _ in recommended_movies] # Filter movies_data to only include recommended movies recommended_movie_genres = movies_data[movies_data['movieId'].isin(recommended_movie_ids)]['genres'] # Split genres into individual labels all_genres = [] for genre_list in recommended_movie_genres: all_genres.extend(genre_list.split('|')) # Split and add to the list # Count genre occurrences genre_counts = pd.Series(all_genres).value_counts() # Select top genres top_genres = genre_counts.head(num_genres).index.tolist() return top_genres ``` # **V. Kết luận** Càng nhiều lựa chọn hơn, ta càng khó để chọn được bộ phim mình yêu thích. Hệ thống gợi ý này hoàn toàn phù hợp cho những người hâm mộ phim hiện đại, người có hàng nghìn những bộ phim để lựa chọn. Nhờ vào học máy, chúng ta đã có hệ thống gợi ý dựa vào những thuật toán và kỹ thuật phức tạp. Ngày nay, hệ thống đề xuất phim được các dịch vụ phát trực tuyến phổ biến nhất sử dụng rộng rãi, mang lại trải nghiệm cá nhân hóa hơn và tăng sự hài lòng của người dùng trên các nền tảng. Người ta ước tính rằng ngành điện ảnh thế giới đã phát hành hơn 500.000 bộ phim - một con số nằm ngoài tầm kiểm soát của một người. Với số lượng phim ảnh khổng lồ để lựa chọn, việc phát triển và cải thiện hệ thống đề xuất bằng học máy là một bước quan trọng giúp quá trình này trở nên dễ dàng và khả thi hơn. <style> *{ text-align: justify;text-justify: inter-word; } img{ width:100%; } </style>

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.