هر فايل نشان دهنده يك محصوله . متن هر فايل دوتا رنگ داره قرمز و مشكي كه ميشه دو گروه.
ميخوام از معيارهايي مانند TF.IDF استفاده بشه كه ببينين كدوم ngram در يك نوع متن (قرمز يا مشكي)نسبت به دو متن ديگه بيشتره.(براي هر فايل جدا)
قراره اين مدل هاي زباني بتونه مشخص كنه كه احتمال اينكه جمله ها به ست قرمز تعلق دارن يا مشكي.
ميخوام از سيستم تشخيص named entities استفاده كنين كه بتونم رابطه بين named entities هر دو گروه قرمز و مشكي هر فايل رو پيدا كنين. هر فايل جدااز هم هستش.
چون از يادگيري ماشيني استفاده ميكنين ميتونين ويژگي هاي مختلف زباني مثل ميانگين طول كلمات، خوانايي هر متن، تعداد كلمات عاميانه(به خصوص اونايي كه توي ديكشنري نيستن چون فقط تو محاوره استفاده ميشوند)
بعد تمامي اينا فايلها رو كنار هم بزارين و ببينين كدوم ويژگي ها بين همه مشتركن.
براي اناليز براي اشاره به محصولات از product و ويژگي ها از aspectاستفاده كنين كه اينجوري featureها بهتر قابل تعميم هستن