#20220157 Veri madenciliği tekniklerini kullanarak İzmir ilinde gıda endüstrisinin analizi





PROJE KODU20220157
PROJE SAHİBİEmirhan Bilge Bulut
PROJE SAHİBİ LINKEDIN https://www.linkedin.com/in/emirhanbilgebulut/
PROJE MALİYETİ5 500 Dolar
PROJE ÜNİVERSİTESİDokuz Eylül Üniversitesi
PROJE KATEGORİSİAkademik ve Diğer Bilişim Uygulamaları 
PROJE DANIŞMANIGöksü Tüysüzoğlu



Projede, şirketin verilerini almak ve işlenebilir bir formatta getirmek ve üzerinde veriler-madencilik teknikleri uygulayarak dağıtımları incelemek gerekir. Firmalar kayıtlarını genellikle yıllık veya üç ayda bir veri açısından tutar. Bu kayıtların düzenlenmesi ve uygulanabilir olması gerekir. Üzerinde veri madenciliği ve istatistiksel teknikler uygulayarak şirket için uygun modeli bulmalıyız. Kayıp veriler kaldırılabiliyorsa elimine edilmeli ve elde edilemeyecekse, elimine edilmelidir. Eksik veri çok fazlaysa, veriler rastgele oluşturulur. Veriler saflaştırıldıktan sonra, ürünler arasındaki ilişkilerin analizi başlayacaktır. Ürünler arasındaki ilişkiler grafiklenecek ve çıktıları analiz edilecek ve bildirilecektir. Ürünler arasındaki ilişkiye göre, öneri sistemi için kullanılacak yöntem belirlenecek ve model oluşturulacak. Modelin performans oranlarını test ederek, başarı oranı% 70'ten fazla değilse, modeldeki güncellemelerle arttırılmaya çalışılacaktır. Başarı oranı uyuşmuyorsa, bir model değişikliği uygulaması yapılacaktır. Proje, belirlenen başarı oranına göre veriler hakkında istenen öneriyi sağlarsa, küçük ölçekli şirketler tarafından tutulan verilerin anlamlı olacağı ve kar marjlarını arttırmaları sağlanacaktır. Yalnızca yerel işletmelerde muhasebe amaçlı tutulan bu veriler, müşteri memnuniyetini arttırmayı ve küçük işletmelerin kar marjını veri madenciliği ve makine öğrenme algoritmalarını kullanarak artırmayı amaçlamaktadır. Uygulama istenen sonucu elde ederse, yerel işletmelerde uygulanabilen ve taban işletmelerine yayılan bir öneri sistemi her iki taraf için de faydalı olacaktır. Şirketlerin veya işletmelerin ölçeğinden bağımsız olarak, verileri ellerinde anlamayı ve satıcı ile alıcı arasındaki memnuniyetini artırmayı hedefliyoruz.

Şirketler arasındaki rekabet, teknolojinin gelişimi ile farklı bir boyuta geçti. Her sektördeki firmalar veya işletmeler, ürünleri, müşterileri ve çalışanları ile ilgili binlerce veri veritabanlarında saklar. Öte yandan veri, veri madenciliği, makine öğrenimi ve yapay zeka gibi kavramların ortaya çıkmasından sonra çok değerli hale geldi. Teknolojinin 7 ila 70 kişilik herkes tarafından kullanılan bir alan haline gelmesi, sosyal medya platformları ve e-ticaret platformları gibi alanların yayılmasına yol açmıştır. Özellikle Covid19 döneminde, insanların evlerini terk etmek istememeleri ve internet üzerinden alışveriş yapmalarını istemedikleri, çoğu şirketin veritabanlarını güçlendirdi. Çevrimiçi satan bu şirketler, alışverişleriyle uyumlu kullanıcılara en uygun ürünü tavsiye etmeye başladı. Sosyal medyaya baktıkları ürünler ve ilgilendikleri konular verilerini besledi. Böylece, bu veriler bu şirketleri makine öğreniminin uygun algoritmaları ile karşılaştıracak stratejiler geliştirmiştir. Bu gibi durumlar nedeniyle, eldeki verilerle kendisi için en faydalı bilgilere ulaşmak için her işin amacı haline gelmiştir. Verilere kolay erişimi olan büyük şirketlerin kar oranı artarken, küçük ve orta ölçekli şirketlerin kar marjlarını rekabet etmeleri ve arttırması zorlaştı. Makine öğrenmesi ve yapay zeka gibi kavramların tam olarak farkında olmadıkları küçük ve orta ölçekli şirketler için büyük bir problemdir. Makine öğrenmesi veriler tarafından desteklenmektedir. Makine öğrenmenin farkında olmayan şirketler, verilerin önemini anlayamaz. Çoğu veri tablolarda manuel olarak kaydedilir. Bu nedenle, bu şirketler verilere gerekli önemi ve karışmış ve anlamsız olarak tutulmuştur. Ayrıca, birçok yararlı bilgi önemsiz olarak kabul edilebilir. Uygun verilerden uygun stratejiler geliştiremeyen bu şirketler, müşterilerini zaman içinde kaybeder. Buna ek olarak, firmalara, makine öğrenimi ve veri madenciliği ile zarar görmesine neden olan sahtekarlık gibi faaliyetleri tespit etmek mümkündür. Bununla birlikte, bu teknolojileri kullanmayan küçük ve orta ölçekli şirketler zarar görür, çünkü sahtekarlık girişimlerini tespit edemezler. Sonuç olarak, verileri besleyebilecek ve verilerini günden güne çarpabilecek büyük şirketler, makine öğrenimi, verilerin kaybının önemini anlamayan küçük ve orta ölçekli şirketler gibi teknolojileri kullanarak birçok alanda kar momentumunu arttırır. bu durumun karşısında güç.

Kolay erişilebilir , kullanılabilir ve güvenilir bir yazılım olması. Sadece büyük firmalara hitap eden kurumsal çözümlerin dışında , küçük işletmelerinde rahat ve karını geliştirebileceği bir yazılım olmasıdır.

Projenin yapılabilirliği için herhangi bir ek donanım ya da ek maliyet gerektirecek özel bir şeye ihtiyaç duyulmamaktadır. Tek ihtiyaç duyulan şey geliştirme ortamının sağlanması için bilgisayardır.

Göksü Tüysüzoğlu

İbrahim Yurtseven

Şirketlerin kar oranında artış görülmesi ve müşteri data mining ile tanımlanması

Agrawal, R., & Srikant, R. (1994, September). Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases, VLDB (Vol. 1215, pp. 487-499). Bakhshizadeh, E., Aliasghari, H., Noorossana, R., & Ghousi, R. Customer Clustering Based on Factors of Customer Lifetime Value with Data Mining Technique (Case Study: Software Industry). Breiman, L. (1996). Bias, variance, and arcing classifiers. Tech. Rep. 460, Statistics Department, University of California, Berkeley, CA, USA. Brijain, M., Patel, R., Kushik, M. R., & Rana, K. (2014). A survey on decision tree algorithm for classification. BULUT, F. (2019). Bankacılık sektöründe yeni özniteliklerle ve makine öğrenmesi yöntemleriyle müşteri ilişkileri yönetiminin zenginleştirilmesi. Avrupa Bilim ve Teknoloji Dergisi, (16), 382-394. Cohen, W. W., & Singer, Y. (1999). A simple, fast, and effective rule learner. AAAI/IAAI, 99(335-342), 3. Dayal, and M. C. Hsu, “Mining sequential patterns by pattern-growth: The prefixspan approach,” IEEE Transactions on knowledge and data engineering, vol. 16(11), pp. 1424–1440, 2004 Fournier-Viger, P., Lin, J. C. W., Kiran, R. U., Koh, Y. S., & Thomas, R. (2017). A survey of sequential pattern mining. Data Science and Pattern Recognition, 1(1), 54-77. Guo, Y., Wang, M., & Li, X. (2017). Application of an improved Apriori algorithm in a mobile e-commerce recommendation system. Industrial Management & Data Systems. Güler, Ş. (2019). Öneri sistemleri ve E-ticarette öneri sistemlerinin kullanımı (Master's thesis, Sakarya Üniversitesi). H. Liu, F. Hussain, C. Lim, M. Dash. Discretization: An Enabling Technique. Data Mining and Knowledge Discovery 6:4 (2002) 393-423. Han, E. H., & Karypis, G. (2005, October). Feature-based recommendation system. In Proceedings of the 14th ACM international conference on Information and knowledge management (pp. 446-452). Han, J., Pei, J., Yin, Y., & Mao, R. (2004). Mining frequent patterns without candidate generation: A frequent-pattern tree approach. Data mining and knowledge discovery, 8(1), 53-87. Hermliani, E.H., Kurniawati, L., Haryanti, T., Mutiah, N.,Kurniawan, A., & Renhoran, B. S. (2020, November). Data Mining Technique to Determine the Pattern of Fruits Sales & Supplies Using Apriori Algorithm. In Journal of Physics: Conference Series ( Vol. 1641, No.1, p. 012070), IOP Publishing. Hu, Y.-J., & Kibler, D. (1996). Generation of attributes for learning algorithms. Proc. 13th International Conference on Machine Learning. Inghua Zhao, Wenbo Zhang, Yanwei Liu (2010) Improved K-Means Cluster Algorithm in Telecommunications Enterprises Customer Segmentation J. Ayres, J. Flannick, J. Gehrke, and T. Yiu, “Sequential pattern mining using a bitmap representation,” ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 429–435, 2002. JALEEL, H. Q., STEPHAN, J. J., & NAJI, S. A. (2021). PRODUCTS DATASET ANALYSIS USING DATA MINING TECHNIQUES. Journal of Engineering Science and Technology, 16(5), 3880-3906. Joshi, M. V., Kumar, V., & Agarwal, R. C. (2001, November). Evaluating boosting algorithms to classify rare classes: Comparison and improvements. In Proceedings 2001 IEEE international conference on data mining (pp. 257-264). IEEE. Kavitha, M., & Subbaiah, S. (2020). Association Rule Mining using Apriori Algorithm for Extracting Product Sales Patterns in Groceries. Int. J. Eng. Res. Technol., 8(03), 1- 4.] Kearns, M., & Valiant, L. (1994). Cryptographic limitations on learning Boolean formulae and finite automata. Journal of the ACM (JACM), 41(1), 67-95. Kotsiantis, S. B., Kanellopoulos, D., & Pintelas, P. E. (2006). Data preprocessing for supervised leaning. International journal of computer science, 1(2), 111-117. Lakshminarayan K., S. Harp & T. Samad, Imputation of Missing Data in Industrial Databases, Applied Intelligence 11, 259–275 (1999). Leo Breiman, Jerome H. Friedman, Richard A. Olshen, and Charles J. Stone (1984). Classification and Regression Trees. Wadsworth International Group, Belmont, California. Marek Grochowski, Norbert Jankowski: Comparison of Instance Selection Algorithms II. Results and Comments. ICAISC 2004a: 580- 585. Nayak, M., & Narain, B. Data cluster algorithms in product purchase sale analysis. Int. J. Creat. Res. Thoughts (IJCRT), 6(1), 792-797. Norbert Jankowski, Marek Grochowski: Comparison of Instances Selection Algorithms I. Algorithms Survey. ICAISC 2004b: 598-603. Odegua, R. (2020). Applied Machine Learning for Supermarket Sales Prediction. Research gate. Oliveira, V. L. M. (2012). Analytical customer relationship management in retailing supported by data mining techniques (Doctoral dissertation, Universidade do Porto (Portugal)). P. Fournier-Viger, A. Gomariz, M. Campos, and R. Thomas, “Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information,” The Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp. 40–52, 2014. Pei, J., Han, J., Lu, H., Nishio, S., Tang, S., & Yang, D. (2001, November). H-mine: Hyper-structure mining of frequent patterns in large databases. In proceedings 2001 IEEE international conference on data mining (pp. 441-448). IEEE. Peker, S., A. Koçyigit, and P.E. Eren, LRFMP model for customer segmentation in the grocery retail industry: a case study. Marketing Intelligence & Planning, 2017. 35: p. 544-559. Quinlan J. R. (1986). Induction of decision trees. Machine Learning, Vol.1-1, pp. 81-106 Ranjan, J. (2007). Applications of data mining techniques in pharmaceutical industry. Journal of Theoretical & Applied Information Technology, 3(4). Schapire, R. E., & Singer, Y. (1999). Improved boosting algorithms using confidencerated predictions. Machine learning, 37(3), 297-336. Silva, J., Varela, N., López, L. A. B., & Millán, R. H. R. (2019). Association rules extraction for customer segmentation in the SMEs sector using the apriori algorithm. Procedia Computer Science, 151, 1207-1212. Sitikhu, P.; Pahi, K.; Thapa, P.; and Shakya, S. (2019). A comparison of semantic similarity methods for maximum human interpretability, arXiv Archive: 1910.09129v2 Srikant, R., & Agrawal, R. (1996, March). Mining sequential patterns: Generalizations and performance improvements. In International conference on extending database technology (pp. 1-17). Springer, Berlin, Heidelberg. Uno, T., Kiyomi, M., & Arimura, H. (2004, November). LCM ver. 2: Efficient mining algorithms for frequent/closed/maximal itemsets. In Fimi (Vol. 126). Wei, J.-T., et al., A case study of applying LRFM model in market segmentation of a children’s dental clinic. Expert Systems with Applications, 2012 Z. Yang, and M. Kitsuregawa, “LAPIN-SPAM: An improved algorithm for mining sequential pattern,” The International Conference on Data Engineering Workshops, pp. 1222–1222, Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE transactions on knowledge and data engineering, 12(3), 372-390. Zaki, M. J. (2001). SPADE: An efficient algorithm for mining frequent sequences. Machine learning, 42(1), 31-60. [9] J. Pei, J. Han, B. Mortazavi-Asl, J. Wang, H. Pinto, Q. Chen, U. Zhao, X., & Keikhosrokiani, P. (2022). Sales Prediction and Product Recommendation Model Through User Behavior Analytics. Computers, Materials, & Continua, 3855- 3874. Zhou, Z. H. (2019). Ensemble methods: foundations and algorithms. Chapman and Hall/CRC