Accueil technologie Classificateur naïf de Bayes

Classificateur naïf de Bayes



introduction

NaiveBayesclassificationisaverysimpleclassificationalgorithm.ItiscalledNaiveBayesclassificationbecausetheideaof thismethodisreallysimple.NaiveBayes'sthinkingisbasedonthis: Foragivenitemtobeclassified, theprobabilityofeachcategoryappearingundertheconditionoftheitem'sappearanceissolved, whicheveristhelargest, thentheitemtobeclassifiedisconsideredtobelongtowhichcategory.Forexample, ifafruitisred, rond, andabout3inchesindiameter, thefruitcanbejudgedtobeanapple.Althoughthesefeaturesaredependentoneachotherorsomefeaturesaredeterminedbyotherfeatures, theNaiveBayesclassifierconsiderstheseattributestobeindependentintheprobabilitydistributionofdeterminingwhetherthefruitisanapple.Forcertaintypesofprobabilitymodels, verygoodclassificationresultscanbeobtainedinthesamplesetofsupervisedlearning.Inmanypracticalapplications, theNaiveBayesianmodelparameterestimationusesthemaximumlikelihoodestimationmethod, inotherwords, theNaiveBayesianmodelcanalsoworkwithoutBayesianprobabilityoranyBayesianmodel ..

Despitethesenaiveideasandover-simplifiedassumptions, thenaiveBayesclassifiercanstillachievequitegoodresultsinmanycomplexreal-lifesituations.In2004, anarticleanalyzingtheproblemofBayesianclassifierrevealedseveraltheoreticalreasonswhythenaiveBayesianclassifierobtainstheseeminglyincredibleclassificationeffect.Nevertheless, anarticlein2006comparedvariousclassificationmethodsindetail, andfoundthatthenewermethods (suchasdecisiontreesandrandomforests) outperformBayesianclassifiers.OneadvantageofthenaiveBayesclassifieristhatitonlyneedstoestimatethenecessaryparameters (meanandvarianceofthevariables) basedonasmallamountoftrainingdata.Duetotheassumptionofvariableindependence, onlythemethodofestimatingeachvariableisneeded, withouttheneedtodeterminetheentirecovariancematrix.

Développement

NaiveBaye a fait l'objet d'études approfondies depuis les années 50. Au début des années 60, il a été introduit dans le champ de recherche d'informations textuelles sous un autre nom, et il est toujours une méthode (de référence) populaire pour la classification des textes., la légalité, le sport ou la politique, etc.

TheNaiveBayesclassifierishighlyscalable, soitrequiresanumberofparametersthathavealinearrelationshipwiththevariables (caractéristiques / prédicteurs) inthelearningproblem.Maximumlikelihoodtrainingcanbedonebyevaluatingaclosed-formexpression, anditonlytakeslineartimeinsteadofthetime-consumingiterativeapproximationusedbymanyothertypesofclassifiers.Inthestatisticsandcomputerscienceliterature, thenaiveBayesmodelhasvariousnames, includingsimpleBayesandindependentBayes.AllthesenamesrefertotheuseofBayes'theoreminthedecisionrulesoftheclassifier, butNaiveBayesdoesnot (nécessairement) useBayesianmethods; "RussellandNorvig" mentionne "'NaiveBayes"' SometimescalledtheBayesianclassifier, thissloppyusepromptstrueBayesianstocallitthefoolBayesianmodel ".

méthode bayésienne

Therearemanyconstructionmethodsforclassifiers, thecommononesareBayesianmethod, decisiontreemethod, cas basedlearningmethod, artificialneuralnetworkmethod, supportvectormachinemethod, GeneticAlgorithm-basedmethod, roughset-basedmethod, fuzzySetmethodandsoon.Amongthem, theBayesianmethodisbecomingoneofthemosteye-catchingfocusofmanymethodswithitsuniqueexpressionofuncertaintyknowledge, richprobabilityexpressionability, andtheincrementallearningcharacteristicsofcomprehensivepriorknowledge.Classificationisatwo-stepprocess.Thefirststepistobuildaclassifierwithasetofknownexamples.Thisstepgenerallyoccursinthetrainingphaseorcalledthelearningphase.Theknowninstancesetusedtoconstructtheclassifieriscalledthetraininginstanceset, andeachinstanceinthetraininginstancesetiscalledthetraininginstance.Sincetheclasslabelsofthetrainingexamplesareknown, theprocessofconstructingtheclassifierisalearningprocesswithatutor. En comparaison, dans le processus d'apprentissage sans tuteur, l'étiquette de classe de l'instance de formation est inconnue, et parfois sept le nombre de catégories à acquérir peut être inconnu, comme le regroupement.

La deuxième étape consiste à utiliser le classificateur construit pour classer les instances inconnues. Cette étape se produit généralement lors de la phase de test ou appelée phase de travail.

Bayesianmethodprovidesaprobabilisticmeansofreasoning.Itassumesthatthevariablestobeexaminedfollowacertainprobabilitydistribution, andcanmakeinferencesbasedontheseprobabilitiesandtheobserveddata, soastomakethebestdecision.Bayesianmethodcannotonlycalculatetheexplicithypothesisprobability, butalsoprovideaneffectivemeansforunderstandingmostothermethods.ThecharacteristicsoftheBayesianmethodmainlyinclude: thecharacteristicsofincrementallearning; thecharacteristicsofpriorknowledgethatcandeterminethefinalprobabilityofthehypothesistogetherwiththeobservedexamples; thecharacteristicsofallowingthehypothesistomakeuncertaintypredictions; theclassificationofnewexamplesThefeaturethatmultiplehypothesescanbeusedtomakepredictionstogetherwiththeirprobabilitiesastheweight, andsoon.

Estimation de vraisemblance maximale

L'estimation de la probabilité maximale est une méthode statistique, qui est utilisée pour trouver les paramètres pertinents de la fonction de densité de probabilité d'un échantillon.

« Probabilité » est une traduction de probabilité qui est plus proche du chinois classique. « Probabilité » signifie « possibilité » en chinois moderne.

La méthode du maximum de vraisemblance utilise explicitement un modèle de probabilité et son objectif est de trouver un arbre phylogénétique capable de produire des données d'observation avec une probabilité plus élevée.

Parexemple, theprobabilityofatransitionoccurringisapproximatelythreetimesthatofatransition.Inathree-sequencecomparison, ifoneofthecolumnsisfoundtobeaC, aTandaG, wehavereasontobelievethattherelationshipbetweenthesequenceofCandTislikelytobecloser.Sincethecommonancestorsequenceofthestudiedsequenceisunknown, thecalculationoftheprobabilitybecomescomplicated; andbecausemultiplesubstitutionsmayoccuratonesiteormultiplesites, andnotallsitesareindependentofeachother, theprobabilitycalculationThecomplexityisfurtherincreased.Nevertheless, objectivestandardscanbeusedtocalculatetheprobabilityofeachsiteandtheprobabilityofeachpossibletreerepresentingthesequencerelationship.Then, Par définition, thetreewiththelargestsumofprobabilitiesismostlikelytobeaphylogenetictreethatreflectstherealsituation.

Cet article provient du réseau, ne représente pas la position de cette station. Veuillez indiquer l'origine de la réimpression
HAUT