logistics回歸問題

學(xué)習(xí)方法
2024-02-14 07:57:31

logistic回歸分析步驟是什么？

logistic回歸分析是一種廣義的線性回歸分析模型，常用于數(shù)據(jù)挖掘，疾病自動診斷，經(jīng)濟(jì)預(yù)測等領(lǐng)域。例如，探討引發(fā)疾病的危險因素，并根據(jù)危險因素預(yù)測疾病發(fā)生的概率等。

多重線性回歸直接將w‘x+b作為因變量，即y =w‘x+b，而logistic回歸則通過函數(shù)L將w‘x+b對應(yīng)一個隱狀態(tài)p，p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù)，就是logistic回歸，如果L是多項(xiàng)式函數(shù)就是多項(xiàng)式回歸。

Logistic回歸模型的適用條件

1、因變量為二分類的分類變量或某事件的發(fā)生率，并且是數(shù)值型變量。但是需要注意，重復(fù)計(jì)數(shù)現(xiàn)象指標(biāo)不適用于Logistic回歸。

2、殘差和因變量都要服從二項(xiàng)分布。二項(xiàng)分布對應(yīng)的是分類變量，所以不是正態(tài)分布，進(jìn)而不是用最小二乘法，而是最大似然法來解決方程估計(jì)和檢驗(yàn)問題。

3、自變量和Logistic概率是線性關(guān)系。

以上內(nèi)容參考：百度百科-logistic回歸

在logistics回歸中,兩個自變量相關(guān)要怎么處理

在logistics回歸中，兩個自變量相關(guān)處理：將因變量和自變量放入格子的列表里，上面的是因變量，下面的是自變量（單變量拉入一個，多因素拉入多個）。

設(shè)置回歸方法，這里選擇最簡單的方法：enter，它指的是將所有的變量一次納入到方程。方法都是逐步進(jìn)入的方法。等級資料，連續(xù)資料不需要設(shè)置虛擬變量。多分類變量需要設(shè)置虛擬變量，虛擬變量ABCD四類，以a為參考，b相對于a有無影響，c相對于a有無影響，d相對于a有無影響。

原理：

如果直接將線性回歸的模型扣到Logistic回歸中，會造成方程二邊取值區(qū)間不同和普遍的非直線關(guān)系。因?yàn)長ogistic中因變量為二分類變量，某個概率作為方程的因變量估計(jì)值取值范圍為0-1，但是，方程右邊取值范圍是無窮大或者無窮小。所以，才引入Logistic回歸。

怎樣正確理解邏輯回歸（logistic regression）？

邏輯回歸通常用于解決分類問題，“分類”是應(yīng)用邏輯回歸的目的和結(jié)果，但中間過程依舊是“回歸”。

邏輯回歸是用來做分類算法的，大家都熟悉線性回歸，一般形式是Y=aX+b，y的取值范圍是[-∞, +∞]，有這么多取值，怎么進(jìn)行分類呢？不用擔(dān)心，偉大的數(shù)學(xué)家已經(jīng)為我們找到了一個方法。

也就是把Y的結(jié)果帶入一個非線性變換的Sigmoid函數(shù)中，即可得到[0,1]之間取值范圍的數(shù)S，S可以把它看成是一個概率值，如果我們設(shè)置概率閾值為0.5，那么S大于0.5可以看成是正樣本，小于0.5看成是負(fù)樣本，就可以進(jìn)行分類函數(shù)中t無論取什么值，其結(jié)果都在[0,-1]的區(qū)間內(nèi)，回想一下，一個分類問題就有兩種答案，一種是“是”，一種是“否”，那0對應(yīng)著“否”，1對應(yīng)著“是”，那又有人問了，你這不是[0,1]的區(qū)間嗎，怎么會只有0和1呢？這個問題問得好，我們假設(shè)分類的閾值是0.5，那么超過0.5的歸為1分類，低于0.5的歸為0分類，閾值是可以自己設(shè)定的。

函數(shù)中t無論取什么值，其結(jié)果都在[0,-1]的區(qū)間內(nèi)，回想一下，一個分類問題就有兩種答案，一種是“是”，一種是“否”，那0對應(yīng)著“否”，1對應(yīng)著“是”，那又有人問了，你這不是[0,1]的區(qū)間嗎，怎么會只有0和1呢？這個問題問得好，我們假設(shè)分類的閾值是0.5，那么超過0.5的歸為1分類，低于0.5的歸為0分類，閾值是可以自己設(shè)定的。

好了，接下來我們把a(bǔ)X+b帶入t中就得到了我們的邏輯回歸的一般模型方程：

結(jié)果P也可以理解為概率，換句話說概率大于0.5的屬于1分類，概率小于0.5的屬于0分類，這就達(dá)到了分類的目的。

邏輯回歸有什么優(yōu)點(diǎn)

LR能以概率的形式輸出結(jié)果，而非只是0,1判定。

LR的可解釋性強(qiáng)，可控度高(你要給老板講的嘛…)。

訓(xùn)練快，feature engineering之后效果贊。

因?yàn)榻Y(jié)果是概率，可以做ranking model。

邏輯回歸有哪些應(yīng)用

CTR預(yù)估/推薦系統(tǒng)的learning to rank/各種分類場景。

某搜索引擎廠的廣告CTR預(yù)估基線版是LR。

某電商搜索排序/廣告CTR預(yù)估基線版是LR。

某電商的購物搭配推薦用了大量LR。

某現(xiàn)在一天廣告賺1000w+的新聞app排序基線是LR。

什么是logistic回歸?

這個…說清楚點(diǎn)問題…什么是鏈接預(yù)測啊？ logistic回歸的因變量可以是二分類的，也可以是多分類的，但是二分類的更為常用，也更加容易解釋。所以實(shí)際中最為常用的就是二分類的logistic回歸。 logistic回歸的主要用途：一是尋找危險因素，正如上面所說的尋找某一疾病的危險因素等。二是預(yù)測，如果已經(jīng)建立了logistic回歸模型，則可以根據(jù)模型，預(yù)測在不同的自變量情況下，發(fā)生某病或某種情況的概率有多大。三是判別，實(shí)際上跟預(yù)測有些類似，也是根據(jù)logistic模型，判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大，也就是看一下這個人有多大的可能性是屬于某病。