Das nossas funções anteriores, nós nos aprofundamos nas razões por trás do uso da função Sigmoid para a Regressão Logística em vez de uma função linear normal. Neste post, continuaremos compartilhando na função Custo.
A função Custo é importante porque nos dá os erros de nossas previsões e, posteriormente, é necessária para o nosso algoritmo de aprendizagem. Concretamente, nós gostamos de minimizar os erros das nossas previsões, ou seja, minimizar a função de custo. Idealmente, se todos os nossos erros forem zero, é como jogar um jogo de dardos em que todos os nossos dardos atingiriam o alvo do touro. Do outro lado do argumento, se nossos erros forem muito altos, isto significa que nossos valores previstos estão faltando todos os verdadeiros valores observados, ou seja, nossos dardos estão em geral faltando o olho do touro.
Embora gostemos de ter zero erros ao executar nossa função de custo com nossos valores previstos (previsão perfeita para cada valor), este pode não ser um bom cenário dado que pode levar a um fenômeno chamado “alta variância”. Vamos tocar mais sobre isso em escritos posteriores.
Voltando à formulação da função de perda, uma função de perda típica seria minimizar a soma dos erros ao quadrado, ou seja
Esta função, no entanto, pode dar origem a múltiplas ótimas locais durante o processo de otimização, o que significa que sua solução otimizada pode não ser a mais otimizada (há uma chance de haver uma solução melhor). Idealmente, queremos que a solução optimizada seja o mínimo global, em vez do mínimo local.