Vamos finalizar a série das técnicas que ajudarão a você não só a compreender mais o mundo de analise de dados, mas, que são indispensáveis para verificação ou validação de modelos de machine learning.
7 – Modelos não lineares:
Na estatística, a regressão não-linear é uma forma de análise de regressão na qual os dados observacionais são modelados por uma função que é uma combinação não-linear dos parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados por um método de aproximações sucessivas. Abaixo estão algumas técnicas importantes para lidar com modelos não lineares:
- Uma função nos números reais é chamada de função escalonada, se puder ser escrita como uma combinação linear finita de funções indicadoras de intervalos. Falando informalmente, uma função escalonada é uma função constante por partes que possui apenas algumas peças finitas.
- Uma função por partes é uma função que é definida por múltiplas sub-funções, cada sub-função que se aplica a um certo intervalo do domínio da função principal. Piecewise é na verdade uma maneira de expressar a função, ao invés de uma característica da função em si, mas com qualificação adicional, ela pode descrever a natureza da função. Por exemplo, uma função polinomial por partes é uma função que é um polinômio em cada um de seus subdomínios, mas possivelmente diferente em cada um deles.
- Uma spline é uma função especial definida em partes por polinômios. Em computação gráfica, spline refere-se a uma curva paramétrica polinomial por partes. Splines são curvas populares devido à simplicidade de sua construção, sua facilidade e precisão de avaliação e sua capacidade de aproximar formas complexas por meio de ajuste de curvas e design de curva interativa.
- Um modelo aditivo generalizado é um modelo linear generalizado em que o preditor linear depende linearmente de funções suaves desconhecidas de algumas variáveis preditoras, e o interesse se concentra na inferência sobre essas funções suaves.
8 – Métodos Baseados em Árvore:
Métodos baseados em árvore podem ser usados para problemas de regressão e classificação. Estes envolvem a estratificação ou segmentação do espaço do preditor em um número de regiões simples. Como o conjunto de regras de divisão usadas para segmentar o espaço do preditor pode ser resumido em uma árvore, esses tipos de abordagens são conhecidos como métodos de árvore de decisão . Os métodos abaixo crescem várias árvores que são então combinadas para produzir uma única previsão de consenso.
- Ensacar é a maneira de diminuir a variação de sua previsão, gerando dados adicionais para treinamento do conjunto de dados original usando combinações com repetições para produzir vários passos da mesma carnalidade / tamanho dos dados originais. Ao aumentar o tamanho do seu conjunto de treinamento, você não pode melhorar a força preditiva do modelo, mas apenas diminuir a variação, ajustando a previsão ao resultado esperado.
- Impulsionar é uma abordagem para calcular a saída usando vários modelos diferentes e, em seguida, calcular a média do resultado usando uma abordagem de média ponderada. Combinando as vantagens e as armadilhas dessas abordagens, variando sua fórmula de ponderação, você pode obter uma boa força preditiva para uma gama mais ampla de dados de entrada, usando diferentes modelos estreitamente ajustados.
- O algoritmo de floresta aleatória é realmente muito semelhante ao ensacamento. Também aqui, você desenha amostras aleatórias de bootstrap do seu conjunto de treinamento. No entanto, além das amostras de bootstrap, você também desenha um subconjunto aleatório de recursos para treinar as árvores individuais; no ensacamento, você dá a cada árvore o conjunto completo de recursos. Devido à seleção aleatória de características, você torna as árvores mais independentes umas das outras em comparação ao armazenamento regular, que geralmente resulta em melhor desempenho preditivo (devido a melhores compensações de viés de variação) e também é mais rápido, porque cada árvore aprende apenas de um subconjunto de recursos.
9 – Support Vector Machines:
O SVM é uma técnica de classificação que está listada nos modelos de aprendizado supervisionado no Aprendizado de Máquina. Em termos leigos, envolve encontrar o hiperplano (linha em 2D, plano em 3D e hiperplano em dimensões mais altas. Mais formalmente, um hiperplano é subespaço n-1 dimensional de um espaço n-dimensional) que melhor separa duas classes de pontos com o margem máxima. Essencialmente, é um problema de otimização restrito em que a margem é maximizada, sujeita à restrição de que ela classifica perfeitamente os dados (margem rígida).
Os dados apontam que esse tipo de “suporte” a esse hiperplano em ambos os lados é chamado de “vetores de suporte”. Na figura acima, o círculo azul preenchido e os dois quadrados preenchidos são os vetores de suporte. Nos casos em que as duas classes de dados não são linearmente separáveis, os pontos são projetados para um espaço explodido (maior dimensão), onde a separação linear pode ser possível. Um problema envolvendo várias classes pode ser dividido em vários problemas de classificação binária de um versus um ou um versus outro.
10 – Aprendizagem não supervisionada:
Até agora, discutimos apenas técnicas de aprendizagem supervisionada, nas quais os grupos são conhecidos e a experiência fornecida ao algoritmo é a relação entre entidades reais e o grupo ao qual pertencem. Outro conjunto de técnicas pode ser usado quando os grupos (categorias) de dados não são conhecidos. Eles são chamados de não supervisionados quando deixados no algoritmo de aprendizado para descobrir padrões nos dados fornecidos. Clustering é um exemplo de aprendizado não supervisionado em que diferentes conjuntos de dados são agrupados em grupos de itens intimamente relacionados. Abaixo está a lista dos algoritmos de aprendizado não supervisionados mais utilizados:
O SVM é uma técnica de classificação que está listada nos modelos de aprendizado supervisionado no Aprendizado de Máquina. Em termos leigos, envolve encontrar o hiperplano (linha em 2D, plano em 3D e hiperplano em dimensões mais altas. Mais formalmente, um hiperplano é subespaço n-1 dimensional de um espaço n-dimensional) que melhor separa duas classes de pontos com o margem máxima. Essencialmente, é um problema de otimização restrito em que a margem é maximizada, sujeita à restrição de que ela classifica perfeitamente os dados (margem rígida).
Os dados apontam que esse tipo de “suporte” a esse hiperplano em ambos os lados é chamado de “vetores de suporte”. Na figura acima, o círculo azul preenchido e os dois quadrados preenchidos são os vetores de suporte. Nos casos em que as duas classes de dados não são linearmente separáveis, os pontos são projetados para um espaço explodido (maior dimensão), onde a separação linear pode ser possível. Um problema envolvendo várias classes pode ser dividido em vários problemas de classificação binária de um versus um ou um versus outro.
10 – Aprendizagem não supervisionada:
Até agora, discutimos apenas técnicas de aprendizagem supervisionada, nas quais os grupos são conhecidos e a experiência fornecida ao algoritmo é a relação entre entidades reais e o grupo ao qual pertencem. Outro conjunto de técnicas pode ser usado quando os grupos (categorias) de dados não são conhecidos. Eles são chamados de não supervisionados quando deixados no algoritmo de aprendizado para descobrir padrões nos dados fornecidos. Clustering é um exemplo de aprendizado não supervisionado em que diferentes conjuntos de dados são agrupados em grupos de itens intimamente relacionados. Abaixo está a lista dos algoritmos de aprendizado não supervisionados mais utilizados:
- A Análise de Componentes Principais ajuda a produzir uma representação de baixa dimensionalidade do conjunto de dados, identificando um conjunto de combinações lineares de características que têm variância máxima e são mutuamente não correlacionadas. Essa técnica de dimensionalidade linear pode ser útil para entender a interação latente entre a variável em um ambiente não supervisionado.
- k-Means clustering : particiona dados em k clusters distintos com base na distância ao centroide de um cluster.
- Armazenamento em cluster hierárquico : cria uma hierarquia de vários clusters criando uma árvore de cluster.
Este foi um resumo básico de algumas técnicas estatísticas básicas que podem ajudar um gerente de programa de ciência de dados e / ou executivo a ter uma melhor compreensão do que está sendo executado sob o capô de suas equipes de ciência de dados. Na verdade, algumas equipes de ciência de dados executam algoritmos puramente através de bibliotecas python e R. A maioria deles nem precisa pensar sobre a matemática subjacente. No entanto, ser capaz de entender os fundamentos da análise estatística proporciona às equipes uma abordagem melhor. Tenha uma visão das partes mais pequenas para facilitar a manipulação e abstração.
Espero que este guia estatístico de ciência de dados básica lhe dê uma compreensão decente!
Deixe um comentário