A divisão de datasets em treino, teste e validação é um procedimento em data science, mais especificamente machine learning supervisionado, que divide o conjunto de dados (dataset) em três subconjuntos para permitir a medição da performance de algoritmos de previsão e classificação.

Em modelos de aprendizado supervisionado é de suma importância mensurar o erro e a precisão das previsões para que o modelo se ajuste de acordo. Mais importante ainda é que as previsões sejam não-viesadas, ou seja, que o modelo performe bem em dados diferentes daqueles usados na etapa do treino.

A divisão dos dados em treino, validação e teste é importante também para detectar se o modelo sofre com problema de undeffiting ou overfitting.

Para quê serve cada dataset?

  • Treino: esse dataset é usado para o treino, ou seja, o fit do modelo. Por exemplo, numa regressão os parâmetros são ajustados para minimizar o erro nesse dataset.
  • Validação: esse dataset é usado para a avaliação não-viesada da performance do modelo durante o ajuste de hiperparâmetros.
  • Teste: esse dataset é usado para a avaliação final do modelo. Não deve ser usado durante o treino e a validação.

Existem vários métodos de fazer a divisão do conjunto de dados em treino, validação e teste. O mais simples é pegar um percentual dos dados como estão e determinar qual conjunto é o quê.

Outras técnicas mais avançadas levam em conta o componente temporal (séries temporais), o componente espacial, componentes de agrupamento, entre outras características.


Links: