집합의 분할 예제

문자열을 공백으로 분할하려는 상황을 고려하십시오. 여기서 예를 살펴보겠습니다. 우리는 strMain라는 문자열 변수가 몇 단어의 형성 Guru99에 오신 것을 환영합니다. 비율의 합계가 1이되도록 비율을 조정하는 것이 좋습니다. 그러나 이 연산자는 비율의 합이 1보다 낮거나 큰 경우에도 작동합니다. 예를 들어 비율 1.0과 0.4로 두 개의 파티션이 만들어지는 경우입니다. 결과 파티션은 다음과 같이 계산됩니다 : (14) / (1.0 + 0.4) * (1.0) = 10 (14) / (1.0 + 0.4) * (0.4) = 4 각 단어가 목록 항목인 목록으로 문자열을 분할 : 제대로 수행하지 않으면 교육, 개발 및 테스트 세트로 데이터를 분할하는 것은 재앙이 될 수 있습니다. 이 짧은 자습서에서는 데이터 집합을 분할할 때의 모범 사례를 설명합니다. 개발 및 테스트 집합의 크기는 개발 및 테스트 결과가 모델의 성능을 나타내기에 충분해야 합니다. 개발 세트에 100개의 예제가 있는 경우 선택한 개발 집합에 따라 개발 정확도가 많이 달라질 수 있습니다.

더 큰 데이터 집합(>1M 예제)의 경우 개발 및 테스트 집합에는 각각 약 10,000개의 예제가 있을 수 있습니다(전체 데이터의 1%만). 예를 들어 build_dataset.py 파일은 비전 예제 프로젝트에서 여기에 사용된 파일입니다. 대답이 소수점인 경우 반올림됩니다. 각 파티션의 예제 수는 다음과 같습니다 : (14) / (0.8 + 0.2) * (0.8) = 11.2로 반올림되는 11.2 ( 11 + 0.2) * (0.2) * (0.2) = 2.8로 반올림된 2.8은 분할()의 작업을 시연하는 Java 예제 코드입니다. 더 많은 뉴스 기사, 백분율은 일에 걸쳐 분할 얻을 수 있습니다. 그래도 괜찮습니다. 실제로 이러한 이야기는 뉴스 주기의 이틀에 걸쳐 분할되었습니다. 또는 컷오프의 특정 거리 내에 데이터를 던져 겹치지 않도록 할 수 있습니다. 예를 들어 4월 한 달 동안 스토리를 학습한 다음 5월 둘째 주를 테스트 세트로 사용하여 주 간격이 겹치지 않도록 할 수 있습니다. 데이터 분할 연산자는 ExampleSet을 입력으로 사용하여 출력 포트를 통해 해당 ExampleSet의 하위 집합을 제공합니다.

분할 매개 변수를 통해 하위 집합(또는 파티션)의 수와 각 파티션의 상대 크기가 지정됩니다. 모든 파티션의 비율의 합계는 1이어야 합니다. 샘플링 형식 매개 변수는 예제를 결과 파티션에서 섞는 방법을 결정합니다. 이 연산자에 대한 자세한 내용은 이 설명의 매개 변수 섹션을 참조하십시오. 이 연산자는 지정된 ExampleSet의 여러 파티션을 제공할 수 있다는 점에서 다른 샘플링 및 필터링 연산자와 다릅니다. 이 문제의 최적화 버전을 최대 집합 분할이라고 하며 F의 분할 요소 수를 최대화하는 파티션을 찾아야 합니다.

Tento obsah bol zaradený v Nezaradené. Zálohujte si trvalý odkaz.