추가 편집 : 공식 ILSVRC2017 다운로드 페이지에서, 나는 인용 “이 데이터 세트는 ILSVRC2012 이후 변경되지 않습니다. 교육에 대한 총 1,281,167 이미지가 있습니다. 각 synset(범주)의 이미지 수는 732에서 1300사이입니다. 50,000개의 유효성 검사 이미지가 있으며, 동기화당 50개의 이미지가 있습니다. 100,000개의 테스트 이미지가 있습니다. 모든 이미지는 JPEG 형식입니다.”. 파일은 155GB입니다. 기본적으로 imagenet.py ~/.mxnet/데이터 집합/이미지넷으로 이미지를 추출합니다. –target-dir.을 설정하여 다른 대상 폴더를 지정할 수 있습니다. 타르 파일이 폴더 ~/ILSVRC2012에 저장된다고 가정합니다.
다음 명령을 사용하여 데이터 집합을 자동으로 준비할 수 있습니다. 또한 전체 데이터 집합을 얻는 방법을 알아 내려고합니다. 그것은 거기 밖으로 모든 다른 버전 및 소스 때문에 조금 복잡. ILSVRC 2012, 일명 ImageNet은 워드넷 계층 구조에 따라 구성된 이미지 데이터 집합입니다. WordNet의 각 의미 있는 개념을 여러 단어 나 단어 구로 설명할 수 있으며 “동의어 집합” 또는 “synset”이라고 합니다. WordNet에는 100,000개 이상의 synset이 있으며, 그 중 대부분은 명사(80,000+)입니다. ImageNet에서는 각 synset을 설명하기 위해 평균 1000개의 이미지를 제공하는 것을 목표로 합니다. 각 개념의 이미지는 품질 제어 및 인간 별이 추가됩니다. 이 완료되면 ImageNet이 WordNet 계층 구조의 대부분의 개념에 대해 수천만 개의 깔끔하게 정렬된 이미지를 제공할 수 있기를 바랍니다. 클라우드 TPU는 fake_imagenet 라고 하는 ImageNet 데이터 집합의 데모 버전을 제공합니다. 이 데이터 집합에는 임의로 선택한 이미지가 포함되어 있습니다.
모델의 작동 방식을 테스트하고 싶지만 전체 ImageNet 데이터 집합이 필요하지 않은 경우 이 데이터 집합을 사용할 수 있습니다. URL의 목록은 URL에서 다운로드 할 수 있습니다 http://www.image-net.org/api/text/imagenet.synset.geturls?wnid = 선박의 경우이 파이썬 라이브러리 BeautifulSoup로 수행 할 수 있습니다 “http://www.image-net.org/api/text/imagenet.synset.geturls?wnid=n04194289″될 수 있도록 wnid 다음에 : 당신은이 작은 imageNet 데이터 세트를 시도 할 수 있습니다 : https://tiny-imagenet.herokuapp.com/ 크기의 단지 2.1G, 200 클래스가 있습니다. “각각에 800개 이상의 이미지가 있는 200개의 클래스가 있는 데이터 집합을 원한다”는 도구를 알 수 있으며 이미지 수집이 시작됩니다. 32×32 픽셀보다 큰 이미지에서 분류 ConvNet을 빌드하고 학습해야했기 때문에 클래스로 레이블이 붙은 더 큰 이미지가있는 데이터 집합을 찾아야했습니다. ImageNet은 이러한 데이터 집합 중 하나입니다. “원본 이미지 다운로드”를 선택하고 .edu 이메일을 통해 클리어런스를 얻은 다음 “ImageNet Fall 2011 릴리스”를 클릭하면 그 과정에서 한 개의 메시지가 표시되며 클래스당 X 이미지가있는 Y 클래스가있는 데이터 집합을 만드는 다운로더를 작성했습니다.