Microsoft 캡션 봇은 사진을 설명하므로 따로

비디오: Joakim Karud - If I Could I'd 2026

Microsoft는 그림의 내용을 설명하는 이미지 인식 도구를 출시했습니다. 이 인공 지능 도구는 여전히 개발 단계에 있으며 사용자가 업로드 한 사진에서 지속적으로 학습하고 있습니다.

정확성에 관한 한 때로는 설명이 상당히 정확하지만 때로는 CaptionBot이 묘사 된 것과 관련이없는 설명을 제공합니다. 가장자리가 거칠기 때문에 앱이 설명을 전혀 제공하지 못하는 경우도 있습니다.

Microsoft는 CaptionBot이 시간이 지남에 따라 더 정확해질 것으로 기대하면서 더 많은 경험을 통해 배울 수 있도록 디자인했습니다. CaptionBot이 설명하는 것처럼 사용자가 사진을 더 많이 업로드할수록 앱이 더 좋아집니다.

모든 이미지의 내용을 이해할 수 있으며 사람뿐만 아니라 이미지도 설명하려고합니다. 나는 아직도 배우고 있으므로 나는 당신의 사진을 붙들고 있지만 개인 정보는 가지고 있지 않습니다.

CaptionBot은 세 가지 기술을 사용하여 그림에 묘사 된 내용을 설명합니다. Microsoft의 컴퓨터 비전, 감정 및 Bing 이미지. Computer Vision API는 이미지에서 풍부한 정보를 추출하여 이미지에서 텍스트를 식별 및 추출하는 동시에 시각적 데이터를 분류하고 처리합니다. Emotion API는 이름에서 알 수 있듯이 얼굴을 분석하여 분노, 경멸, 혐오, 두려움, 행복, 중립, 슬픔 및 놀라움의 모든 감정을 감지합니다. Bing Image는 웹에서 이미지를 검색합니다.

CaptionBot을 테스트 한 결과 50 %가 정확했습니다. 예를 들어 게임 마우스를 묘사 한 그림과 카드 묶음을 묘사 한 사진 두 장을 업로드했습니다. 두 경우 모두이 도구는 휴대폰이라고 제안했습니다. 반면 CaptionBot은 사람과 얼굴을 정확하게 감지했습니다.

분명히 CaptionBot은 핸드폰에 집착합니다. 한 트위터 사용자는이 앱이 Michelle Obama가 휴대 전화라고 생각한다고보고했습니다. 더 많은 캡션 봇 재미있는 캡션을 보려면이 트위터 페이지를 확인하십시오.

여기에서 CaptionBot을 테스트 할 수도 있습니다. 시도해보십시오: 도구를 개선하는 데 도움이되거나 즐겁게 웃을 수 있습니다!