• 제목/요약/키워드: 인공 시각

Search Result 400, Processing Time 0.028 seconds

Listenable Explanation for Heatmap in Acoustic Scene Classification (음향 장면 분류에서 히트맵 청취 분석)

  • Suh, Sangwon;Park, Sooyoung;Jeong, Youngho;Lee, Taejin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.727-731
    • /
    • 2020
  • 인공신경망의 예측 결과에 대한 원인을 분석하는 것은 모델을 신뢰하기 위해 필요한 작업이다. 이에 컴퓨터 비전 분야에서는 돌출맵 또는 히트맵의 형태로 모델이 어떤 내용을 근거로 예측했는지 시각화 하는 모델 해석 방법들이 제안되었다. 하지만 오디오 분야에서는 스펙트로그램 상의 시각적 해석이 직관적이지 않으며, 실제 어떤 소리를 근거로 판단했는지 이해하기 어렵다. 따라서 본 연구에서는 히트맵의 청취 분석 시스템을 제안하고, 이를 활용한 음향 장면 분류 모델의 히트맵 청취 분석 실험을 진행하여 인공신경망의 예측 결과에 대해 사람이 이해할 수 있는 설명을 제공할 수 있는지 확인한다.

  • PDF

Artificial intelligence-based multi-sound recognition smart hub production (인공지능 기반 다중 소리 감지 스마트허브 제작)

  • Tae-min Lee;Byung-jun Sung;Chang-heon Lee;Seong-soo Kim;Byeong-su Kim;Chan-woo Han;Joon-ho Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.241-242
    • /
    • 2023
  • 본 논문에서는 딥러닝 소리 인식을 이용하여 실내에서 발생할 수 있는 다양한 소리를 시각적인 정보로 제공해주는 스마트허브 시스템을 제안한다. 인공지능 모델은 2D-CNN 구조를 활용하여 학습을 진행하였고, 스마트허브 하드웨어는 라즈베리파이를 이용하여 구현하였다. 제안된 시스템은 청각장애인을 위해 설계된 다양한 청각 정보를 시각 정보로 전달하는 다양한 제품을 하나로 대체할 수 있을 뿐만 아니라, 설치 및 운반이 간편하여 누구나 사용하기 쉬워서 활용도가 높을 것으로 기대된다.

  • PDF

A Full Body Gumdo Game with an Intelligent Cyber Fencer using Multi-modal(3D Vision and Speech) Interface (멀티모달 인터페이스(3차원 시각과 음성 )를 이용한 지능적 가상검객과의 전신 검도게임)

  • 윤정원;김세환;류제하;우운택
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.9 no.4
    • /
    • pp.420-430
    • /
    • 2003
  • This paper presents an immersive multimodal Gumdo simulation game that allows a user to experience the whole body interaction with an intelligent cyber fencer. The proposed system consists of three modules: (i) a nondistracting multimodal interface with 3D vision and speech (ii) an intelligent cyber fencer and (iii) an immersive feedback by a big screen and sound. First, the multimodal Interface with 3D vision and speech allows a user to move around and to shout without distracting the user. Second, an intelligent cyber fencer provides the user with intelligent interactions by perception and reaction modules that are created by the analysis of real Gumdo game. Finally, an immersive audio-visual feedback by a big screen and sound effects helps a user experience an immersive interaction. The proposed system thus provides the user with an immersive Gumdo experience with the whole body movement. The suggested system can be applied to various applications such as education, exercise, art performance, etc.

Analysis of the Effects of Learners' Visual Literacy and Thinking Patterns on Program Understanding and Writing in Basic Coding Education for Computer Non-majors (컴퓨터 비전공자를 위한 기초 코딩 교육에서 학습자의 시각적 문해력과 사고 유형이 프로그램 이해와 작성에 미치는 영향 분석)

  • Park, Chan Jung;Hyun, Jung Suk
    • The Journal of Korean Association of Computer Education
    • /
    • v.23 no.2
    • /
    • pp.1-11
    • /
    • 2020
  • As software and artificial intelligence education became more and more important, in December 2019, the Ministry of Science and ICT announced plans to expand software and AI education to mandatory education in elementary and secondary schools by 2022. In addition to elementary and secondary schools, most universities are actively engaged in software education for computer non-majors, but research on coding education for computer non-majors is insufficient. The purpose of this paper is to find an efficient teaching and learning method for coding education for computer non-majors. Nowadays, college students, called Millennial and Generation Z, prefer visual information and are familiar with computers as digital natives. Based on these characteristics, this study examined the visual literacy and thinking styles of college students and then examined whether the students' visual literacy and thinking styles influenced coding-based problem solving in coding subjects. Based on this, this paper proposes an alternative to do programming education more efficiently for students who are new to coding.

A Comparative Study on the Preference and Visual Characteristics of Stream Landscape According to Hydromorpological Structures (하천의 물리적 구조에 따른 하천경관의 선호도 및 시각적 이미지 비교 연구)

  • Choi, Yun Eui;Lee, Jung A;Chon, Jinhyung
    • Journal of Wetlands Research
    • /
    • v.15 no.3
    • /
    • pp.301-315
    • /
    • 2013
  • The purpose of this study is to investigate characteristics of hydromorpological structures that affect landscape preference and visual characteristics on the sections of the designated streams where have dynamic ecological characteristics. We evaluated the ecological status of the streams utilizing LAWA to assess hydromorpological structures of streams. We also investigated preference and visual characteristics of stream landscapes through Semantic Differential Scale(SD scale). The differences of visual images according to the characteristics of hydromorpological structures in the sites were analyzed by descriptive statistics, One-way ANOVA, and t-test. As a result, this study showed that sections represented as "good" ecological status are shown to be harmonious, beautiful, natural, and clean comparing to sections represented as "poor" ecological status. The hydromorpological structures that have significant impacts on the visual characteristics are considered as riparian vegetation, cross-sectional shape, and the artificial structures. Results of this study can help guide the stream restoration of the damaged stream to improving ecological function and positive landscape.

Sport Situational Analysis Using Artificial Intelligence : Focused on Football Expected Goal (인공지능을 이용한 스포츠 상황 분석 서비스 : 축구의 기대 득점을 중심으로)

  • Kim, Jin Sob;Kim, Min Jun;Lee, Kwanhyeong;Yoon, Yongsoo;Moon, Jaehyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.826-829
    • /
    • 2020
  • 스포츠팀 운영에 있어서 경기 중 상황에 대한 통계와 분석을 통해 좋은 성과를 내는 것은 스포츠 야구 종목의 Sabermetrics를 통해 이미 증명된 바가 있다. 한편, 축구에서는 최근 들어 선수의 역량을 평가하기 위하여 객관적인 시각에서 슈터(Shooter)에게 주어진 기회, 즉 슈팅 상황을 바라보는 기대 득점(Expected Goal; 이하 xG)이라는 지표가 등장하였으나, 객관성이라는 평가 의도와 다르게 경기 내 각각의 슈팅 상황을 정의하는 것에 있어 축구 분석관들의 주관성에 의존하는 한계성을 지녔다. 본 논문은 xG를 산출하는 방식에 있어서 기존의 주관성을 배제하고 인공지능을 통해 상황을 정의하여 객관적인 평가지표를 지향하며 유의미한 통계적 수치를 지닌 xG를 도출함으로써 결과 위주의 분석만이 존재하던 축구 종목에 있어서 경기 중 상황에 대한 객관적인 판단 및 정의에 대한 방향성을 제시한다. 또한, 본 논문에서의 인공지능은 국내 K리그 슈팅 데이터를 통해 학습되어 K리그 내 전략적인 상황들에 대한 특화된 xG를 도출하며, 이를 웹을 통해 K리그 내 선수 개개인에 대해서 시계열, 상대 팀, 슈팅 위치별 그래프로 시각화하여 제공하는 시스템을 구축함으로써 K리그를 기준으로 선수에 대한 평가 및 경기 운영에 기여할 수 있는 기대 득점 분석 서비스를 제공한다.

Development and Validation of Spine Classification Model for Sarcopenia Diagnosis and Validation (근감소증 진단을 위한 척추 분류 모델 개발 및 검증)

  • Chung-sub Lee;Dong-Wook Lim;Si-Hyeong Noh;Chul Park;Chang-Won Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.475-478
    • /
    • 2023
  • 컴퓨터 단층촬영(CT)을 활용한 골격근 단면적은 근감소증과 관련된 기능을 평가하는 데 사용된다. 일반적인 근감소증 연구는 요추 3번의 골격근량을 주로 보지만 암 또는 폐절제술과의 상관관계를 예측하기 위한 다양한 연구에서는 흉추 4번, 7번, 8번, 10번, 12번 다양한 수준의 골격근량으로 연구를 진행하고 있음을 알 수 있다. 본 논문에서는 흉부와 복부 CT 영상에서 근감소증 진단을 위해서 흉추와 요추의 영역별 슬라이스를 검출하기 위해서 CNN 구조의 EfficientNetV2를 전이학습하여 인공지능 모듈을 개발하였다. 인공지능 모듈은 전체 흉부 및 복부 CT 영상에서 Cervical, T1, T2, T3, T4, T5, T6, T7, T8, T9, T10, T11, T12, L1, L2, L3, L4, L5, Sacral 총 19 클래스를 검출하도록 하였다. Test 데이터셋을 사용하여 Confusion Matrix와 Grad-CAM으로 모델의 정확도를 시각화하여 보였으며 검증으로 인공지능 모듈의 정확성을 측정하였다. 끝으로 우리가 개발한 다기관 공동연구 지원플랫폼에 적용하여 시각화된 결과를 보였다.

A Research on Explainability of the Medical AI Model based on Attention and Attention Flow Graph (어텐션과 어텐션 흐름 그래프를 활용한 의료 인공지능 모델의 설명가능성 연구)

  • Lee, You-Jin;Chae, Dong-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.520-522
    • /
    • 2022
  • 의료 인공지능은 특정 진단에서 높은 정확도를 보이지만 모델의 신뢰성 문제로 인해 활발하게 쓰이지 못하고 있다. 이에 따라 인공지능 모델의 진단에 대한 원인 설명의 필요성이 대두되었고 설명가능한 의료 인공지능에 관한 연구가 활발히 진행되고 있다. 하지만 MRI 등 의료 영상 인공지능 분야에서 주로 진행되고 있으며, 이미지 형태가 아닌 전자의무기록 데이터 (Electronic Health Record, EHR) 를 기반으로 한 모델의 설명가능성 연구는 EHR 데이터 자체의 복잡성 때문에 활발하게 진행 되지 않고 있다. 본 논문에서는 전자의무기록 데이터인 MIMIC-III (Medical Information Mart for Intensive Care) 를 전처리 및 그래프로 표현하고, GCT (Graph Convolutional Transformer) 모델을 학습시켰다. 학습 후, 어텐션 흐름 그래프를 시각화해서 모델의 예측에 대한 직관적인 설명을 제공한다.

Real-Time Visual Grounding for Natural Language Instructions with Deep Neural Network (심층 신경망을 이용한 자연어 지시의 실시간 시각적 접지)

  • Hwang, Jisu;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.487-490
    • /
    • 2019
  • 시각과 언어 기반의 이동(VLN)은 3차원 실내 환경에서 실시간 입력 영상과 자연어 지시들을 이해함으로써, 에이전트 스스로 목적지까지 이동해야 하는 인공지능 문제이다. 이 문제는 에이전트의 영상 및 자연어 이해 능력뿐만 아니라, 상황 추론과 행동 계획 능력도 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각과 언어 기반의 이동(VLN) 작업을 위한 새로운 심층 신경망 모델을 제안한다. 제안모델에서는 입력 영상에서 합성곱 신경망을 통해 추출하는 시각적 특징과 자연어 지시에서 순환 신경망을 통해 추출하는 언어적 특징 외에, 자연어 지시에서 언급하는 장소와 랜드마크 물체들을 영상에서 별도로 탐지해내고 이들을 추가적으로 행동 선택을 위한 특징들로 이용한다. 다양한 3차원 실내 환경들을 제공하는 Matterport3D 시뮬레이터와 Room-to-Room(R2R) 벤치마크 데이터 집합을 이용한 실험들을 통해, 본 논문에서 제안하는 모델의 높은 성능과 효과를 확인할 수 있었다.

Visualization Model for Security Threat Data in Smart Factory based on Heatmap (히트맵 기반 스마트팩토리 보안위협 데이터 시각화 모델)

  • Jung, In-Su;Kim, Eui-Jin;Kwak, Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.284-287
    • /
    • 2021
  • 4차 산업혁명으로 인해 제조산업에 인공지능, 빅데이터와 같은 ICT 기술을 활용한 스마트팩토리의 제조 공정 자동화 및 장치 고도화 연구가 진행되고 있다. 제조 공정 자동화를 위해 스마트팩토리의 각 계층별 장치들이 유기적으로 연결되고 있으며, 이로 인해 발생 가능한 보안위협도 증가하고 있다. 스마트팩토리에서는 SIEM 등의 장비가 보안위협 데이터를 수집·분석·시각화하여 대응하고 있다. 보안위협 데이터 시각화에는 그리드 뷰, 피벗 뷰, 그래프, 차트, 테이블을 활용한 대시보드 형태로 제공하고 있지만, 이는 스마트팩토리 전 계층의 보안위협 데이터 확인에 대한 가시성이 부족하다. 따라서, 본 논문에서는 스마트팩토리 보안위협 데이터를 CVSS 점수 기반의 Likelihood와 보안위협 데이터 기반의 Impact를 활용하여 위험도를 도출하고, 히트맵 기반 스마트팩토리 보안위협 데이터 시각화 모델을 제안한다.