• 제목/요약/키워드: 분류 문제

검색결과 3,561건 처리시간 0.063초

토픽 모델을 이용한 모바일 앱 설명 노이즈 제거 (Noise Elimination in Mobile App Descriptions Based on Topic Model)

  • 윤희근;김솔;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.64-69
    • /
    • 2013
  • 스마트폰의 대중화로 인하여 앱 마켓 시장이 급속도로 성장하였다. 이로 인하여 하루에도 수십개의 새로운 앱들이 출시되고 있다. 이러한 앱 마켓 시장의 급격한 성장으로 인해 사용자들은 자신이 흥미를 가질만한 앱들을 선택하는데 큰 어려움을 겪고 있어 앱 추천 방법에 대한 연구에 많은 관심이 집중되고 있다. 기존 연구에서 협력 필터링 기반의 추천 방법들을 제안하였으나 이는 콜드 스타트 문제를 지니고 있다. 이와는 달리 컨텐츠 기반 필터링 방식은 콜드 스타트 문제를 효율적으로 해소할 수 있는 방법이지만 앱설명에는 광고, 공지사항등 실질적으로 앱의 특징과는 무관한 노이즈들이 다수 존재하고 이들은 앱 사이의 유사관계를 파악하는데 방해가 된다. 본 논문에서는 이런 문제를 해결하기 위하여 앱 설명에서 노이즈에 해당하는 설명들을 자동으로 제거할 수 있는 모델을 제안한다. 제안하는 모델은 모바일 앱 설명을 구성하고 있는 각 문단을 LDA로 학습된 토픽들의 비율로 나타내고 이들을 분류문제에서 우수한 성능을 보이는 SVM을 이용하여 분류한다. 실험 결과에 따르면 본 논문에서 제안한 방법은 기존에 문서 분류에 많이 사용되는 Bag-of-Word 표현법에 기반한 문서 표현 방식보다 더 나은 분류 성능을 보였다.

  • PDF

지지벡터기계를 이용한 단어 의미 분류 (Word Sense Classification Using Support Vector Machines)

  • 박준혁;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.563-568
    • /
    • 2016
  • 단어 의미 분별 문제는 문장에서 어떤 단어가 사전에 가지고 있는 여러 가지 의미 중 정확한 의미를 파악하는 문제이다. 우리는 이 문제를 다중 클래스 분류 문제로 간주하고 지지벡터기계를 이용하여 분류한다. 세종 의미 부착 말뭉치에서 추출한 의미 중의성 단어의 문맥 단어를 두 가지 벡터 공간에 표현한다. 첫 번째는 문맥 단어들로 이뤄진 벡터 공간이고 이진 가중치를 사용한다. 두 번째는 문맥 단어의 윈도우 크기에 따라 문맥 단어를 단어 임베딩 모델로 사상한 벡터 공간이다. 실험결과, 문맥 단어 벡터를 사용하였을 때 약 87.0%, 단어 임베딩을 사용하였을 때 약 86.0%의 정확도를 얻었다.

띄어쓰기 및 문장 경계 인식을 위한 다중 손실 선형 결합 기반의 다중 클래스 분류 시스템 (Multi-class Classification System Based on Multi-loss Linear Combination for Word Spacing and Sentence Boundary Detection)

  • 김기환;서지수;이경열;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-188
    • /
    • 2018
  • 띄어쓰기와 문장 경계 인식은 그 성능에 따라 자연어 분석 단계에서 오류를 크게 전파하기 때문에 굉장히 중요한 문제로 인식되고 있지만 각각 서로 다른 자질을 사용하는 문제 때문에 각각 다른 모델을 사용해 순차적으로 해결하였다. 그러나 띄어쓰기와 문장 경계 인식은 완전히 다른 문제라고는 볼 수 없으며 두 모델의 순차적 수행은 앞선 모델의 오류가 다음 모델에 전파될 뿐만 아니라 시간 복잡도가 높아진다는 문제점이 있다. 본 논문에서는 띄어쓰기와 문장 경계 인식을 하나의 문제로 보고 한 번에 처리하는 다중 클래스 분류 시스템을 통해 시간 복잡도 문제를 해결하고 다중 손실 선형 결합을 사용하여 띄어쓰기와 문장 경계 인식이 서로 다른 자질을 사용하는 문제를 해결했다. 최종 모델은 띄어쓰기와 문장 경계 인식 기본 모델보다 각각 3.98%p, 0.34%p 증가한 성능을 보였다. 시간 복잡도 면에서도 단일 모델의 순차적 수행 시간보다 38.7% 감소한 수행 시간을 보였다.

  • PDF

유형의 상대적 크기를 고려한 한글문자의 유형 분류 (Tyue Classification of Korean Characters Considering Relative Type Size)

  • 김병기
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.99-106
    • /
    • 2006
  • 한글과 같이 문자집합이 큰 조합 문자의 인식을 위해서는 문제공간을 줄여주는 유형분류가 큰 도움이 된다. 기존 연구들이 한글 구성원리에 치중하여 한글 유형을 정한 결과 복모음 문자에 대한 정확한 분류가 어려웠고 문자집합이 상대적으로 큰 종성 있는 문자들에 대한 세분류가 부족하여 문제공간의 분배에 어려움이 많았다. 본 논문에서는 이러한 문제들을 해결하고자 수평 투영 프로파일을 이용하여 안정적 추출이 가능한 횡모음을 우선 추출하고. 수평 투영 프로파일과 연결요소를 이용하여 종성 있는 문자들에 대하여 종성을 5가지 그룹 중 하나로 세분류 하는 유형분류 방법을 제안하였다. 기존의 유형분류 방법들이 유형간 크기 불균형을 갖는 6개 혹은 15개의 유형을 가진 반면에 제안한 방법은 균형 있고 안정적 분류가 가능한 19개의 유형을 갖는다. 한글 잦기순 1.000자에 대한 7개의 상용 글꼴자료를 사용하여 분류 시스템을 만들고 월간지에서 스캔(Scan)한 30.614자에 대한 유형 분류 실험을 통하여 제안한 방법이 다양한 글꼴과 큰 문자집합을 갖는 한글 문자의 유형분류에 효율적임을 확인하였다.

  • PDF

텍스트 마이닝을 이용한 XML 문서 분류 기술 (Classification Techniques for XML Document Using Text Mining)

  • 김천식;홍유식
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-23
    • /
    • 2006
  • 인터넷에는 많은 문서가 있고 지금도 새로운 문서가 만들어지고 있다. 따라서 인터넷에 존재하는 문서를 의미 있게 분류하는 것은 향후 문서의 관리 및 질의처리에서 중요한 문제이다. 하지만 지금까지 대부분은 키워드에 기초한 문서 분류방법을 사용하고 있다. 이 방법은 문서를 효율적으로 분류하지 못했다. 또한 의미를 포함한 문서의 분류를 하지 못한다. 사람이 문서를 꼼꼼하게 읽어서 문서를 분류하는 방법이 최선이지만, 시간적인 면이나 효율성에 문제가 있다. 따라서 본 논문에서는 신경망 알고리즘과 C4.5 알고리즘을 이용하여 문서를 분류하고자 한다. 실험 데이터로 XML로 만들어진 이력서 데이터를 사용하여 실험하였다. 실험결과 문서 분류에 가능성을 보였다. 또한, 다양한 문서 분류 응용에 적용하여 좋은 결과를 얻을 것으로 기대한다.

  • PDF

구간값 퍼지집합에서 규칙 가중치를 고려한 분류방법 (The Method of Classification Considering Rule Weights in the Interval-Valued Fuzzy Sets)

  • 손창식;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.85-89
    • /
    • 2006
  • 구간값 퍼지집합은 일반적인 퍼지집합보다 언어적인 의사결정 절차에서 매핑의 정확성과 계산의 효율성이 뛰어나고, 규칙의 가중치는 패턴 분류문제에서 분류 경계를 효율적으로 조정할 수 있다는 장점을 가지고 있다. 따라서 본 논문에서는 퍼지규칙 기반 분류방법을 구간값 퍼지규칙 기반 분류방법으로 확장하고 규칙의 가중치를 고려한 분류방법을 제안한다. 모의실험에서는 일반 퍼지집합에서 규칙 가중치를 고려한 분류방법과 구간값 퍼지집합에서 규칙 가중치를 고려한 분류방법을 비교하였다.

  • PDF

노인 자살의 특성과 자살유형에 관한 연구 (A Study on the Characteristics of Elderly Suicide and Suicidal Type)

  • 김효창;손영미
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제12권2호
    • /
    • pp.1-19
    • /
    • 2006
  • 본 연구는 스트레스-취약성 모델을 토대로 노인 자살의 독특한 원인과 특성을 살펴보고, 자살의 유형화를 시도하고자 수행되었다. 분석결과, 자살의 취약성 요인으로 개인적 요인과 가족환경적 요인이 밝혀졌다. 개인의 특성과 관련된 요인인 개인적 요인은 개인의 정신건강문제, 신체건강문제, 문제행동으로 분류되었다. 가족환경적 요인은 취약성 요인 중, 가정환경과 관련된 요인들로 가족관계문제와 경제적 문제로 나뉘어졌다. 자살의 촉발사건은 촉발사건의 성격에 따라 분류하였는데, 대인관계적 사건만이 나타났다. 대인관계적 사건은 자살자가 자신에게 중요하게 여기는 사람과의 관계단절 등을 경험하는 대인관계상실 사건과 대인관계상 갈등으로 인해 자살을 하게 된 대인관계갈등 사건으로 분류되었다. 취약성 요인과 촉발사건의 상호 영향력에 따라 자살을 유형화하였으며 자살의 촉발사건은 언급되지 않고 취약성 요인만 언급된 취약형 자살, 촉발사건만이 언급된 사건반응형 자살, 그리고 취약성 요인과 촉발사건이 동시에 언급된 복합형 자살로 분류하였다. 자살유형에 따른 특성과 각각의 자살 예방법에 대해 논의하였으며, 청소년과 성인을 대상으로 한 선행 연구들과의 비교를 통해 노인 자살의 특성을 보다 명백히 살펴보았다.

모멘트와 바이어스 학습법에 의한 학습 성능 (Learning performance of by the momentum and the bias learning method)

  • 김은미;이배호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.431-434
    • /
    • 2005
  • 근원데이터나, 이원데이터를 이용한 문제를 해결하기 위해서는 많은 경우에 완전 해를 갖는 문제로 변형시키기 위해 정규화할 필요성이 있다. 본 논문에서는 이러한 정규화 인수를 찾는 문제를 기존의 GCV, L-Curve, 그리고 이원데이터를 RBF 신경회로망에 적용시킨 커널 학습법에 대한 각각의 성능을 비교실험을 통해 고찰한다. 이때 커널을 이용한 학습법의 성능을 향상하기 위해, 전체학습과 성능의 제한적 비례관계라는 설정아래, 각각의 학습에 따라 능동적으로 변화하는 동적모멘텀의 도입을 제안한다. 끝으로 제안된 동적모멘텀이 분류문제의 표준인 Iris 데이터, Singular 시스템의 대표적 모델인 가우시안 데이터, 그리고 마지막으로 1차원 이미지 복구문제인 Shaw데이터를 이용한 각각의 실험에서 분류문제와 회계문제 양쪽 모두에 있어 기존의 GCV, L-Curve와 동등하거나 우수한 성능이 있음을 보인다.

  • PDF

금융분야 AI의 윤리적 문제 현황과 해결방안

  • 이수련;이현정;이아람;최은정
    • 정보보호학회지
    • /
    • 제32권3호
    • /
    • pp.57-64
    • /
    • 2022
  • 우리 사회에서 AI 활용이 더욱 보편화 되어가고 있는 가운데 AI 신뢰에 대한 사회적 요구도 증가했다. 특히 최근 대화형 인공지능'이루다'사건으로 AI 윤리에 대한 논의가 뜨거워졌다. 금융 분야에서도 로보어드바이저, 보험 심사 등 AI가 다양하게 활용되고 있지만, AI 윤리 문제가 AI 활성화에 큰 걸림돌이 되고 있다. 본 논문에서는 인공지능으로 발생할 수 있는 윤리적 문제를 활용 도메인과 데이터 분석 파이프라인에 따라 나눈다. 금융 AI 기술 분야에 따른 윤리 문제를 분류했으며 각 분야별 윤리사례를 제시했고 윤리 문제 분류에 따른 대응 방안과 해외에서의 대응방식과 우리나라의 대응방식을 소개하며 해결방안을 제시했다. 본 연구를 통해 금융 AI 기술 발전에 더불어 윤리 문제에 대한 경각심을 고취시킬 수 있을 것으로 기대한다. 금융 AI 기술 발전이 AI 윤리와 조화를 이루며 성장하길 바라며, 금융 AI 정책 수립 시에도 AI 윤리적 문제를 염두해 두어 차별, 개인정보유출 등과 같은 AI 윤리 규범 미준수로 파생되는 문제점을 줄이며 금융분야 AI 활용이 더욱 활성화되길 기대한다.

DDC의 상관식 배가법 적용과 분류체계 세분화에 대한 연구 (A Study of the Application of Relative Location System and Minute Classification System in the DDC)

  • 곽철완
    • 한국도서관정보학회지
    • /
    • 제48권3호
    • /
    • pp.45-61
    • /
    • 2017
  • 본 연구의 목적은 DDC가 당시 도서관 장서의 급속한 증가 문제를 해결하기 위해 도서관 최초로 상관식 배가법을 도입하고 세분화된 분류체계를 적용한 것이 도서관계에 어떤 영향을 미쳤는지 분석하는데 있다. 이를 위해 DDC가 상관식 배가법을 도입하고, 분류체계를 세분화하여, 도서관과 타 분류법에 미친 영향 등을 비교 분석하였다. 분석 결과 첫째, DDC는 이전에는 존재하지 않았던 상관식 배가법이라는 혁신적인 방법을 적용하여, 세분화된 분류체계를 도입하면서 당시 도서관이 처해있던 급속한 장서 증가 문제를 해결하였다. 둘째, 세부적인 분류를 위해 형식 구분을 분류기준으로 적용하여 실질적으로 도서관의 도서 분류에 도움을 주었다. 셋째, 분류체계에 십진법을 도입함으로써 분류체계의 무한정 세분화가 가능하여, 경제성과 실용성을 획득하였다. 넷째, 전개분류법이나 주제분류법을 비롯한 현대 도서관 분류법 발전에 큰 영향을 미쳤다. 이처럼 상관식 배가법을 적용하고 세분화된 분류체계를 가진 DDC는 시대적 요구에 적합한 분류법이었고, 개별 도서관에서 실용적으로 사용할 수 있는 분류법이었다.