• 제목/요약/키워드: Linguistic Model

검색결과 287건 처리시간 0.026초

토픽 모델링과 머신 러닝 방법을 이용한 온라인 C2C 중고거래 시장에서의 사기 탐지 연구 (A Study on the Fraud Detection in an Online Second-hand Market by Using Topic Modeling and Machine Learning)

  • 이동우;민진영
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.45-67
    • /
    • 2021
  • 온라인 C2C 중고거래에 대한 수요가 증가하고 있으나 물품을 보내지 않거나 명시한 것과 다른 물건을 보내는 방식으로 부당한 금전적 이득을 챙기려는 사기 행위자들의 수도 증가하고 있다. 본 연구는 이러한 사기를 미연에 방지하기 위한 머신 러닝 방법을 이용한 사기 탐지 모델을 구축하였다. 이를 위해 대표적 C2C 중고거래 플랫폼인 중고나라에서 145,536건의 거래 게시글을 수집하였다. 이후 이들 게시글에서 토픽 모델링 기법을 이용하여 상품 설명 내용의 주제를 추출하였으며, 상품 설명의 언어적 특성, 준언어적 특성, 상품의 특성, 게시글의 포스팅 특성, 구매자 특성, 거래 특성들을 추출하였다. 이를 XGBoost 방법에 기반한 머신 러닝 모델을 구축하여 사기 게시글을 탐지하였다. 분석 결과, 사기 게시글은 글 자체의 길이가 대체로 짧고, 제공하는 정보가 적고 상대적으로 구체적이지 않은 것으로 나타났으며 명사를 상대적으로 적게 쓰고 이미지도 사용하지 않거나 적게 사용하는 글이 대부분인 것으로 나타났다. 또한 상대적으로 숫자와 공백의 비율이 높게 나타났으며 정상 게시글의 경우 명사의 경우 상품의 정보, 동사의 경우 전달, 형용사의 경우는 행위와 관련된 단어들이 사용되었으나 사기 게시글은 뚜렷한 주제를 가지지 못하는 것으로 나타났다. 본 연구는 전화번호나 계좌번호를 사용한 기존의 방법과 달리 다양한 게시글의 특성으로 사기 여부를 탐지하는 모델을 구축했다는 점에서 학술적, 실무적 시사점을 가지고 있다.

격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization)

  • 김완수;옥철영
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1376-1384
    • /
    • 2016
  • 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.

사용자 맞춤형 정보 제공을 위한 동적 인터넷 주소 모델 (A Dynamic Internet Address Model for Providing Customized Information)

  • 이영호;구용완
    • 인터넷정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.27-34
    • /
    • 2016
  • 인터넷 주소가 웹 사이트를 지칭하던 때와는 달리 웹 사이트 안에 담겨진 개별 서비스/콘텐츠/상품 등으로 세분화하여 지칭할 수 있게 되는 개방형 도메인 서비스가 국제 인터넷 주소 관리기구(ICANN)에 의해 도입되고 있다. 개방형 도메인은 서비스/콘텐츠/상품 단위의 주소를 표현하는 데에 더 적합하다. 본 논문에서는 사용자의 차별적 상황과 무관하게 주소 표현에 대해서 일관된 매핑 결과를 반환하는 정적인 인터넷 주소 서비스에 대한 대안으로, 사용자의 특정 요구에 맞추어진 매핑 결과를 반환하는 동적 인터넷 주소 모델을 설계하고, 기존 도메인 프로토콜의 변경 없이 주소 서비스 구현이 가능한 방법을 제안한다. 사용자의 메타 정보 및 환경 정보를 인터넷 주소 표현에 인코딩하여 첨부하고, 네임 서버에 동적 매핑을 위한 모듈을 추가하여 동적 인터넷 주소의 구현이 가능하다. 이를 통해 인터넷 주소의 기능 확장을 도모하고, 인터넷 주소 자체만으로도 사용자에게 맞추어진 정보검색 서비스가 가능할 수 있을 것으로 기대된다.

존대등분 계산법과 사례기반추론을 활용한 상황 인식형 모바일 인터페이스 시스템 (Applying Polite level Estimation and Case-Based Reasoning to Context-Aware Mobile Interface System)

  • 권오병;최석재;박태환
    • 지능정보연구
    • /
    • 제13권3호
    • /
    • pp.141-160
    • /
    • 2007
  • 모바일 서비스의 수용성에는 사용자 인터페이스가 중요한 요소이다. 특히 모바일 인터페이스에서 청자(listner)인 인간에게 화자(Speaker)인 기계가 어떻게 시의 적절한 대화를 하는가는 수용성에 중요한 요소임에도 불구하고 아직까지 이에 대한 본격적인 연구가 진행되지 못했다. 따라서 본 연구의 목적은 사용자의 상황을 인식한 존대등분 계산법을 제안하여 이에 근거한 시의 적절한 대화를 지원하는 상황 인식형 모바일 인터페이스를 설계하도록 하는 것이다. 다만 존대등분 계산은 문화별 및 언어별로 차이가 날 수 있으므로 한국어를 대상으로 계산법을 제안하려고 한다. 유비쿼터스 환경과 같은 분산 환경에서 사생활 정보를 보호하면서 사례기반 추론을 수행하기 위해 기존의 Minkowski aggregation 방법을 수정한 Nested Minkowski aggregation 방법을 사용하였다. 또한 본 방법론의 사용가능성을 증명하기 위하여 드라마 사례를 가지고 시뮬레이션 기반의 성능 비교를 수행하였다.

  • PDF

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

퍼지-뉴럴네트워크 구조에 의한 비선형 공정시스템의 지능형 모델링 (Intellignce Modeling of Nonlinear Process System Using Fuzzy Neyral Networks-based Structure)

  • 오성권;노석범;남궁문
    • 한국지능시스템학회논문지
    • /
    • 제5권4호
    • /
    • pp.41-55
    • /
    • 1995
  • 본 논문에서는 복잡한 비선형 시스템의 모델링을 위해 퍼지-뉴럴 네트워크(FNNs)를 사용한 최적 동적 방법이 제안된다. 제안된 퍼지-뉴럴 모델링은 공정시스템의입축력 데이타를 이용하여 기존의 최적이론, 언어적 퍼지구현규칙, 뉴럴네트워크 등의 지능형 이론을 도입하여 시스템의 구조와 파라미터 동정을 구현한다. 이 모델링의 추론형태는 간략추론이 사용된다. 최적 모델을 얻기위해, 퍼지-뉴렬 네트워크의 학습률과 모멘텀 계수가 본논문에서 제안한 개선된 컴플렉스 법과 수정된 학습알고리즘을 이용하여 자동동조 된다. 이 알고리즘의 비선형 공정으로의 응용을 위하여 교통 경로 선택 데이타 및 하수처리시스템의 활성화와 공정 데이타가 제안한 모델링의 성능을 평가하기 위해 사용된다. 제안된 방법이 기존의 다른 논문과 비교하여 더 높은 정확도를 가진 지능형 모델을 생성함을 보인다.

  • PDF

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

초기 소량 데이터와 RNN을 활용한 루머 전파 추적 기법 (Initial Small Data Reveal Rumor Traits via Recurrent Neural Networks)

  • 권세정;차미영
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.680-685
    • /
    • 2017
  • 온라인 소셜미디어의 등장으로 방대한 사용자 데이터가 수집되고 이는 루머의 탐지와 같은 복잡하고 도전적인 사회 문제를 자료 기반 기법으로 해결할 수 있게끔 한다. 최근 딥러닝 기반 모델들이 이러한 문제를 해결하기 위한 빠르고 정확한 기법 중의 하나로서 소개되었다. 하지만 기존에 제시된 모델들은 전파 종료 후 작동하거나 오랜 관찰기간을 필요로 하여 활용성이 제한된다. 이 연구에서는 초기 소량 데이터만을 활용하는 recurrent neural networks (RNNs) 기반의 빠른 루머 분류 알고리즘을 제안한다. 제시된 모델은 소셜미디어 스트림을 시계열 자료로 변환하여 사용하며, 이 때 시계열 데이터는 팔로워 수와 같이 정보 전파자 관련 정보는 물론 주어진 컨텐츠에서 추론한 언어심리학적 감성의 점수로 구성된다. 수백만의 트윗을 포함하는 498개의 실제 루머 및 494개의 비루머 사례 분석을 통해 이 연구는 제안하는 RNN 기반 모델이 초기 30개의 트윗 만으로도 (초기 수시간) 0.74 F1의 높은 성능을 보임을 확인한다. 이러한 결과는 실제 응용가능한 수준의 빠르고 효율적인 루머 분류 알고리즘 개발의 초석이 된다.

Coronavirus Disease-19(COVID-19)에 특화된 인공신경망 기계번역기 (Neural Machine translation specialized for Coronavirus Disease-19(COVID-19))

  • 박찬준;김경희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.7-13
    • /
    • 2020
  • 최근 세계보건기구(WHO)의 Coronavirus Disease-19(COVID-19)에 대한 팬데믹 선언으로 COVID-19는 세계적인 관심사이며 많은 사망자가 속출하고 있다. 이를 극복하기 위하여 국가 간 정보 교환과 COVID-19 관련 대응 방안 등의 공유에 대한 필요성이 증대되고 있다. 하지만 언어적 경계로 인해 원활한 정보 교환 및 공유가 이루어지지 못하고 있는 실정이다. 이에 본 논문은 COVID-19 도메인에 특화 된 인공신경망 기반 기계번역(Neural Machine Translation(NMT)) 모델을 제안한다. 제안한 모델은 영어를 중심으로 프랑스어, 스페인어, 독일어, 이탈리아어, 러시아어, 중국어 지원이 가능한 Transformer 기반 양방향 모델이다. 실험결과 BLEU 점수를 기준으로 상용화 시스템과 비교하여 모든 언어 쌍에서 유의미한 높은 성능을 보였다.

한글 말뭉치를 이용한 한글 표절 탐색 모델 개발 (Developing of Text Plagiarism Detection Model using Korean Corpus Data)

  • 류창건;김형준;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.231-235
    • /
    • 2008
  • 최근 들어 각종 창작물에 대한 표절 사건이 빈번하게 발생하고 있다. 특히 문서들 간의 표절은 현재 많은 이슈가 되고 있다. 영어에 관한 표절연구는 서양에서 오래전부터 이뤄져 왔지만 한글은 구조적인 어려움으로 인해 아직 많은 연구가 이뤄지지 않고 있다. 한글은 영어와 구조적인 특징이 많이 다르기 때문에 영어기반의 탐색 기법을 한글 문서에 적용하기는 어렵다. 본 논문에서는 한글의 특성에 맞는 새로운 표절 탐색 기법을 소개하고 한글 말뭉치를 이용하여 그 성능을 실험해본다. 제안된 기법은 "k-mer"와 "지역정렬" 방법을 기반으로, 문서들 간의 표절구간을 매우 빠르고 정확하게 찾아낸다. 또한 우리는 천만어절 이상의 크기를 가진 한글 말뭉치를 이용하여 표절이 일어나지 않은 일반적인 문서에서 우연히 나타나게 될 유사 확률에 관한 모형을 만들었다. 시스템을 이용하여 성능을 측정해 본 결과, 표절 문서를 매우 정확하게 찾는 것을 알 수 있었다.