• 제목/요약/키워드: Morpheme Information

검색결과 135건 처리시간 0.024초

레그테크 기반의 자본시장 규제 해석 온톨로지 및 딥러닝 기술 개발을 위한 제언 (Suggestions for the Development of RegTech Based Ontology and Deep Learning Technology to Interpret Capital Market Regulations)

  • 최승욱;권오병
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권1호
    • /
    • pp.65-84
    • /
    • 2021
  • Purpose Based on the development of artificial intelligence and big data technologies, the RegTech has been emerged to reduce regulatory costs and to enable efficient supervision by regulatory bodies. The word RegTech is a combination of regulation and technology, which means using the technological methods to facilitate the implementation of regulations and to make efficient surveillance and supervision of regulations. The purpose of this study is to describe the recent adoption of RegTech and to provide basic examples of applying RegTech to capital market regulations. Design/methodology/approach English-based ontology and deep learning technologies are quite developed in practice, and it will not be difficult to expand it to European or Latin American languages that are grammatically similar to English. However, it is not easy to use it in most Asian languages such as Korean, which have different grammatical rules. In addition, in the early stages of adoption, companies, financial institutions and regulators will not be familiar with this machine-based reporting system. There is a need to establish an ecosystem which facilitates the adoption of RegTech by consulting and supporting the stakeholders. In this paper, we provide a simple example that shows a procedure of applying RegTech to recognize and interpret Korean language-based capital market regulations. Specifically, we present the process of converting sentences in regulations into a meta-language through the morpheme analyses. We next conduct deep learning analyses to determine whether a regulatory sentence exists in each regulatory paragraph. Findings This study illustrates the applicability of RegTech-based ontology and deep learning technologies in Korean-based capital market regulations.

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

Improvement of recommendation system using attribute-based opinion mining of online customer reviews

  • Misun Lee;Hyunchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.259-266
    • /
    • 2023
  • 본 논문에서는 속성기반 오피니언 마이닝(ABOM)을 적용한 협업 필터링의 정확도 성능을 개선할 수 있는 알고리즘을 제안한다. 실험을 위해 국내 스마트폰 사용자의 스마트폰 앱에 대한 총 1,227건의 온라인 소비자 리뷰 데이터가 분석에 사용되었다. KKMA(꼬꼬마)분석기를 이용하여 형태소 분석 및 KOSAC를 사용하여 감성어 분석 후 LDA 토픽 모델링을 사용하여 속성 추출한 가중치 값을 부여한 리뷰별로 토픽 모델링 결과를 이용하여 협업필터링의 평점과 감성스코어의 평점을 합산한 평균값 정확도 오차를 계산한 통계모형 성능 평가인 MAE, MAPE, RMSE를 사용하였다. 실험을 통해 추천 알고리즘 중 전통적인 협업필터링과 LDA 속성 추출과 감성분석을 결합한 속성기반 오피니언 마이닝(Aspect-Based Opinion Mining, ABOM) 기법을 결합하여 온라인 고객의 앱 평점(APP_Score) 대한 정확도를 예측하였다. 분석 결과 전통적인 협업필터링을 구현한 평점의 정확도 보다 속성기반 오피니언 마이닝 CF를 적용한 평점의 예측 정확도가 더 우수한 것으로 나타났다.

영화리뷰 감성 분석을 통한 평점 예측 연구 (Sentiment Analysis of movie review for predicting movie rating)

  • 조정태;최상현
    • 경영과정보연구
    • /
    • 제34권3호
    • /
    • pp.161-177
    • /
    • 2015
  • 인터넷 포털은 많은 양의 정보를 빠르고 쉽게 이용 할 수 있다는 특성 때문에 지속적으로 영향력이 커지고 있다. 웹 이용자들은 다양한 정보 습득, 네티즌 간의 정보 교환 등 다양한 목적을 위해 포털 사이트를 사용하고 있다. 문화콘텐츠 이용자들은 타인의 경험을 미리 알아보기 위해 포털 사이트에서 정보를 검색한 후 해당콘텐츠를 사용하고 개인적인 의견을 게시하기도 한다. 영화를 보고자 하는 이용자들은 관련 정보를 검색하고 얻는 과정에서 영화에 대한 다른 이용자들이 게시한 다양한 정보들을 접하게 된다. 영화 관련 포털사이트에서는 영화에 대한 제한된 글자수의 리뷰와 평점을 제공하는데 이와 같은 정보의 영향으로 영화에 대한 태도를 형성할 뿐 아니라, 영화 관람 여부를 결정하도록 만들 수 있다. 하지만 영화 리뷰는 사용자가 전체를 읽을 수 없기 때문에 일부 리뷰와 리뷰 개개의 평점보다는 전체 평점을 참고 하여 의사결정을 하는 정도가 대부분이다. 이처럼 전체 평점만을 참고하게 되면 편향적인 정보 습득으로 인하여 잘못된 판단을 할 수 있게 된다. 이러한 리뷰의 특성에도 불구하고 리뷰는 사용자의 의견을 풍부하게 드러내고 영화를 보지 않은 다른 이용자들의 선택에 영향을 미친다는 점에서 다양한 실용적 활용성을 갖는 데이터임은 분명하다. 본 연구에서는 리뷰 데이터를 활용하여 평점을 예측하기 위한 평점예측 연구를 수행하였다. 리뷰테이터를 형태소로 추출하고 형태소별로 극성값을 계산하여 리뷰에 대한 평점을 예측하는 모형으로서, 기존의 긍부정 값만을 근거로 하는 모형에 비해 정확도가 높아진 것을 확인하였다.

  • PDF

개체추출기법을 이용한 관계성 도출기법 (A Study of Relationship Derivation Technique using object extraction Technique)

  • 김종희;이은석;김정수;박종국;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.309-311
    • /
    • 2014
  • 최근, 산재된 비정형 데이터 분석 등을 통한 빅데이터 활용에 대한 요구들이 증가하고 있으나, 아직까지 이에 대한 연구들이 부족한 실정이다. 따라서 본 연구에서는 수집된 웹 정보에서 개체들을 추출하여 이들 간의 관계를 집단지성 기술과 언어처리 기술을 통해 자동 분석해 냄으로써 문장단위의 의미기반 분석을 할 수 있는 기법을 제시한다. 이를 위해, 수집된 정보를 DBMS에 정형화된 형태로 저장한 후 형태소와 자질정보를 분석한다. 획득한 형태소 중 관심개체, 주변개체, 비관심 개체를 분류하고 개체간 속성인식기법을 이용하여 각 개체간의 관계를 정도, 범위, 성격 등으로 분석한다. 그 결과, 긍정 부정의 판단이 가능한 개체간의 관계성 도출기법을 제시함으로써, 특정 키워드를 대상으로 분석된 정보들의 연관도를 분석할 수 있었다. 이 연구를 통해, 최근 실시간 대용량 처리 시스템에 적합한 시스템을 설계하여 이를 부가가치가 높은 서비스에 적용할 수 있는 방법을 제시하였다.

  • PDF

투자전략 보고서의 제목이 주가 예측에 미치는 영향: 텍스트마이닝 중심으로 (How the Title of Investment Strategy Report Affects Stock Price Forecast: Using Text Mining Method)

  • 장준규;이규현;이준기
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.21-34
    • /
    • 2016
  • 재무분석가의 투자전략 보고서는 전문가의 금융정보 분석으로 사람들간의 금융 정보 격차를 줄일 수 있게 만들어 줄 수 있다. 하지만 여러 다른 인센티브로 말미암아 투자전략 보고서는 왜곡의 소지가 있을 수 있다. 만약, 투자전략 보고서 제목만으로 예측에 미치는 영향을 파악할 수 있다면, 예측력이 높은 투자전략 보고서를 분별할 수 있게 된다. 이에 본 연구는 재무분석가의 투자전략 보고서의 제목과 예측의 관계를 파악하려 한다. 텍스트 마이닝을 사용하여, 국내 재무분석가의 투자전략 보고서 제목으로부터 연구의 중요변수인 투자의견을 추출하고 모형을 구축하여 재무분석가의 예측 정확도와 예측 달성도를 측정하였다. 분석 결과, 강한 매수의견과 매도의견이 제목에 있을수록 재무분석가의 예측 정확도와 예측 달성도가 높아짐을 검증하였다. 본 연구 결과가 투자자에게 더 정확한 투자전략 보고서를 판단하는 기준를 제시하기를 바라고 빅데이터를 통한 분석 연구에 시사점을 주길 기대한다.

  • PDF

형태소 단위의 한국어 확률 의존문법 학습 (Korean Probabilistic Dependency Grammar Induction by morpheme)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.791-798
    • /
    • 2002
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 한국어의 부분 자유 어순성질과 문장의 필수적 성분의 생략과 같은 특성으로 인하여 한국어 구문분석에 관한 연구들에서는 주로 의존문법을 선호하고 있다. 본 논문에서는 기존의 어절단위학습방법에서는 학습할 수 없었던 어절 내의 의존관계를 학습할 수 있는 형태소 단위의 학습 방법을 제안한다. KAIST의 트리 부착 코퍼스 약 3만 문장에서 추출한 25,000문장의Tagged Corpus을 가지고 한국어 확률 의존문법 학습을 시도하였다. 그 결과 초기문법 2,349개의 정확한 문법을 얻을 수 있었으며, 문법의 정확성을 실험하기 위해 350개의 실험문장을 parsing한 결과 69.77%의 파싱 정확도를 보였다. 이로서 한국어 어절 특성을 고려한 형태소 단위 학습으로 얻어진 의존문법이 어절 단위 학습으로 얻어진 문법보다 더 정확하다는 사실을 알 수 있었다.

한국어 화행 분류를 위한 최적의 자질 인식 및 조합의 비교 연구 (A Comparative Study on Optimal Feature Identification and Combination for Korean Dialogue Act Classification)

  • 김민정;박재현;김상범;임해창;이도길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권11호
    • /
    • pp.681-691
    • /
    • 2008
  • 본 논문은 통계 기반 한국어 화행분류를 위하여 필요한 각 자질이 분류 성능에 미치는 영향과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 지지벡터기계 학습 방법을 이용하여 구현한 화행 분류시스템을 통해 실험한 결과, n-gram 자질 중 품사 바이그램은 유용하지 않으며 형태소-품사 쌍과 다른 자질들을 결합했을 때 성능이 향상됨을 알 수 있었다. 또한, 자질 선택 기법을 사용한 자질 비율에 따른 실험을 통해서 매우 적은 자질만으로도 화행 분류에 있어 어느 정도 안정된 성능을 낼 수 있었다. 아울러, 실험 결과의 분석을 통해 한국어에서 마지막 어절이 문장 전체의 화행분류에 중요한 역할을 하며, 한국어의 특징인 자유 어순이나 주어의 빈번한 생략 등이 화행 분류 실험의 성능에 영향을 미친다는 사실도 알 수 있었다.

일상 증상 기록과 활용 방안 연구 (Study on Daily Living Symptom Record and Utilization)

  • 서진순;김안나;김상균;장현철
    • 동의생리병리학회지
    • /
    • 제29권5호
    • /
    • pp.386-393
    • /
    • 2015
  • Bian-zheng(辨證) of Korean Medicine(KM) is based on four examinations(四診) of Korean medical doctor. The interrogation or questioning(問診) provides the most information of four examinations. The symptom obtained from the interrogation or questioning is the main basis of the Bian-zheng. KM is understood in the whole state of the body of a specified time without seeing the disease exist. So the observable symptom is disease itself. Symptom in KM is used as an important basis for the diagnosis. But if the interview when memories are not sure of the correct answer does not get much easier to find exactly the symptoms. So when recording original symptom(素證) and daily subjective symptom can be helpful for care. In this paper, we propose daily living symptom record system as a method that can be applied to the health care according to the importance of collecting the symptom in the KM. Daily living symptom record system can record the symptom in the individual to awaken daily. The system stores the symptom in structure and provides an open shared services. So it can be used as a symptom of other systems, such as PHR, EMR, CDSS. In addition, Doctor may be able to help in the treatment determined by reference to shared symptom.

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.