• Title/Summary/Keyword: 유사성의 기준

Search Result 1,468, Processing Time 0.026 seconds

A Study on Language Modeling for Korean Legal Text Processing (한국어 법률 텍스트 처리를 위한 언어 모델링 연구)

  • Ye-Jee Kang;Fei Li;Yeon-Ji Jang;Hye-Rin Kang;Seo-Yoon Park;Han-Saem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

Self-learning Method Based Slot Correction for Spoken Dialog System (자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정)

  • Choi, Taekyoon;Kim, Minkyoung;Lee, Injae;Lee, Jieun;Park, Kyuyon;Kim, Kyungduk;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

AI Performance Based On Learning-Data Labeling Accuracy (인공지능 학습데이터 라벨링 정확도에 따른 인공지능 성능)

  • Ji-Hoon Lee;Jieun Shin
    • Journal of Industrial Convergence
    • /
    • v.22 no.1
    • /
    • pp.177-183
    • /
    • 2024
  • The study investigates the impact of data quality on the performance of artificial intelligence (AI). To this end, the impact of labeling error levels on the performance of artificial intelligence was compared and analyzed through simulation, taking into account the similarity of data features and the imbalance of class composition. As a result, data with high similarity between characteristic variables were found to be more sensitive to labeling accuracy than data with low similarity between characteristic variables. It was observed that artificial intelligence accuracy tended to decrease rapidly as class imbalance increased. This will serve as the fundamental data for evaluating the quality criteria and conducting related research on artificial intelligence learning data.

Evaluation Models for Venture Capitalist's Investment Decision (벤처캐피탈리스트의 투자의사결정 모형 : 한국과 미국의 비교연구)

  • Bahn, Sung-Sik;Zacharakis, Andrew;Song, Kyoung-Mo
    • The Korean Journal of Financial Management
    • /
    • v.19 no.2
    • /
    • pp.271-297
    • /
    • 2002
  • 미국의 벤처캐피탈 산업은 벤처캐피탈 분야에 진입하고 있는 많은 나라들에게 본보기가 되고 있다. 그러나 서로 다른 문화, 정치 경제적 상황 및 각국의 벤처캐피탈 산업의 고유한 역사 등은 벤처캐피탈의 경영 방식에 영향을 미칠 수 있다. 본 연구는 한국의 벤처캐피탈리스트의 투자의사결정이 미국의 벤처캐피탈리스트와 어떻게 다른가에 초점을 두었다. 연구 결과는 한국의 벤처캐피탈리스트는 투자의사결정의 과정에서 미국과는 다른 기준을 사용하며, 그 예측의 정확성은 미국에 비해 떨어지는 것으로 나타났다. 한국 벤처캐피탈리스트와 미국 벤처캐피탈리스트 모두 경쟁력은 매우 중요한 투자의사결정 기준으로 나타났다. 그러나 미국의 벤처캐피탈리스트가 시장규모와 성장성을 중요하게 고려한데 비해 한국의 벤처캐피탈리스트는 소유권 보호에 중점을 두었다. 그렇지만, 한국과 미국의 벤처캐피탈리스트 사이에는 기대 이상으로 유사점이 많은 것으로 나타났다. 이러한 유사점이 존재하는 현상은 많은 한국의 벤처캐피탈리스트들이 미국에서 교육을 받았거나 미국식의 모형에 의한 교육을 받아왔다는 점에서 찾을 수 있을 것이다. 또한 한국의 벤처캐피탈리스트는 이미 성공적인 미국식 벤처캐피탈 모형을 표준으로 삼고 모방하려고 노력하고 있다는 점을 들 수 있을 것이다.

  • PDF

Edge-directed demosaicing considering cross channel correlation (채널간 상관관계 및 에지 방향을 고려한 컬러 보간)

  • Yoo, Du-Sic;Kang, Moon-Gi
    • Proceedings of the KIEE Conference
    • /
    • 2007.10a
    • /
    • pp.413-414
    • /
    • 2007
  • 본 논문은 칼라 필터 배열(color filter array : CFA) 영상에서 채널 간 상관관계를 이용한 새로운 에지 방향 컬러 보간 방법을 제시하였다. 고정 채널 간 컬러 차 가정에 따라 휘도와 색차간의 차가 큰 경우 에지 영역이라 판단한다. 에지 방향 판별을 정확히 하기 위해 수평, 수직 방향으로 컬러 차 영상을 구하고, 구한 영상에서 변화량을 계산하여 에지 방향 판별 기준으로 사용한다. 에지 판별 기준을 사용하여, 에지 방향에 따라 컬러 보간을 수행한다. 평탄 영역은 이웃 화소와의 유사성에 따라 가중치를 다르게 줘서, 이웃 화소의 가중치 합으로 구한다 실험 결과는 제안하는 알고리즘이 기존 알고리즘 보다 우수함을 보여준다.

  • PDF

Design and Implementation of Data Visualization Tool using Case-Based Reasoning on Electronic Commerce (사례 기반 추론을 통한 전자상거래 상품 가시화 도구의 설계 및 구현)

  • Kim, Ju-Ha;Kweon, Ki-Hyeon
    • Annual Conference of KIPS
    • /
    • 2003.11c
    • /
    • pp.1629-1632
    • /
    • 2003
  • 전자상거래 상의 방대한 데이터베이스의 자료 중에서 검색한 정보를 직관적으로 선택할 수 있도록 하기 위해서는 효율적인 검색 기능뿐만 아니라 검색된 결과의 표현 및 가시화에 대한 부분이 중요하다. 현재까지 검색 방법의 효율성에 대한 연구는 많이 진행되고 있으나 검색 결과의 가시화 방법에 대한 연구는 미미한 형편이다. 본 연구에서는 전자상거래를 위한 검색 결과를 유사도를 기준으로 가시화 시키는 데이터 가시화에 대한 연구를 하였다. 유사도는 유클리드 거리를 기준으로 Nearest Neighbor 방법을 사용하여 2차원 평면상에 상품을 가시화하도록 하는 전자상거래 상품 가시화 에이전트를 설계하고 구현한다.

  • PDF

Recommendation of Buying Points for Internet Shopping Malls (인터텟 쇼핑몰에서 구매시점의 추천)

  • 장은실;이용규
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.491-494
    • /
    • 2004
  • 최근 인터넷 쇼핑몰에서 상품을 구매하는 고객들에게 편의성과 효율성을 제공하기 위하여 구매자들의 선호도나 가격에 맞는 상품을 추천해 주는 연구들이 활발하게 진행되고 있다. 그러나 이러한 상품을 추천하는 연구들은 다양하게 발전하고 있지만 추천된 상품들의 구매시점에 관한 연구는 찾아보기 어렵다. 이에 본 논문에서는 인터넷 쇼핑몰의 적극적인 마케팅 일환으로 상품을 구매할 시점을 추천해 주는 방안을 제안한다. 이를 위하여 과거의 판매 기록 데이터베이스에 있는 판매가격의 기준 시계열 패턴과 유사한 시계열 패턴을 정규화 변환된 유사도로써 검색한다. 검색된 과거 가격 패턴을 기준으로 미래 가격 패턴을 분석하여, 미래 가격 패턴의 변화에 따라 상품 구매시점을 추천한다. 또한 본 논문에서는 이러한 구매시점을 추천하는 상품 추천 시스템을 설계한다.

  • PDF

Decreasing the Masking Effect by Learning Dependence Structures (의존성 구조 학습을 통한 masking 효과 축소)

  • 한경식;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.15-17
    • /
    • 1998
  • 설명 기반 학습은 시스템 성능향상에 필요한 탐색 제어 지식을 학습하는 방법으로 많이 이용되고 있다. EBL은 과거의 문제풀이 과정을 일반화하여 학습한 다음 이와 유사한 상황이 발생할 경우, 문제풀이를 거치지 않고 학습된 해답을 신속하게 제시하여 성능을 향상시킨다. 그러나 새로운 문제 해결이 과거 문제 풀이 해답에 의존할 경우, 그에 대한 해답을 신속히 구할 수는 있지만 해답의 질은 학습 결과에 의존하지 않을 때보다 오히려 못할 수 있다. 이러한 현상을masking효과라고 한다. 본 논문에서는 의존성 구조를 학습, 이용하여 이러한 masking 효과를 축소하고자 한다. 의존성 구조는 현 상태에서 선택된 연산자가 이후의 문제 풀이에 끼치는 영향을 포함하는 구조로서, 이후 유사한 상황에 대해 선택될 연산자의 적합성 및 효율성을 평가하는 기준으로 사용될 수 있다는 점에서 masking 효과를 축소할 수 있다.

  • PDF

Forecasting reference evapotranspiration using statistically based long-term temperature prediction information (통계적 기반의 장기 기온예측정보를 이용한 기준증발산량 전망)

  • Kim, Chul-Gyum;Lee, Jeongwoo;Lee, Jeong Eun;Kim, Hyeonjun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.390-390
    • /
    • 2021
  • 본 연구에서는 통계적 방법에 의해 예측된 미래기간의 기온정보와 기온기반의 기준증발산량 산정방법을 연계하여 한강권역을 대상으로 최대 12개월의 미래기간에 대한 기준증발산량을 전망하였다. 기온정보는 Kim et al. (2020)의 연구와 같이 글로벌 기후지수와의 원격상관성을 기반으로 개발된 다중회귀모형을 이용하여 미래기간(예측시점 기준 1~12개월)에 대해 월 평균기온을 예측하고 이를 상세화하여 한강권역 내 주요 ASOS 지점별로 최고/최저기온을 도출하였다. 기준증발산량은 Hamon 방법(Hamon, 1960, 1963)을 기반으로 각 지점별로 상세화된 최고/최저기온을 이용하여 동일한 미래기간(1~12개월)에 대해 산정하였다. 한강권역 전체에 대해 2015년 1월~2020년 12월의 월별 평균기온과 각 지점별 산정한 기준증발산량을 활용하여 기온 및 기준증발산량에 대한 예측성을 분석하였다. 한강권역 전체에 대해 예측된 월별 평균기온의 경우 실제 관측값과 비교하였을 때, PBIAS 4.2~6.4%, R2 0.97~0.98, NSE 0.97~0.98 등으로 매우 높은 예측성을 보였다. 지점별로 상세화된 기온정보를 이용하여 산정한 기준증발산량을 실제 기온으로부터 산정한 기준증발산량과 비교한 결과는 PBIAS 5.0~6.8%, R2 0.97~0.98, NSE 0.96~0.97로 기온에 대한 예측성과 유사하게 나타났다. 기온과 기준증발산량 모두 일부 월이나 일부 지점에서 관측값과 비교했을 때 다소 차이를 보이는 경우도 있었으나, 대상유역 전반적으로는 매우 안정적인 예측결과를 확인할 수 있었다. 기준증발산량에 대한 예측결과(미래 1~12개월)는 계절 및 월 단위의 유역 수자원 전망에 유용하게 활용될 수 있을 것으로 판단된다.

  • PDF

Measuring Similarity Between Movies Based on Sentiment of Tweets (트위터를 활용한 감성 기반의 영화 유사도 측정)

  • Kim, Kyoungmin;Kim, Dong-Yun;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.3
    • /
    • pp.292-297
    • /
    • 2014
  • As a Social Network Service (SNS) has become an integral part of our everyday lives, millions of users can express their opinion and share information regardless of time and place. Hence sentiment analysis using micro-blogs has been studied in various field to know people's opinion on particular topics. Most of previous researches on movie reviews consider only positive and negative sentiment and use it to predict movie rating. As people feel not only positive and negative but also various emotion, the sentiment that people feel while watching a movie need to be classified in more detail to extract more information than personal preference. We measure sentiment distributions of each movie from tweets according to the Thayer's model. Then, we find similar movies by calculating similarity between each sentiment distributions. Through the experiments, we verify that our method using micro-blogs performs better than using only genre information of movies.