• Title/Summary/Keyword: 언어 식별

Search Result 161, Processing Time 0.021 seconds

Discovery of Genre Information on the Web (웹 상에서의 특정 장르 문서 발견)

  • Joo, Won-Kyun;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.28-35
    • /
    • 1999
  • 정보공유를 목적으로 제안된 웹의 활성화와 함께 유용한 정보들이 웹상에 기하급수적으로 등장함에 따라 정보공간의 확장으로 인한 검색 신뢰도의 저하 문제에 직면하게 되었다. 본 연구에서는 대용량 웹 환경하에서 사용자의 정보발견을 돕기 위해 텍스트이외의 새로운 요소들을 사용하여 특정장르문서를 발견하는 개념을 도입하였다. 먼저 사용자가 발견하고자 하는 장르의 모습을 텍스트, URL정보, 링크 정보. 문서구조 정보 등의 장르 식별요소 값을 이용해 표현한 후, 후보 문서들의 장르관련도를 측정함으로써 특정장르 문서를 검색한다. 각 장르식별요소값은 나름대로의 방법에 의해 계산되는데 $0{\sim}1$사이의 값을 가지며, 종합적인 장르관련도는 각 장르식별요소값의 증거통합 방법에 의해 구한다. 본 논문에서는 각 장르식별요소들의 역할과 장르식별요소가 장르발견에 미치는 영향을 알아보며, 최종적으로 특정 장르 문서발견에 있어서의 검색 신뢰도 향상을 보이기 위해 실험모델을 설계/구현하였다. 본 실험은 웹 문서를 대상으로 하는데, 아직까지 URL, 링크 정보를 모두 갖춘 테스트컬렉션이 없기 때문에 실험을 위해 일반적인 웹 문서로 직접 구성한 컬렉션을 사용하였다. 발견하고자 하는 장르는 "컴퓨터 분야의 컨퍼런스 홈페이지"로 정하였으며 30개의 컴퓨터 분야를 선정하였다. 비교대상으로는 일반 웹 검색 엔진인 알타비스타와 메타검색 엔진인 메타크롤러를 선택하였고. 각 질의에 대해 상위 30개의 결과를 대상으로 정확도를 평가하였다. 결과로서 각 장르식별요소들은 모두 검색 신뢰도의 향상에 기여를 하며, 제안하는 방법은 알타비스타와 메타크롤러에 비해 각각 평균적으로 67.34%, 71.78%의 검색 신뢰도 향상을 보임을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함

  • PDF

Medical Image Similarity Measurement Method for Patient Identification Algorithms (환자 식별 알고리즘 보완을 위한 의료 영상 유사도 측정 방법)

  • Jeong, Byung-Hui;Yang, JunYong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.942-944
    • /
    • 2014
  • 최근 병원정보시스템의 도입으로 병원 내 의료서비스 효율성 향상이 두드러지고 있다. 이러한 병원정보시스템의 개선으로 의료정보 통합이라는 문제가 대두되고 있으며, 이를 시도하고자 하는 움직임이 나타나고 있다. 그러나 의료정보 통합을 위한 선행 단계로 동일 환자를 찾는 문제해결이 우선시 되며, 이를 위한 환자 식별 알고리즘의 연구가 필요시 되고 있다. 대표적인 사례로 MPI(Master Patient Index) 모듈을 통해 환자의 기본 정보 및 진료 정보 등의 여러 필드를 비교하여 유사도를 산출할 수 있으나, 국내에 적합하지 않는 언어체계, 필드별 최적 가중치의 산정 등 여러 가지 문제점들을 가지고 있다. 본 논문은 이러한 MPI 등과 같은 매칭 알고리즘의 정확도를 높일 수 있는 보완적인 방법으로, 환자 필드 정보 외에 촬영한 의료 영상(MRI) 정보를 활용하여 동일 환자를 찾는 방법을 제안한다. 기존의 영상 정보만을 활용한 방법과는 달리, 의료영상의 물리적인 정보를 환자 식별 시 가장 높은 가중치를 부여하여 변하지 않는 불변의 특정 값으로 하여 높은 정확도를 검출하였다. 이러한 영상 정보를 활용한 유사도 측정 결과는 향후 환자 식별에 있어 보조적인 수단으로 활용하고자 한다.

Design and Implementation of a Language Identification System for Handwriting Input Data (필기 입력데이터에 대한 언어식별 시스템의 설계 및 구현)

  • Lim, Chae-Gyun;Kim, Kyu-Ho;Lee, Ki-Young
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.10 no.1
    • /
    • pp.63-68
    • /
    • 2010
  • Recently, to accelerate the Ubiquitous generation, the input interface of the mobile machinery and tools are actively being researched. In addition with the existing interfaces such as the keyboard and curser (mouse), other subdivisions including the handwriting, voice, vision, and touch are under research for new interfaces. Especially in the case of small-sized mobile machinery and tools, there is a increasing need for an efficient input interface despite the small screens. This is because, additional installment of other devices are strictly limited due to its size. Previous studies on handwriting recognition have generally been based on either two-dimensional images or algorithms which identify handwritten data inserted through vectors. Futhermore, previous studies have only focused on how to enhance the accuracy of the handwriting recognition algorithms. However, a problem arisen is that when an actual handwriting is inserted, the user must select the classification of their characters (e.g Upper or lower case English, Hangul - Korean alphabet, numbers). To solve the given problem, the current study presents a system which distinguishes different languages by analyzing the form/shape of inserted handwritten characters. The proposed technique has treated the handwritten data as sets of vector units. By analyzing the correlation and directivity of each vector units, a more efficient language distinguishing system has been made possible.

Named Entity Recognition based on CRF reflecting relative weight (상대적 가중치 자질을 반영한 CRF 기반의 개체명 인식)

  • Jeong, Jin-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.338-339
    • /
    • 2017
  • 본 논문은 개체명 인식을 위해 CRF 모델을 이용해 분류를 수행했다. 개체명 후보를 개체명으로 식별에서 중의성 문제가 필요하다. 본 논문에서는 이러한 중의성 문제 해결을 위해 학습 셋으로부터 패턴과 형태적 특성을 고려해 개체명 후보를 최대로 선택하고 선택된 개체명 후보의 중의성과 정확도를 높이기 위해 주변의 문맥 자질과 분별 확률 모델인 CRF를 이용해 중의성 문제를 해결한다.

  • PDF

범죄음성의 식별

  • 고도흥
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.176-179
    • /
    • 2003
  • 범인의 음성을 녹취하여 본격적으로 컴퓨터를 이용하여 음향분석을 하는 것은 스펙트로그래프가 등장하는 1940년대 말 이전에는 없었다고 해도 과언이 아니다. 그러나 청지각적인 문제는 아마 수 백년 전부터 법정에서 논란이 있었을 것으로 추정한다. 영국에서는 이미 1660년에 법정에서 청지각적인 검사를 시행하였다는 기록이 있으며, 미국에서는 20세기 초엽에 플로리다 주에서 이미 청지각적인 증거를 법정에서 채택하였다는 기록이 있다. 오늘날 범죄음성에 대한 연구는 무고한 어린이의 유괴와 폭발물 설치협박 등과 같은 죄질이 무거운 범죄에 이용되기 때문에 문제가 심각한 실정이다. (중략)

  • PDF

Research Trends on Screening of Laryngeal Diseases using Acoustic Signal Analysis (음향신호 분석에 의한 후두질환의 식별법에 관한 연구동향)

  • 조철우;양병곤;김형순;권순복;왕수건
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.208-211
    • /
    • 2003
  • This paper introduces a history and achievements of the research activities on screening of laryngeal diseases using acoustic analysis. First domestic and international research trends are introduced. Next brief introduction of the research results by the authors are mentioned. First, classification method of the laryngeal diseases using neural network is summarized. Then similar research using ARS (Automatic Response System) is mentioned. Finally, current research activities on screening of laryngeal diseases on internet is introduced.

  • PDF

Identification of 5-Jung-color and 5-Kan-color In Video (비디오에서 오정색과 오간색 식별)

  • Shin, Seong-Yoon;Pyo, Seong-Bae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.1
    • /
    • pp.103-109
    • /
    • 2010
  • As color was used for formative language since a human activity was beginning, all the symptoms in the world that the human eye can see is present. In this paper, we identify Korea traditional color harmony for extracted key frames from scene change detection. Traditional color is classified as 5-Jung-color and 5-Kan-color, and determine whether to harmony. Red, blue, yellow, black, and white, called 5-Jung-color and pink, blue, purple, sulfur, and green, called the 5-Kan-color was identified. First, we extract edge using Canny algorithm. And, we are labeling and clustering colors around the edge. Finally, we identify the traditional color using identification method of traditional color harmony. The proposed study in this paper has been proven through experiments.

The Design of Context-Aware Middleware Architecture for Emotional Awareness Using Categorization of Feeling Words (감정표현단어 범주화 기반의 감정인식을 위한 상황인식 미들웨어 구조의 설계)

  • Kim, Jin-Bong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.998-1000
    • /
    • 2014
  • 상황인식 컴퓨팅 환경에서 가장 핵심적인 부분은 서비스를 제공받는 객체의 상황(Context)을 인식하고 정보화하여 그 상황에 따라서 객체 중심의 지능화된 최적의 서비스를 제공해 주는 것이다. 이러한 지능화된 최적의 서비스를 제공하기 위해서는 최적의 상황을 인식하는 상황인식 컴퓨팅 기술 연구와 그 상황을 설계하는 모델링 기술이 중요하다. 또한, 인간과 컴퓨터간의 의사소통을 원활히 할 수 있는 최적의 상황을 인식해야 한다. 현재까지 연구된 대부분의 상황인식 컴퓨팅 기술은 상황정보로 객체의 위치정보와 객체의 식별정보만을 주로 사용하고 있다. 그러므로 지정된 공간에서 상황을 발생시키는 객체를 식별하는 일과 식별된 객체가 발생하는 상황의 인식에만 주된 초점을 두고 있다. 그러나 본 논문에서는 객체의 감정표현단어를 상황정보로 사용하여 감정인식을 위한 상황인식 미들웨어로서 ECAM의 구조를 제안한다. ECAM은 감정표현단어의 범주화 기술을 기반으로 온톨로지를 구축하여 객체의 감정을 인식한다. 객체의 감정표현단어 정보를 상황정보로 사용하고, 인간의 감정에 영향을 미칠 수 있는 환경정보(온도, 습도, 날씨)를 추가하여 인식한다. 객체의 감정을 표현하기 위해서 OWL 언어를 사용하여 온톨로지를 구축하였으며, 감정추론 엔진은 Jena를 사용하였다.

A Method Name Suggestion Model based on Abstractive Text Summarization (추상적 텍스트 요약 기반의 메소드 이름 제안 모델)

  • Ju, Hansae;Lee, Scott Uk-Jin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.137-138
    • /
    • 2022
  • 소스 코드 식별자의 이름을 잘 정하는 것은 소프트웨어 엔지니어링에서 중요한 문제로 다루어지고 있다. 프로그램 엔티티의 의미있고 간결한 이름은 코드 이해도에 중요한 역할을 하며, 소프트웨어 유지보수 관리 비용을 줄이는 데에 큰 효과가 있다. 이러한 코드 식별자 중 평균적으로 가장 복잡한 식별자는 '메소드 이름'으로 알려져 있다. 본 논문에서는 메소드 내용과 일관성 있는 적절한 메소드 이름 생성을 자연어 처리 태스크 중 하나인 '추상적 텍스트 요약'으로 치환하여 수행하는 트랜스포머 기반의 인코더-디코더 모델을 제안한다. 제안하는 모델은 Github 오픈소스를 크롤링한 Java 데이터셋에서 기존 최신 메소드 이름 생성 모델보다 약 50% 이상의 성능향상을 보였다. 이를 통해 적절한 메소드 작명에 필요한 비용 절감 달성 및 다양한 소스 코드 관련 태스크를 언어 모델의 성능을 활용하여 해결하는 데 도움이 될 것으로 기대된다.

  • PDF

Domain-agnostic Pre-trained Language Model for Tabular Data (도메인 변화에 강건한 사전학습 표 언어모형)

  • Cho, Sanghyun;Choi, Jae-Hoon;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF