• 제목/요약/키워드: language processing

검색결과 2,699건 처리시간 0.031초

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

전통문화 이미지를 위한 세부 자질 주목형 이미지 자동 분석기 (Detail Focused Image Classifier Model for Traditional Images)

  • 김규경;허윤아;김경민;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.85-92
    • /
    • 2017
  • 이 논문에서는 최근 전통문화의 늘어나는 콘텐츠와 대조적으로 전통문화에 대한 접근성이 떨어지는 점에 주목하여 이러한 콘텐츠의 접근성의 향상을 위해 지속된 관리와 연구를 위하여 전통문화 이미지를 위한 이미지 자동 분석기를 소개한다. 이 논문에서 소개하는 이미지 자동 분석기는 인공신경망을 기반으로 입력 이미지의 자질들을 벡터스페이스로 변환하여 이를 RNN 기반의 모델을 통하여 세부 자질들을 파악하여 전통문화 이미지의 분류를 행한다. 이러한 방법을 통하여 전체적으로 비슷하게 보이는 전통문화 이미지들의 분류를 가능케 한다. 해당 모델의 훈련을 위하여 한민족정보문화마당 기반의 형식을 토대로 넓은 폭의 이미지 데이터를 수집 및 정리하여 차후 전통문화 이미지 관련 분야에서 사용할 수 있는 데이터셋의 구축에 기여를 하였다. 또한 이러한 연구가 최종적으로 전통문화와 관련된 수요, 공급 및 연구가 한층 더 활발해지는 것에 기여를 한다.

데이터전송효율을 고려한 유니코드의 한글글자마디에 대한 연구 (A Study on the Hangul Syllables of Unicode System considering Data Transmission Efficiency)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2015
  • 본 논문은 유니코드 한글글자마디부호를 사용할 때 스크램블링으로 인하여 회선부호기의 데이터 전송효율에 미치는 영향을 연구하였다. 회선부호기의 스크램블링은 원천부호의 문제를 해결하기 위한 것이다. 본 논문은 장거리전송에 사용되는 AMI회선부호화에 적용하는 국제표준방식인 HDB-3 스크램블링 방식을 토대로 하였다. 본 연구에 필요한 한글글자마디와 이에 대한 사용빈도는 국립국어원의 한국어자료를 분석한 데이터를 사용하였다. 연구결과 유니코드 한글글자마디에서 평균 24%의 스크램블링이 발생하였다. 유니코드 한글글자마디부호에 참고된 한글글자마디를 적용할 경우에 평균 27%의 스크램블링이 발생하였다. 유니코드 총 11,172개의 한글글자마디에서 스크램블링이 발생하지 않는 글자마디는 총 8,928개였다. 그러므로 참고된 한글글자마디 총1,540자를 스크램블링이 발생하지 않는 부호영역에 수용하여 스크램블링이 발생되지 않는 원천부호체계를 만드는 것이 가능하다는 결론을 도출하였다. 새로운 한글글자마디 부호체계를 적용할 경우, 27%의 스크램블링을 완전히 제거할 수 있다. 또한 물리계층의 회선 부호화기에서 발생하는 스크램블링을 표현계층에서 소프트웨어 적으로 수행하게 되어, 회선부호기의 데이터전송처리 효율을 최소 27%이상 제고시킬 수 있다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

인트라넷에서 가상데이터베이스를이용한 데이터베이스 검색 시스템의 설계 (Design for Database Retrieval System using Virtual Database in Intranet)

  • 이동욱;박영배
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1404-1417
    • /
    • 1998
  • 현재 웹을 통하여 인터넷 데이터베이스를 검색하는 방법에는 검색 엔진 기술을 이용한 방법과, 둘째 플러그인 기술이나 엑티브엑스 기술을 이용한 검색 방법으로 나눌 수 있다. 검색 엔진을 이용하는 방법은 단순 문서와 같은 대량의 텍스트 데이터를 키워드와 같은 인덱스를 구축하고 이를 이용하여 검색하는 방법으로서, 문제점은 하나 이상의 데이터베이스를 동시에 검색하지 못하고 또 질의어와 같은 다양한 형태의 조건 검색을 할 수가 없으며, 사용자의 요구에 맞지 않는 데이터가 많이 전송된다는 즉, 정확성이 낮다는 세 가지 점을 들 수 있다. 플러그인 기술이나 액티브엑스 기술을 이용하는 방법은 웹 화면상에서 DBMS를 이용하여 클라이언트의 질의를 실행시켜 데이터베이스를 검색하는 방법으로서, 문제점은 동일한 데이터모델의 경우라도 하나 이상의 DBMS를 동시에 기동시킬 수 없고 또 클라이언트 프로그램에서 미리 정의된 질의 이외의 다양한 종류의 질의를 할 수 없다는 두 가지 점을 들 수 있다. 본 논문에서는 이러한 문제점들을 해결하기 위해서 인터넷/인트라넷상에서 새로운 개념으로 작성한 가상데이터베이스를 이용하여 웹 화면을 통해서 다양한 종류의 질의를 직접 할 수 있는 데이터베이스 검색 시스템을 설계하는 데에 있다. 여기서, 가상데이터베이스는 동일한 관계데이터 모델로서 하나 이상의 관계 DBMS를 사용하는 것으로 가정한다.

  • PDF

장비점검 일지의 비정형 데이터분석을 통한 고장 대응 효율화 사례 연구 (Unstructured Data Analysis using Equipment Check Ledger: A Case Study in Telecom Domain)

  • 주연진;김유신;정승렬
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.127-135
    • /
    • 2020
  • 비정형 데이터의 수집, 분석 그리고 활용에 대한 필요성이 대두되고 있지만 여전히 비정형 데이터를 효과적으로 활용하지 못하고 있는 실정이다. 본 연구에서는 국내 유수 이동통신 기업의 통신 시설장비 점검 시스템에 기록된 비정형데이터를 분석하여 장비고장 대응과 예방에 적극 활용할 수 있는 기반을 만들고자 하였고, 약 220만 건의 작업일지 데이터를 텍스트 마이닝을 통해 구조화/정형화 하였다. 이를 위해 장비 고장과 관련된 4가지 분석 프레임, 고장인지, 고장원인, 고장대상, 조치결과를 구성하였고 분석 결과로는 크게 3가지의 효율화 방안과 관련한 인사이트를 얻을 수 있었다. 첫 번째로는 신속한 조치를 통한 시간 단축을 도모하고, 두 번째로는 고장장비 Unit 수요를 예측하고, 마지막으로 현장 출동의 최소화를 지원할 수 있을 것으로 기대되었다. 결론적으로, 본 사례연구는 통신시설 장비 고장 대응을 위해 데이터 분석 대상을 정형 데이터뿐만 아니라 장비일지라는 비정형 빅데이터로도 범위를 확장했으며, 이를 분석에 활용하기 위해 처음으로 텍스트 마이닝을 시도를 했다는데 의의를 가진다. 또한 N사는 정형 데이터 뿐 만아니라 년 80만 건씩 축적되던 비정형 데이터의 활용 가치를 확인할 수 있던 기회를 가졌으며, 향후 비정형 데이터의 활용 방안에 대한 발전방향 그리고 추후의 정형 데이터와의 연계 분석 방안 등에 대한 가이드를 확보할 수 있었다.

미들서버방식 한국형 IBT를 이용한 국가언어능력평가 시스템의 설계 및 구현 (Design and Implementation of National Language Ability Test System using Korean Style Internet-Based Test added Middle-Server)

  • 장영현;박대우
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권9호
    • /
    • pp.185-192
    • /
    • 2011
  • 본 논문의 목적은 미들서버에 대한 효율성과 안정성에 기반 한 한국형 IBT 시스템의 설계와 구현을 제안하는 것이다. 현재의 동일한 처리시스템은 전송절차, 비용, 시스템 부하 및 안정성에서 일부 불안정 요소들을 내포하고 있다. 본 논문에서는 최종적으로 고비용 제어, 운영 인적자원 및 특수한 운영 문제들로부터 관리 측면에서 다양성과 탁월성의 결과를 산출하는 한국형 IBT 시스템의 수행능력 향상을 위한 액티비티들을 처리한다. 미들서버를 사용하도록 제안된 시스템의 기술적 요소들은 최소단위의 모의시험 시스템을 사용하여 구현하였으며 실제 개발 절차는 수행 능력을 향상시키기 위한 기존의 IBT 시스템의 단점들을 개선하는 요구사항의 분석을 기반으로 시작하였다. 기존 시스템과 신규 개발 시스템의 효율성 비교는 다량의 운영자 영역, 비정상적 처리 조치, 시스템 유지보수를 대상으로 수행되었다. 다양한 부분에 대한 처리의 효과성에 대하여 미들서버를 사용하는 한국형 IBT 시스템은 최대 2배 정도의 성능을 달성하였다. 미들서버를 사용하는 한국형 IBT 시스템은 관리시스템과 사용 편리성에서 운영자와 관리자의 탁월한 평가를 도출하였다.

버섯 학술 용어 해설 (Explanation of mushroom academic terminology)

  • 이재성;성재모;김양섭;채정기;유영복;유승헌;차재순;이현숙;이재동;이종수;박원철;구창덕;석순자;김용갑;차병진;장현유
    • 한국버섯학회지
    • /
    • 제4권4호
    • /
    • pp.144-213
    • /
    • 2006
  • The mushroom production reached to 1000 billion won in monetary value in Korea. We, however, do not have systematic terminology dictionary published yet. Recently new varieties of medicinal mushrooms in addition to culinary mushrooms are being introduced steadily through out the world. This makes the necessity of coordinated and consistent arrangement of terms involved in culture, cultivation and physiological aspects of mushrooms. Various components in relation to the medicinal and physiological functionality also poses ambiguity in terminology along with the terms used in breeding and genetic researches. Moreover, some of the scientific terms are being used erroneously. In order to help mushroom cultivators, students, and mushroom business personnel in understanding the terms on mushroom science and technology we intended to collect and organize all the terms related to mushroom morphology and cultivation, poison and medicinal functionality, processing and utilization, and so on. Thirteen professionals from each field participated in this project. The fields included here are : 1) Genetics and breeding of mushrooms, 2) Cultivation and physiology of mushrooms, 3) Taxonomy and ecology of mushrooms, 4) Processing and functional components, 5) Blight and insects of mushrooms.

  • PDF

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

Work Hours and Cognitive Function: The Multi-Ethnic Study of Atherosclerosis

  • Charles, Luenda E.;Fekedulegn, Desta;Burchfiel, Cecil M.;Fujishiro, Kaori;Hazzouri, Adina Zeki Al;Fitzpatrick, Annette L.;Rapp, Stephen R.
    • Safety and Health at Work
    • /
    • 제11권2호
    • /
    • pp.178-186
    • /
    • 2020
  • Background: Cognitive impairment is a public health burden. Our objective was to investigate associations between work hours and cognitive function. Methods: Multi-Ethnic Study of Atherosclerosis (MESA) participants (n = 2,497; 50.7% men; age range 44-84 years) reported hours per week worked in all jobs in Exams 1 (2000-2002), 2 (2002-2004), 3 (2004-2005), and 5 (2010-2011). Cognitive function was assessed (Exam 5) using the Cognitive Abilities Screening Instrument (version 2), a measure of global cognitive functioning; the Digit Symbol Coding, a measure of processing speed; and the Digit Span test, a measure of attention and working memory. We used a prospective approach and linear regression to assess associations for every 10 hours of work. Results: Among all participants, associations of hours worked with cognitive function of any type were not statistically significant. In occupation-stratified analyses (interaction p = 0.051), longer work hours were associated with poorer global cognitive function among Sales/Office and blue-collar workers, after adjustment for age, sex, physical activity, body mass index, race/ethnicity, educational level, annual income, history of heart attack, diabetes, apolipoprotein E-epsilon 4 allele (ApoE4) status, birth-place, number of years in the United States, language spoken at MESA Exam 1, and work hours at Exam 5 (β = -0.55, 95% CI = -0.99, -0.09) and (β = -0.80, -1.51, -0.09), respectively. In occupation-stratified analyses (interaction p = 0.040), we also observed an inverse association with processing speed among blue-collar workers (adjusted β = -0.80, -1.52, -0.07). Sex, race/ethnicity, and ApoE4 did not significantly modify associations between work hours and cognitive function. Conclusion: Weak inverse associations were observed between work hours and cognitive function among Sales/Office and blue-collar workers.