Type

Database

Creator

Date

Thumbnail

Search results

67 records were found.

Os recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de trad...
Civilizations rised with the emergence of new technologies, like agriculture and bronze, but one of the greastest inventions was writing. It represented a new way to comunicate, for all to read or to listen the words that were written or transcribed. Writing crosses ages, generations and borders. It is the way to transmit law, history, religion, thoughts and tecnological knowledge. Writing has syntax and lexical rules, converged along time, according to peoples pro le and nations. The dictionary takes an important role for language uniformization, stipulating how to spell words, their morphology and meanings. Tecnological development allowed the emergence of spell checking and morphological analysis tools, fundamental for natural language processing. This tools are important to write clear and error free documents. They help users to d...
O proliferar de ferramentas criadores de HTML e o uso de HTML guiado pelo aspecto, tem vindo a arruinar o seu lado conceptual. Este problema foi reconhecido e deu origem a vários formatos ou tecnologias com o objectivo de separar o aspecto do conceito. No entanto a realidade actual mostra uma enorme quantidade de páginas HTML com péssima leitura conceptual e estrutural, invalidando uma série de usos possíveis da informação nelas contida. Nesta comunicação apresenta-se um trabalho (em fase inicial) que pretende fazer engenharia reversa de HTML para permitir aumentar a sua acessibilidade, a fim de ser usada num browser para invisuais.
This paper describes NATools, a toolkit to process, analyze and extract translation resources from Parallel Corpora. It includes tools like a sentence-aligner, a probabilistic translation dictionaries extractor, word-aligner, a corpus server, a set of tools to query corpora and dictionaries, as well as a set of tools to extract bilingual resources.
In this document we present an open source Portuguese text to speech. Our first goal is to provide a flexible way to extend it, using a generic way to convert Portuguese words on SAMPA phonemes, and consult dictionaries only on exceptions examples. The Text-to-Speech is compound of five layers, each one based on simple rules in a way to be easily tuned. In order to do that, we wrote a generic text rewriting system that is presented in the section two. The result of this work is a tool that can be used as an independent Text-to-Speech system or as a Natural Language Processing library for various tasks. We present some examples how them can be used in the Applications section.
A estrutura dos documentos XML é descrita, habitualmente, em DTDs e/ou Schemas, o que permite ao programador estudar a forma de processamento estrutural mais correcta para o tipo de documento em causa. No entanto, outros documentos há em que o tipo de documento não está definido e que obriga a analisar o documento para inferir a estrutura em causa. Paralelamente algumas especificações baseadas em Schemas tendem a ser de tal modo grandes que se tornam impossíveis de ler. Neste documento pretendemos apresentar a ferramenta PFS, capaz de inferir tipos a partir de documentos XML, de mostrar de forma compacta essa informação e pretendemos ainda mostrar como esses tipos podem ajudar no processamento desses documentos (usando XML::DT com tipos).
Este documento presenta el proyecto TerminUM y el trabajo realizado en su alineador estadístico a nivel de palabra (NATools). Muestra una variedad de métodos de alineamento para corpora paralelos y discute los diccionarios terminológicos resultantes y su uso: evaluación de traducciones; construcción de un sistema de navegación para estudios lingüísticos, o traducción estadística.
Nowadays XML processing is performed using one of two approaches: using the SAX (Simple API for XML) or using the DOM (Document Ob ject Model). While these two approaches are adequate for most cases there are situations where other approaches can make the solution easier to write, read and, therefore, to maintain. This document presents a rewriting approach for XML documents processing, focusing the tasks of transforming XML documents (into other XML formats or other textual documents) and the task of rewriting other textual formats into XML dialects. These approaches were validated with some case studies, ranging from an XML authoring tool to a dictionary publishing mechanism.
In this article we present T-2O - a workbench to assist the process of translating heterogeneous resources into ontologies, to enrich and add multilingual information, to help programming with them, and to support ontology publishing. T - 2O is an ontology algebra.
Want to know more?If you want to know more about this cutting edge product, or schedule a demonstration on your own organisation, please feel free to contact us or read the available documentation at http://www.keep.pt/produtos/retrievo/?lang=en